에러문구 RuntimeError: GET was unable to find an engine to execute this computation

문제 상황

데이터로더(collate_fn 추가), 모델을 수정하고 학습시키려고 보니 오류가 발생했다.

  • 가설1. (모델을 수정하면서) backward 과정에 문제가 발생했다. (inplace 등으로 인해)
    • ⇒ 에러문구 + loss 로 검색해보고, inplace 로도 구글링해봤는데 괜찮은 검색결과가 나오지 않았다. 그리고 모델 수정하면서 구조가 더 간단해진거라 이왜틀..? 모델 파라미터에 영향을 미치지 않는 input parameter를 추가했는데, 이걸 잘못추가한 원인인가도 싶었음.
  • 가설2. (데이터로더를 수정하면서) 배치사이즈에 해당하는 0번째 dimension이 가변적이라 문제가 발생했다.
    • ⇒ shuffle 풀고 실험해볼 생각을 못했다...

해결 방법

stackoverflow : runtimeerror-get-was-unable-to-find-an-engine-to-execute-this-computation-when

github : RuntimeError: FIND was unable to find an engine to execute this computation

구글링했을 때 (1) nvidia-smi 이랑 nvcc --version 해서 버전 맞는지 확인해보기, (2) CUDA랑 pytorch랑 버전이 안 맞아서 그렇다는 의견이 다수였다.

나는 이전 모델을 수정한 것 뿐이고, 이전 모델은 잘 돌아갔기 때문에 흥! 웃기는 소리 이 생각함.

근데 도저히 해결방법을 모르겠어서 다시 설치하니까 됨. 심각하게 고민했는데 머쓱.

내 cuda랑 맞는 pytorch를 설치하는 법은 아래 링크에 나와있다.

pytorch previous-versions

나는 cuda11.4를 쓰고있기 때문에 11.3에 맞는 pytorch로 설치해주었다.

conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch

'* ML | DL > python' 카테고리의 다른 글

[Python] getattr() 특정 문자열의 이름을 가지는 attribute 반환  (0) 2023.07.20
[PyTorch] 텐서 반복하기 torch.Tensor.repeat  (0) 2023.07.18
[Python] 상속(Inheritance)  (0) 2023.07.17
pytorch DDP  (0) 2023.07.11
pandas apply  (0) 2023.05.11

BELATED ARTICLES

more