code crash during the training Core was generated by `python -m emg.

Pytorch 1.0.1的错误与1.1的不一样 <div class="snippet-clipboard-content notranslate positio

Floating point exception (core dump) about realtime-semg HOT 2 CLOSED

tenghuo commented on July 20, 2024

Floating point exception (core dump)

from realtime-semg.

Comments (2)

TengHuo commented on July 20, 2024

Pytorch 1.0.1的错误与1.1的不一样

Using host libthread_db library "/lib/x86_64-linux-gnu/libthread_db.so.1".
Core was generated by `python -m emg.app --model cnn --gesture_num 8 --lr 0.01 --epoch 200 --train_bat'.
Program terminated with signal SIGFPE, Arithmetic exception.

#0  0x00007ff0473f991a in cudnn::gemm::conv2dFindConfig(cudnnContext*, cudnnTensor4dStruct*, cudnnFilter4dStruct*, cudnnConvolutionStruct*, cudnnTensor4dStruct*, cudnn::gemm::Conv2dType_t, cudnn::gemm::Conv2dConfig&)
    () from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libcaffe2_gpu.so
[Current thread is 1 (Thread 0x7ff01d499700 (LWP 4472))]
(gdb) bt
#0  0x00007ff0473f991a in cudnn::gemm::conv2dFindConfig(cudnnContext*, cudnnTensor4dStruct*, cudnnFilter4dStruct*, cudnnConvolutionStruct*, cudnnTensor4dStruct*, cudnn::gemm::Conv2dType_t, cudnn::gemm::Conv2dConfig&)
    () from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libcaffe2_gpu.so
#1  0x00007ff047459018 in cudnnGetConvolution4dBackwardDataWorkspaceSize_internal(cudnnContext*, cudnnFilter4dStruct*, cudnnTensor4dStruct*, cudnnConvolutionStruct*, cudnnTensor4dStruct*, cudnnConvolutionBwdDataAlgo_t, unsigned long*) ()
   from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libcaffe2_gpu.so
#2  0x00007ff047459280 in cudnnGetConvolution4dBackwardDataWorkspaceSize(cudnnContext*, cudnnFilter4dStruct*, cudnnTensor4dStruct*, cudnnConvolutionStruct*, cudnnTensor4dStruct*, cudnnConvolutionBwdDataAlgo_t, unsigned long*) () from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libcaffe2_gpu.so
#3  0x00007ff047170f68 in cudnnGetConvolutionBackwardDataWorkspaceSizeInternal(cudnnContext*, cudnnFilterStruct*, cudnnTensorStruct*, cudnnConvolutionStruct*, cudnnTensorStruct*, cudnnConvolutionBwdDataAlgo_t, unsigned long*) () from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libcaffe2_gpu.so
#4  0x00007ff04717f101 in cudnnStatus_t getConvolution<cudnnConvolutionBwdDataAlgo_t, cudnnConvolutionBwdDataAlgoPerf_t, 6, 8>(find_get_conv_params, int, int*, cudnnConvolutionBwdDataAlgoPerf_t*) ()
   from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libcaffe2_gpu.so
#5  0x00007ff04716beae in cudnnGetConvolutionBackwardDataAlgorithm ()
   from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libcaffe2_gpu.so
#6  0x00007ff04526bf98 in at::native::algorithm_search<cudnnConvolutionBwdDataAlgo_t>::getAlgorithm(at::native::ConvolutionArgs const&, cudnnConvolutionBwdDataAlgo_t*) ()
   from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libcaffe2_gpu.so
#7  0x00007ff0452683e7 in at::native::raw_cudnn_convolution_backward_input_out(at::Tensor const&, at::Tensor const&, at::Tensor const&, c10::ArrayRef<long>, c10::ArrayRef<long>, c10::ArrayRef<long>, long, bool, bool)
    () from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libcaffe2_gpu.so
#8  0x00007ff045268cda in at::native::cudnn_convolution_backward_input(char const*, c10::ArrayRef<long>, at::TensorArg const&, at::TensorArg const&, c10::ArrayRef<long>, c10::ArrayRef<long>, c10::ArrayRef<long>, long, bool, bool) () from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libcaffe2_gpu.so
#9  0x00007ff045268ef7 in at::native::cudnn_convolution_backward_input(c10::ArrayRef<long>, at::Tensor const&, at::Tensor const&, c10::ArrayRef<long>, c10::ArrayRef<long>, c10::ArrayRef<long>, long, bool, bool) ()
   from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libcaffe2_gpu.so
#10 0x00007ff045343a9b in at::CUDAFloatType::cudnn_convolution_backward_input(c10::ArrayRef<long>, at::Tensor const&, at::Tensor const&, c10::ArrayRef<long>, c10::ArrayRef<long>, c10::ArrayRef<long>, long, bool, bool) const () from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libcaffe2_gpu.so
#11 0x00007ff045266fca in at::native::cudnn_convolution_backward(at::Tensor const&, at::Tensor const&, at::Tensor const&, c10::ArrayRef<long>, c10::ArrayRef<long>, c10::ArrayRef<long>, long, bool, bool, std::array<bool, 3ul>) () from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libcaffe2_gpu.so
#12 0x00007ff045343992 in at::CUDAFloatType::cudnn_convolution_backward(at::Tensor const&, at::Tensor const&, at::Tensor const&, c10::ArrayRef<long>, c10::ArrayRef<long>, c10::ArrayRef<long>, long, bool, bool, std::array<bool, 3ul>) const ()
   from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libcaffe2_gpu.so
#13 0x00007ff03a401984 in torch::autograd::VariableType::cudnn_convolution_backward(at::Tensor const&, at::Tensor const&, at::Tensor const&, c10::ArrayRef<long>, c10::ArrayRef<long>, c10::ArrayRef<long>, long, bool, bool, std::array<bool, 3ul>) const ()
   from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libtorch.so.1
#14 0x00007ff03a232b16 in torch::autograd::generated::CudnnConvolutionBackward::apply(std::vector<torch::autograd::Variable, std::allocator<torch::autograd::Variable> >&&) ()
   from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libtorch.so.1
#15 0x00007ff03a207d56 in torch::autograd::Engine::evaluate_function(torch::autograd::FunctionTask&) ()
   from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libtorch.so.1
#16 0x00007ff03a209e80 in torch::autograd::Engine::thread_main(torch::autograd::GraphTask*) ()
   from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libtorch.so.1
#17 0x00007ff03a206a47 in torch::autograd::Engine::thread_init(int) ()
   from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libtorch.so.1
#18 0x00007ff06861733a in torch::autograd::python::PythonEngine::thread_init(int) ()
   from /home/teng/miniconda3/envs/py36/lib/python3.6/site-packages/torch/lib/libtorch_python.so
#19 0x00007ff07944c678 in std::execute_native_thread_routine_compat (__p=<optimised out>)
    at /opt/conda/conda-bld/compilers_linux-64_1534514838838/work/.build/x86_64-conda_cos6-linux-gnu/src/gcc/libstdc++-v3/src/c++11/thread.cc:94
#20 0x00007ff07d5e16db in start_thread (arg=0x7ff01d499700) at pthread_create.c:463
#21 0x00007ff07d30a88f in clone () at ../sysdeps/unix/sysv/linux/x86_64/clone.S:95

from realtime-semg.

TengHuo commented on July 20, 2024

reinstall Nvidia driver 430.14, never see the crash again

from realtime-semg.

Floating point exception (core dump) about realtime-semg HOT 2 CLOSED

Comments (2)

Related Issues (3)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent