RuntimeError: CUDA out of memory. Tried to allocate 348.00 MiB (GPU 1; 31.72 GiB total

你好，你的gpu里有其他程序把显存占满了。NLSN可以在8G的显卡上训练。 <p d

训练不了 about non-local-sparse-attention HOT 7 CLOSED

harukiyqm commented on August 26, 2024

训练不了

from non-local-sparse-attention.

Comments (7)

HarukiYqM commented on August 26, 2024

你好，你的gpu里有其他程序把显存占满了。NLSN可以在8G的显卡上训练。

from non-local-sparse-attention.

XiaoZhang-NN commented on August 26, 2024

你好，你的gpu里有其他程序把显存占满了。NLSN可以在8G的显卡上训练。

谢谢您的回复。我用的是v100,训练用的是800张DIV2K测试用的是10张DIV2K，训练完后，紧接着用10张DIV2K测试时（用于选择最佳模型）显示内存不够了，请问这个原因是？您对数据进行了额外处理？

from non-local-sparse-attention.

HarukiYqM commented on August 26, 2024

需要训练命令中加入—chop。这是一个sr中比较常用的方法(例如RCAN/SAN/CSNLN）将大图切成四块，用来缓解测试时的显存占用。可以参考readme里的训练命令
python main.py --dir_data ../../ --n_GPUs 4 --rgb_range 1 --chunk_size 144 --n_hashes 4 --save_models --lr 1e-4 --decay 200-400-600-800 --epochs 1000 --chop --save_results --n_resblocks 32 --n_feats 256 --res_scale 0.1 --batch_size 16 --model NLSN --scale 2 --patch_size 96 --save NLSN_x2 --data_train DIV2K

from non-local-sparse-attention.

XiaoZhang-NN commented on August 26, 2024

需要训练命令中加入—chop。这是一个sr中比较常用的方法(例如RCAN/SAN/CSNLN）将大图切成四块，用来缓解测试时的显存占用。可以参考readme里的训练命令
python main.py --dir_data ../../ --n_GPUs 4 --rgb_range 1 --chunk_size 144 --n_hashes 4 --save_models --lr 1e-4 --decay 200-400-600-800 --epochs 1000 --chop --save_results --n_resblocks 32 --n_feats 256 --res_scale 0.1 --batch_size 16 --model NLSN --scale 2 --patch_size 96 --save NLSN_x2 --data_train DIV2K

特别感谢，麻烦您了，我试试看。

from non-local-sparse-attention.

cheun726 commented on August 26, 2024

你好，你的gpu里有其他程序把显存占满了。NLSN可以在8G的显卡上训练。

x3,x4的都可以在8G的卡上训练吗？为什么我x2的就不可以在11G的卡上训练？两张11G的可以，我看了一下内存占用大概是16G，并且没有其他程序占用显存。

from non-local-sparse-attention.

XiaoZhang-NN commented on August 26, 2024

你好，你的gpu里有其他程序把显存占满了。NLSN可以在8G的显卡上训练。

x3,x4的都可以在8G的卡上训练吗？为什么我x2的就不可以在11G的卡上训练？两张11G的可以，我看了一下内存占用大概是16G，并且没有其他程序占用显存。

您好，我是用的小模型--n_resblocks 8--n_feats 64 所以加上-chop之后就可以运行了。不知道是否符合您的问题。

from non-local-sparse-attention.

cheun726 commented on August 26, 2024

谢谢您，我用的32个residual blocks，减小了应该可以。

from non-local-sparse-attention.

训练不了 about non-local-sparse-attention HOT 7 CLOSED

Comments (7)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent