out of memory. #2

rookie797 · 2022-11-18T08:09:32Z

抱歉打扰，在我运行您的代码时，报错runtimeerror: cuda out of memory，我通过降低batch size，换显存更大的GPU运行都无法解决，请问这应该检查什么部分或者如何解决呢？谢谢

Lei-Kun · 2022-11-18T09:30:03Z

你可以降低训练规模计算job 和 machine的数量，另外我在文章中给了训练超参数和硬件配置，你可以参考一下从 Windows 版邮件发送发件人: rookie797 发送时间: 2022年11月18日 16:09 收件人: leikun-starting/End-to-end-DRL-for-FJSP 抄送: Subscribed 主题: [leikun-starting/End-to-end-DRL-for-FJSP] out of memory. (Issue #2) 抱歉打扰，在我运行您的代码时，报错runtimeerror: cuda out of memory，我通过降低batch size，换显存更大的GPU运行都无法解决，请问这应该检查什么部分或者如何解决呢？谢谢 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

Lei-Kun · 2022-11-18T09:32:50Z

还有就是我有上传预训练模型，你可以直接运行validation进行测试从 Windows 版邮件发送发件人: rookie797 发送时间: 2022年11月18日 16:09 收件人: leikun-starting/End-to-end-DRL-for-FJSP 抄送: Subscribed 主题: [leikun-starting/End-to-end-DRL-for-FJSP] out of memory. (Issue #2) 抱歉打扰，在我运行您的代码时，报错runtimeerror: cuda out of memory，我通过降低batch size，换显存更大的GPU运行都无法解决，请问这应该检查什么部分或者如何解决呢？谢谢 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

weixians · 2022-12-05T05:40:47Z

我推测，这个问题出在了作者将矩阵邻接矩阵转成了稀疏表示
env_adj = aggr_obs(deepcopy(adj).to(device).to_sparse(), configs.n_j * configs.n_m)

Lei-Kun · 2022-12-05T07:06:33Z

10 \times10规模是可以在8g 的卡上训练的，30 \times 20 需要大概v100 32g版本的

Jonas-Nick · 2023-03-21T14:09:21Z

10 \times10规模是可以在8g 的卡上训练的，30 \times 20 需要大概v100 32g版本的

这个在哪里修改呀

Jonas-Nick · 2023-03-21T14:43:12Z

不知道为啥租了个 A100 还是out of memory

Yihua-Cheng · 2023-03-28T02:04:43Z

10 \times10规模是可以在8g 的卡上训练的，30 \times 20 需要大概v100 32g版本的

这个在哪里修改呀

在Params里面修改configs的参数

Xiaomingge666 · 2023-07-03T07:55:34Z

不知道为啥租了个 A100 还是内存不足

我也是，用一张A100显卡还是跑不动

heyuqiao · 2023-08-19T08:06:32Z

Params.py文件中，把第7、8行关于算例规模的设置改小就可以跑了，亲测10X5只需要3G

miemiedexiaoyang · 2024-03-26T10:01:07Z

Params.py文件中，把第7、8行关于算例规模的设置改小就可以跑了，亲测10X5只需要3G

能分享一下您的代码吗？一直调试报错

heyuqiao · 2024-03-26T11:28:34Z

Params.py文件中，把第7、8行关于算例规模的设置改小就可以跑了，亲测10X5只需要3G

能分享一下您的代码吗？一直调试报错

hyq4310，你加我V我发给你吧

Xiaomingge666 · 2024-03-27T10:53:30Z

已经解决了，把工件和机器数量调小就行

zhenghang000 mentioned this issue Sep 26, 2024

已经解决了，把工件和机器数量调小就行 #18

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

out of memory. #2

out of memory. #2

rookie797 commented Nov 18, 2022

Lei-Kun commented Nov 18, 2022 via email

Lei-Kun commented Nov 18, 2022 via email

weixians commented Dec 5, 2022

Lei-Kun commented Dec 5, 2022

Jonas-Nick commented Mar 21, 2023

Jonas-Nick commented Mar 21, 2023

Yihua-Cheng commented Mar 28, 2023

Xiaomingge666 commented Jul 3, 2023

heyuqiao commented Aug 19, 2023

miemiedexiaoyang commented Mar 26, 2024

heyuqiao commented Mar 26, 2024

Xiaomingge666 commented Mar 27, 2024

out of memory. #2

out of memory. #2

Comments

rookie797 commented Nov 18, 2022

Lei-Kun commented Nov 18, 2022 via email

Lei-Kun commented Nov 18, 2022 via email

weixians commented Dec 5, 2022

Lei-Kun commented Dec 5, 2022

Jonas-Nick commented Mar 21, 2023

Jonas-Nick commented Mar 21, 2023

Yihua-Cheng commented Mar 28, 2023

Xiaomingge666 commented Jul 3, 2023

heyuqiao commented Aug 19, 2023

miemiedexiaoyang commented Mar 26, 2024

heyuqiao commented Mar 26, 2024

Xiaomingge666 commented Mar 27, 2024