深度学习训练时 GPU 温度过高?输入这几行命令就能迅速降温
本篇文章2369字,读完约6分钟
雷锋。作者胡志浩最初发表在作者的个人博客上,和雷锋。com被授权发布。
新买的公共图形处理器没有水冷,当满负荷运行时,温度立即从室温上升到85度,模型训练几分钟内还没有完成,所以很有可能长时间保持高温运行。让如此昂贵的gpu一直燃烧真是令人苦恼!
首先,我受到智湖一个朋友的一篇文章的启发:从零开始组装深度学习平台(gpu冷却)。具体地址:
t/rk9wybk
本文通过修改ubuntu x服务器环境下的nvidia设置来修改gpu风扇速度,因为默认的nvidia设置是即使gpu在计算过程中温度达到85度,风扇速度最高也不会超过70%,所以gpu散热不好,所以有必要手动修改gpu风扇速度。
注意:以下设置都是针对linux系统的图形处理器的。请为windows好友搜索相关文章。
1.如果你有一台显示器(x服务器),你可以按照上面提到的文章“从零开始组装深度学习平台”进行操作。这里公布的关键步骤是:
1.修改/etc/x11/xorg.cong文件
sudo nano /etc/x11/xorg.conf
2.在“设备”部分添加选项“cool bits”“4”
“设备”部分
标识符“device0”
驱动程序“nvidia”
vendorname "nvidia "
选项“cool bits”4
末端部分
3.重启电脑重启
4.输入:
NVIDIA-settings-a "[GPU:0]/gpufancontrolstate = 1 "-a "[fan:0]/gputargethanspeed = 100 "
这里,gputargetfanspeed = 100是风扇的速度,100是风扇以100%运行的速度,也可以改变为其他速度。请注意,在新的nvidia驱动程序中,gpucurrentfanspeed更改为gputargetfanspeed。此外,gpufancontrolstate=1意味着用户可以手动调整gpu风扇速度。
感谢智虎原创作者:张三
第二,如果你没有显示器,在ubuntu上建立一个深度学习环境后,许多朋友习惯于禁用ubuntu的X桌面服务,然后通过另一台windows计算机通过ssh连接到gpu机器。此时,x服务器已被禁用,命令行模式将在启动后自动启动,因此上述第一种方法不适用于这种情况。原因是nvidia-settings只能在x桌面环境中运行,如果您想强制使用此设置,您将报告一个错误:
因此,在正常情况下,不可能通过修改该设置来改变风扇速度。
但是有没有其他方法来修改它呢?太好了。你需要骗过系统,让它有一个显示器,这通常被称为无头模式。
主要解决方案是参考本文中的链接(不带x的风扇速度:powermizer将卡降至P8):
t/rk9ass5
本文提供了一个修改风扇速度的脚本。在ubuntu下运行脚本可以实时调整风扇速度,从而冷却gpu。
这里提供了详细的步骤:
1.将此github存储库克隆到本地目录/opt:
github/Boris-Dimitrov/set _ GPU _ fans _ public
cd /opt
git clone github/Boris-Dimitrov/set _ GPU _ fans _ public
在上图中,这个仓库里有几个文件。主要功能是文件cool_gpu。克隆文件夹后,我们可以通过运行cool_gpu来调整风扇速度。
2.将文件夹名称修改为set-gpu-fans,由于作者疏忽,此文件夹在cool_gpu代码中被命名为“set-gpu-fans”,但git clone中的文件夹名称为“set_gpu_fans_public”。
sudo mv set _ GPU _ fans _ public set-GPU-fans
3.创建一个符号链接,让系统知道代码在哪里:
ln-SF ~/set-GPU-fans/opt/set-GPU-fans
4.找到设置gpu风扇文件夹,并输入以下命令:
CD/opt/set-GPU-风扇
苏多·tcsh
。/cool_gpu >& controller.log &
控制器日志
该命令用于运行cool_gpu冷却代码。开始后,您将看到这些实时变化:
在开始计算测试之前,让我们看看当前的gpu温度:
这里,2张卡片用于计算测试。我们可以看到2张卡的性能项目已经调整到“p2”(其他卡仍然是p8),2张卡的温度是35度,所有3个风扇的速度都是55%。“p2”指nvidia显卡的电源状态,从p0到p12。最高性能状态为p0,运行计算为p2,最低功耗(最低性能)为p12。
从模型训练开始,我们可以看到程序在不断地自动调节温度:
运行训练模型一段时间后,最终温度状态如下:
风扇都调整到80%的速度,温度稳定在65度!与文章开头的数据相比,显卡的温度从84度下降到了65度,整整下降了20度!
第三,应该注意的是,在上面第二部分的文章出来之前,还有一篇文章在网上流传,可以说是最原始的版本。上面第二部分的代码是基于文章的原始版本改进的,链接地址在这里(在没有x服务器的情况下设置风扇速度):
t/rk9yqmf
然而,在本文的原始代码中有一个严重的问题:虽然风扇速度可以被强制改变,gpu将被降级,并且电源状态将被强制到p8,导致计算性能严重下降!
可能是这篇文章发表得比较早,不适合最新的显卡和驱动程序。因此,上面的第二部分有一个改进的版本,所以你不应该使用原始版本的代码,否则gpu的性能会受到限制。
雷锋。(公开号码:雷锋。相关阅读:
对话“人工智能教父”黄仁勋:人工智能开启gpu计算时代
这篇文章详细解释了NVIDIA刚刚发布的特斯拉v100的牛在哪里。
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
标题:深度学习训练时 GPU 温度过高?输入这几行命令就能迅速降温
地址:http://www.6st8.com/zbxw/5221.html
免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。