背景
公司的小机房有台服务器,上面是有插显卡的,通过nvidia-smi
可以看到:
可以看到,无论是 smi版本还是driver版本,都是相当久旧,最重要的是没有 CUDA ,我们的目的是重新配置,尽量新点。之前也搞过,但是没有记录下来,这次记一下。
检查显卡
工具有lshw
,nvidia-detect
,这里两个都去体验一下,推荐lshw
lshw
yum install -y lshw
lshw -numeric -C display
*-display
description: 3D controller
product: GK110BGL [Tesla K40c] [10DE:1024]
vendor: NVIDIA Corporation [10DE]
physical id: 0
bus info: pci@0000:03:00.0
version: a1
width: 64 bits
clock: 33MHz
capabilities: pm msi pciexpress bus_master cap_list
configuration: driver=nvidia latency=0
resources: iomemory:21f0-21ef iomemory:21f0-21ef irq:40 memory:ca000000-caffffff memory:21fe0000000-21fefffffff memory:21ff0000000-21ff1ffffff
上面告诉我们显卡型号是 Tesla K40c
nvidia-detect
yum install nvidia-detect
这里安装过程比较慢,耐心等待,我这里使用了/usr/local/proxychains-ng-master/bin/proxychains4 去加速,下载速度由2kb/s 提升到22kb/s,是的,速度翻了10倍,但依然很慢。
安装完成后,执行,结果如下
[root@original ~]# nvidia-detect -v
Probing for supported NVIDIA devices...
[102b:0532] Matrox Electronics Systems Ltd. MGA G200eW WPCM450
[10de:1024] NVIDIA Corporation GK110BGL [Tesla K40c]
This device requires the current 460.84 NVIDIA driver kmod-nvidia
WARNING: Xorg log file /var/log/Xorg.0.log does not exist
WARNING: Unable to determine Xorg ABI compatibility
WARNING: The driver for this device does not support the current Xorg version
更新显卡驱动
卸载旧驱动
yum remove -y nvidia*
reboot
查找新驱动
进入链接 https://www.nvidia.com/Download/index.aspx?lang=en-us
选择对应的显卡信息,CUDA这里我默认选择最新的 11.4
选择 点击 search ,可以选择下载
然后搞到下载链接后
下载链接:https://us.download.nvidia.com/tesla/470.57.02/NVIDIA-Linux-x86_64-470.57.02.run
wget https://us.download.nvidia.com/tesla/470.57.02/NVIDIA-Linux-x86_64-470.57.02.run
我这边是下载到 /root 目录下的。
屏蔽 nouveau
在/lib/modprobe.d/dist-blacklist.conf
中,将nvidiafb
注释掉
#blacklist nvidiafb
再在该文件中添加一下配置:
blacklist nouveau
options nouveau modeset=0
安装新驱动
chmod a+x NVIDIA-Linux-x86_64-470.57.02.run # 给驱动增加执行权限
./NVIDIA-Linux-x86_64-470.57.02.run -no-x-check -no-nouveau-check -no-opengl-files
命令解释:
- -no-x-check:安装驱动时关闭X服务
- -no-nouveau-check:安装驱动时禁用nouvea
- no-opengl-files:只安装驱动文件,不安装OpenGL文件, 只有禁用OpenGL这样安装才不会出现循环登陆的问题
安装过程是一个 图形化界面,遇到Install NVIDIA's 32-bit compatibility libraries
时选择 No
遇到Would you like to run the nvidia-xconfigutility to automatically update your x configuration so that the NVIDIA x driver will be used when you restart x? Any pre-existing x confile will be backed up.
时,选择 Yes
检查
lspci |grep NVIDIA
03:00.0 3D controller: NVIDIA Corporation GK110BGL [Tesla K40c] (rev a1)
nvidia-smi
Thu Oct 21 18:29:45 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02 Driver Version: 470.57.02 CUDA Version: 11.4 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla K40c Off | 00000000:03:00.0 Off | 0 |
| 23% 40C P0 67W / 235W | 0MiB / 11441MiB | 98% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
看到这里,我们已经安装成功了,但是还需要再一次重启
reboot
安装CUDA
下载
到官方链接 https://developer.nvidia.com/cuda-toolkit-archive
因为 CUDA Version: 11.4 ,这里选择了11.4.2
直接下载和安装,文件比较大,下载很慢,建议使用代理加速
安装
wget https://developer.download.nvidia.com/compute/cuda/11.4.2/local_installers/cuda_11.4.2_470.57.02_linux.run
sudo sh cuda_11.4.2_470.57.02_linux.run
显卡情况
可以看到,我们的显卡型号是 Tesla K40c,这是一款相对老的显卡了。这里有个 1080 vs K40c 的对比链接 https://versus.com/cn/nvidia-geforce-gtx-1080-vs-nvidia-tesla-k40
我们可以看到 K40c 的功耗是要比1080高的,晶体管少了100w,芯片工艺是28nm,那 K40c有什么地方是比 1080 好,那就是显存是12GB,比1080的8GB多了4GB,内存总线宽度是384bit 比1080的256bit大了128bit,处理单元2880也比1080的2560多了320。更多信息可以查看链接。
虽然这张卡有些年头了(2013年发布),但是当时也是很贵的一张卡,显存也大,某宝现在也就1000刚出头,性价比很高。
收官~ 👊
本文由 Chakhsu Lau 创作,采用 知识共享署名4.0 国际许可协议进行许可。
本站文章除注明转载/出处外,均为本站原创或翻译,转载前请务必署名。