nvidia驱动、cuda安装常见报错与解决方案
# 1. ERROR: Unable to load the 'nvidia-drm' kernel module.
sudo apt-get purge nvidia*
sudo apt-get autoremove
1
2
2
# 2. error: 'struct task_struct' has no member named 'state'; did you mean 'stats'?
驱动版本不适合当前的linux内核,可以找一下是否有相关的patch补丁,但是比较麻烦,最好看下cuda有没有更新版,例如cuda11.4有11.4.1、11.4.2、11.4.3、11.4.4。后面的可能就可以了。
# 3. ERROR: An NVIDIA kernel module ‘XXX’ appears to already be loaded in your kernel
- 查看并结束相应进程
使用lsof
命令,如果没有lsof则先用apt安装 sudo apt install lsof
。
lsof /dev/nvidia*
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
sbatchd 3680 root 5u CHR 195,255 0t0 56434 /dev/nvidiactl
kill -9 3680
1
2
3
4
5
2
3
4
5
- 卸载模块
rmmod nvidia_uvm # 不一定是这个模块,反正都是nvidia开头
1
如果卸载不掉可以先不管,把进程结束掉,确认lsof /dev/nvidia*
没有输出了,再重新装一下试试。
# 4. ERROR: Unable to find the module utility modprobe
; please make sure you have the package 'module-init-tools' or 'kmod' installed. If you do have 'module-init-tools' or 'kmod' installed, then please check that modprobe
is in your PATH.
sudo apt-get install kmod
export PATH=$PATH:/usr/sbin/modprobe
1
2
2
# 其他一些莫名的问题,可以尝试的思路
- Disable Nouveau kernel driver:https://askubuntu.com/questions/841876/how-to-disable-nouveau-kernel-driver
sudo nano /etc/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
options nouveau modeset=0
sudo update-initramfs -u
sudo reboot
1
2
3
4
5
2
3
4
5
编辑 (opens new window)
上次更新: 2024/12/04, 16:28:16