Tesla K40をUbuntuで動かす。CUDAとPytorchの環境構築とエラー対処方法も解説

Nvidia Tesla K40c とは？

Nvidiaのサーバー向けGPU、Kepler世代
現在中古で1~1.5万円ほどで取引されています
この価格帯でVRAM12Gは魅力的！

なお本記事ではNvidia Tesla K40 “C”
を扱います。以降はK40と呼びます。

K80との比較

K80はパッシブ冷却であり、ファンが付いていません。
自力で冷やす必要があります。
しかしK40はファンが付いています！

また、K80の電源コネクタは特殊です。
別途変換ケーブルが必要な場合が多いでしょう。
一方でK40は普通の8+6ピンです。

Ubuntu + CUDA + PyTorch で動かす！

基本的には一般的なCUDA環境のインストールと同じです。
K40でつまずきやすい点に絞って解説します。

Nvidiaドライバインストール

K40のドライバーバージョンは最大で、nvidia-driver-470です。

以下のコマンドで最適なドライバーバージョンとパッケージ名が表示されます。

$ sudo apt install -y ubuntu-drivers-common
$ ubuntu-drivers devices
== /sys/devices/pci0000:00/0000:00:01.0/0000:01:00.0 ==
modalias : pci:v000010DEd00001024sv000010DEsd00000983bc03sc02i00
vendor   : NVIDIA Corporation
model    : GK180GL [Tesla K40c]
driver   : nvidia-driver-470 - distro non-free recommended
driver   : nvidia-driver-418-server - distro non-free
driver   : nvidia-driver-390 - distro non-free
driver   : nvidia-driver-470-server - distro non-free
driver   : nvidia-driver-450-server - distro non-free
driver   : nvidia-340 - distro non-free
driver   : xserver-xorg-video-nouveau - distro free builtin

CUDAインストール

先程最大でnvidia-driver-470までしか入らないと言いました。
CUDAはnvidia-driverのバージョンと依存関係があります。
470だとCUDA 11.4 以降は導入できません。

CUDAインストール方法

NVIDIA ドライバ，NVIDIA CUDA ツールキット 11.8, NVIDIA cuDNN 8 のインストール（Ubuntu 上）

Ubuntu環境でのNVIDIAドライバ，CUDAツールキット11.8，cuDNN8のインストールには，以下のステップが必要である．始めに，NVIDIAの公式サイトからドライバをダウンロードし，インストールする．この操作は，NVIDIAグラ...

参照

CUDA 12.5 Update 1 Release Notes

The Release Notes for the CUDA Toolkit.

CUDAを入れると、Nvidia-smiが機能しなくなる問題 : (NVIDIA driver is installed and running)

CUDA Toolkit 12.1 Downloads

Get the latest feature updates to NVIDIA's proprietary compute stack.

Ubuntu環境にてCUDAをNvidia公式サイトの手順通り(localインストール)すると、
自動的にドライバーが、CUDAバージョンに合わせたものに上書きされるようです。

Tesla K40では、CUDA11.4までしかサポートされていないため、

Tesla K40では、CUDA11.4までしかサポートされていないため、
11.4のCUDAを入れてしまうと、サポート外のNvidiaドライバーがインストールされます。
そのためドライバーが機能しなくなり、nvidia-smiコマンドも”NVIDIA driver is installed and running”というエラーが表示されます。