概述
某臺聯想長風的配有8張顯卡的GPU服務器,由于需求調整,需要從單獨跑LINUX(RHEL7.2)調整為同時跑LINUX和,且使用GPU資源。根據情況,擬使用ESXI虛擬化物理服務器,配置顯卡直通來讓虛擬機使用顯卡資源。經過兩天的查找資料和實踐,完成了此需求,并將過程中遇到的問題記錄成此文檔,以備將來遇到同樣的情況時使用。
目錄
基礎環境
ESXI安裝與配置
ESXI安裝
安裝過程并非技術生難點,不作細述,按照正常流程安裝即可,需要注意的是,在第一次安裝的時候照搬文檔使用 ESXi 6.5配置顯卡直通禁用了板載顯卡,導致服務器卡死在 91處,無法進入操作系統和BIOS,最后聯系現象售后通過開箱CMOS放電才解決,結果BIOS默認配置即可安裝ESXI虛擬化。所有涉及BIOS的問題,除非有相關修改經驗,能咨詢官方的一定先咨詢官方,以免造成不必要的麻煩。
ESXI配置
在安裝好ESXI,并配置好IP后,通過Web 訪問該主機,配置顯卡直通。需注意的是,顯卡直通配置后需要重啟EXSI主機才能生效。配置過程如下:
登陸ESXI
在主機->管理->硬件->PCI設備中,勾選需要直通的8張顯卡,點擊切換為直通
重啟ESXI主機
新建虛擬機或以后虛擬機的硬件編輯中,點擊添加其他設備,在下拉框中選擇PCI設備
在新加的PCI設備的下拉框中選擇相應的顯卡,需注意的是
a. PCI直通顯卡為獨占設備,多臺虛擬機無法共用同一張卡,添加可以成功但會導致虛擬機無法啟動;
b. PCI直通顯卡需點擊預留內存,否則也會導致虛擬機無法啟動
在ESXI主機上,編輯虛擬機的VMX文件,添加.cpuid.v0 = "FALSE"一行到文件當中(此步非常關鍵,否則虛擬機即使裝上顯卡驅動,也無法正常運行該驅動,中,設備管理器報設備異常,停止運行,linux中,使用-smi命令,報 the of the : error)
安裝顯卡驅動安裝顯卡驅動
較為簡單,在官網下載相應驅動,直接執行exe文件即可。
linux安裝顯卡驅動
準確的說應為.5安裝 驅動。此過程比較麻煩,需禁用與之沖突的,需關閉圖形化界面進行安裝,需安裝gcc、gcc-c++、-devel(-devel的小版本也要同內核版本一直,否則會導致驅動安裝失敗),在執行驅動安裝程序找不到路徑時還得手動指定路徑。具體安裝步驟如下所示:
禁用
編輯/etc/.d/.conf,在文件后面加入
root用戶下運行如下兩條命令:
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

dracut -v /boot/initramfs-$(uname -r).img $(uname -r)
關閉圖形化界面
init 3
systemctl set-default multi-user.target
安裝必要utils
yum install -y gcc gcc-c++ kernel-devel-$(uname -r)
由于-devel的版本經常比內核版本新n卡驅動設置找不到,如果找不到-devel-$(uname -r)的話,可以在安裝介質的路徑下通過rpm -ivh -devel-$(uname -r)來進行安裝
安裝驅動
在完成以上步驟后n卡驅動設置找不到,即可運行從官網下載的安裝程序
chmod +x [driver-downloaded-from-official-website]
./[driver-downloaded-from-official-website]
# 如果報找不到kernel路徑,執行一下命令
./[driver-downloaded-from-official-website] --kernel-source-path=/usr/src/kernel/$(uname -r)/
至此,.5安裝 驅動完成。
后記
是開源的第三方N卡驅動,根據需求使用它還是使用官方驅動。聯想售后說,他們測試的ESXI6.5,通過虛擬化最多只能帶得動4張顯卡,目前在ESXI6.7上,8張顯卡都直通到了虛擬機,后面應用運行是否會有問題還待觀察。