目前主要有Intel的VT-x和AMD的AMD-V這兩種技術(shù)。其核心思想都是通過引入新的指令和運(yùn)行模式,使VMM和Guest OS分別運(yùn)行在不同模式(ROOT模式和非ROOT模式)下,且Guest OS運(yùn)行在Ring 0下。通常情況下,Guest OS的核心指令可以直接下達(dá)到計(jì)算機(jī)系統(tǒng)硬件執(zhí)行,而不需要經(jīng)過VMM。當(dāng)Guest OS執(zhí)行到特殊指令的時(shí)候,系統(tǒng)會(huì)切換到VMM,讓VMM來處理特殊指令。
1、Intel VT-x技術(shù)
為彌補(bǔ)x86處理器的虛擬化缺陷,市場(chǎng)的驅(qū)動(dòng)催生了VT-x,Intel推出了基于x86架構(gòu)的硬件輔助虛擬化技術(shù)Intel VT(Intel )。
目前,Intel VT技術(shù)包含CPU、內(nèi)存和I/O三方面的虛擬化技術(shù)。CPU硬件輔助虛擬化技術(shù),分為對(duì)應(yīng)安騰架構(gòu)的VT-i(Intel for )和對(duì)應(yīng)x86架構(gòu)的VT-x(Intel x86)兩個(gè)版本。內(nèi)存硬件輔助虛擬化技術(shù)包括EPT( Page Table)技術(shù)。I/0硬件輔助虛擬化技術(shù)的代表-d(Intel for I/0)。
-x技術(shù)解決了早期x86架構(gòu)在虛擬化方面存在的缺陷,可使未經(jīng)修改的運(yùn)行在特權(quán)級(jí)0,同時(shí)減少VMM對(duì)Guest OS的干預(yù)。Intel VT-d技術(shù)通過使VMM將特定I/O設(shè)備直接分配給特定的Guest OS,減少VMM對(duì)I/O處理的管理,不但加速數(shù)據(jù)傳輸,且消除了大部分性能開銷。如下圖所示。CPU硬件輔助虛擬化技術(shù)簡(jiǎn)要說明流程圖:
效法IBM 大型機(jī),VT-x提供了2 個(gè)運(yùn)行環(huán)境:根(Root)環(huán)境和非根(Non-root)環(huán)境。根環(huán)境專門為VMM準(zhǔn)備,很像原來沒有VT-x 的x86,只是多了對(duì)VT-x 支持的幾條指令。非根環(huán)境作為一個(gè)受限環(huán)境用來運(yùn)行多個(gè)虛擬機(jī)。
如上圖所示,根操作模式與非根操作模式都有相應(yīng)的特權(quán)級(jí)0至特權(quán)級(jí)3。VMM運(yùn)行在根模式的特權(quán)級(jí)0,的內(nèi)核運(yùn)行在非根模式的特權(quán)級(jí)0,的應(yīng)用程序運(yùn)行在非根模式的特權(quán)級(jí)3。運(yùn)行環(huán)境之間相互轉(zhuǎn)化,從根環(huán)境到非根環(huán)境叫;從非根環(huán)境到根環(huán)境叫。VT-x定義了操作,使CPU由根模式切換到非根模式,運(yùn)行客戶機(jī)操作系統(tǒng)指令。若在非根模式執(zhí)行了敏感指令或發(fā)生了中斷等,會(huì)執(zhí)行操作,切換回根模式運(yùn)行VMM。
根模式與非根模式之問的相互轉(zhuǎn)換是通過VMX操作實(shí)現(xiàn)的。VMM 可以通過VMXON 和打開或關(guān)閉VT-x。如下圖所示:
VMX操作模式流程:
1)、VMM執(zhí)行VMXON指令進(jìn)入VMX操作模式。
2)、VMM可執(zhí)行指令或指令產(chǎn)生VM Entry操作,進(jìn)入到Guest OS,此時(shí)CPU處于非根模式。
3)、Guest 0S執(zhí)行特權(quán)指令等情況導(dǎo)致的發(fā)生,此時(shí)將陷入VMM,CPU切換為根模式。VMM根據(jù)的原因作出相應(yīng)處理,處理完成后將轉(zhuǎn)到2),繼續(xù)運(yùn)行。
4)、VMM可決定是否退出VMX操作模式,通過執(zhí)行指令來完成。
為更好地支持CPU虛擬化,VMX新定義了虛擬機(jī)控制結(jié)構(gòu)VMCS( )。VMCS是保存在內(nèi)存中的數(shù)據(jù)結(jié)構(gòu),其包括虛擬CPU的相關(guān)寄存器的內(nèi)容及相關(guān)的控制信息。CPU在發(fā)生VM Entry或時(shí),都會(huì)查詢和更新VMCS。VMM也可通過指令來配置VMCS,達(dá)到對(duì)虛擬處理器的管理。VMCS架構(gòu)圖如下圖所示:
每個(gè)虛擬處理器都需將VMCS與內(nèi)存中的一塊區(qū)域聯(lián)合起來,此區(qū)域稱為VMCS區(qū)域。對(duì)VMCS區(qū)域的操縱是通過VMCS指針來實(shí)現(xiàn)的,這個(gè)指針是一個(gè)指向VMCS的64位的地址值。VMCS區(qū)域是一個(gè)最大不超過4KB的內(nèi)存塊,且需4KB對(duì)齊。
VMCS區(qū)域分為三個(gè)部分:偏移0起是VMCS版本標(biāo)識(shí),通過不同的版本號(hào),CPU可維護(hù)不同的VMCS數(shù)據(jù)格式;偏移4起是VMX中止指示器,在VMX中止發(fā)生時(shí),CPU會(huì)在此處存入中止的原因;偏移8起是VMCS數(shù)據(jù)區(qū),這一部分控制VMX非根操作及VMX切換。
VMCS 的數(shù)據(jù)區(qū)包含了VMX配置信息:VMM在啟動(dòng)虛擬機(jī)前配置其哪些操作會(huì)觸發(fā)。 產(chǎn)生后,處理器把執(zhí)行權(quán)交給VMM 以完成控制,然后VMM 通過指令觸發(fā) 返回原來的虛擬機(jī)或調(diào)度到另一個(gè)虛擬機(jī)。
VMCS 的數(shù)據(jù)結(jié)構(gòu)中,每個(gè)虛擬機(jī)一個(gè),加上虛擬機(jī)的各種狀態(tài)信息,共由3個(gè)部分組成,如之前的VMCS架構(gòu)圖所示:
1)、:該區(qū)域保存了虛擬機(jī)運(yùn)行時(shí)的狀態(tài),在 時(shí)由處理器裝載;在時(shí)由處理器保存。它又由兩部分組成:
2)、:該區(qū)域保存了VMM 運(yùn)行時(shí)的狀態(tài),主要是一些寄存器值端口輔助是什么意思,在 時(shí)由處理器裝載。
3)、 data:該區(qū)域包含幾部分?jǐn)?shù)據(jù)信息,分別是:
有了VMCS結(jié)構(gòu)后,對(duì)虛擬機(jī)的控制就是讀寫VMCS結(jié)構(gòu)。后面對(duì)vCPU設(shè)置中斷,檢查狀態(tài)實(shí)際上都是在讀寫VMCS數(shù)據(jù)結(jié)構(gòu)。
2、AMD-V技術(shù)
我們?cè)谏厦嫘」?jié)介紹了 Intel 的硬件輔助虛擬化技術(shù),那么 AMD 的硬件輔助虛擬化技術(shù)又有什么特點(diǎn)呢?AMD 從 2006 年便開始致力于硬件輔助虛擬化技術(shù)的研究,AMD-V全稱是AMD ,AMD-V從代碼的角度分別稱為 AMD和 SVM,AMD開發(fā)這項(xiàng)虛擬化技術(shù)時(shí)的內(nèi)部項(xiàng)目代碼為,是AMD推出的一種硬件輔助虛擬化技術(shù)。
Intel VT-x 和 AMD-V 提供的特征大多功能類似端口輔助是什么意思,但名稱可能不一樣,如 Intel VT-x 將用于存放虛擬機(jī)狀態(tài)和控制信息的數(shù)據(jù)結(jié)構(gòu)稱為 VMCS, 而 AMD-V 稱之為VMCB;Intel VT-x 將 TLB 記錄中用于標(biāo)記 VM 地址空間的字段為 VPID, 而AMD-V 稱之為 ASID;Intel VT-x 將二級(jí)地址翻譯稱之為 EPT, AMD 則稱為 NPT,等等一些區(qū)別。盡管其相似性,Intel VT-x 和 AMD-V 在實(shí)現(xiàn)上對(duì) VMM 而言是不兼容的。
AMD-V 在 AMD 傳統(tǒng)的x86-64 基礎(chǔ)上引入了“guest”操作模式。“guest”操作模式就是 CPU 在進(jìn)入客操作系統(tǒng)運(yùn)行時(shí)所處的模式。“guest”操作模式為客操作系統(tǒng)設(shè)定了一個(gè)不同于 VMM 的運(yùn)行環(huán)境而不需要改變客操作系統(tǒng)已有的 4 個(gè)特權(quán)級(jí)機(jī)制,也就是說在“guest”模式下,客操作系統(tǒng)的內(nèi)核仍然運(yùn)行在 Ring 0, 用戶程序仍然在 Ring 3。裸機(jī)上的操作系統(tǒng)和 VMM 所在的操作模式依然和傳統(tǒng)的 x86 中一樣,且稱之為“host”操作模式。VMM 通過執(zhí)行 VMRUN 指令使CPU 進(jìn)入“guest”操作模式而執(zhí)行客操作系統(tǒng)的代碼;客操作系統(tǒng)在運(yùn)行時(shí),遇到敏感指令或事件,硬件就執(zhí)行 行為,使 CPU 回到“host”模式而執(zhí)行 VMM 的代碼。VMRUN 指令運(yùn)行的參數(shù)是一個(gè)物理地址指針,其指向一個(gè) Block (VMCB) 的內(nèi)存數(shù)據(jù)結(jié)構(gòu), 該數(shù)據(jù)結(jié)構(gòu)包含了啟動(dòng)和控制一個(gè)虛擬機(jī)的全部信息。
“guest”模式的意義在于其讓客操作系統(tǒng)處于完全不同的運(yùn)行環(huán)境,而不需要改變客操作系統(tǒng)的代碼。“guest”模式的設(shè)立在系統(tǒng)中建立了一個(gè)比 Ring 0 更強(qiáng)的特權(quán)控制,即客操作系統(tǒng)的 Ring 0 特權(quán)必須讓位于 VMM 的 Ring 0 特權(quán)。客操作系統(tǒng)上運(yùn)行的那些特權(quán)指令,即便是在 Ring 0 上也變的可以被 VMM 截取的了,“Ring ”由硬件自動(dòng)搞定。此外,VMM 還可以通過 VMCB 中的各種截取控制字段選擇性的對(duì)指令和事情進(jìn)行截取,或設(shè)置有條件的截取,所有的敏感的特權(quán)或非特權(quán)指令都在其控制之中。
VMCB 數(shù)據(jù)結(jié)構(gòu)主要包含如下內(nèi)容 :
1. 用于描述需要截取的指令或事件的字段列表。其中 :
VMCB 以及其涉及的控制位圖,完全通過物理地址進(jìn)行指向,這就避免了“guest”和“host”模式切換的過程依賴于“guest”空間的線性地址 ( 傳統(tǒng)操作系統(tǒng)內(nèi)用戶空間到內(nèi)核的切換確實(shí)依賴于 IDT 中提供的目標(biāo)的線性地址 ),使得 VMM 可以采用和客操作系統(tǒng)完全不同的地址空間。
VMCB 的內(nèi)容在物理上被分成了倆部分,其中用于保存虛擬機(jī) CPU 狀態(tài)的信息占據(jù) 2048 字節(jié)的后半部分,我們可稱之為 VMCB.SAVE;其他信息,占據(jù)前 1024 字節(jié)范圍,我們可稱之為 VMCB.。
VMRUN 命令以 VMCB 為參數(shù),使CPU 進(jìn)入“guest”狀態(tài), 按 VMCB.SAVE 的內(nèi)容恢復(fù)虛擬機(jī)的 CPU 寄存器狀態(tài),并按 VMCB.SAVE 中 CS:RIP 字段指示的地址開始執(zhí)行虛擬機(jī) 的代碼, 并將之前 VMM 的 CPU 狀態(tài)保存在 寄存器所指向的物理內(nèi)存區(qū)域中。VMRUN 所保存的 VMM 的 CPU狀態(tài)的 CS:RIP 實(shí)際上就是 VMM 的代碼中 VMCB 的下一個(gè)指令,當(dāng)虛擬機(jī)因某種原因而導(dǎo)致 # 時(shí),VMM 會(huì)從 VMRUN 后的一條指令開始執(zhí)行。CPU 執(zhí)行 # 行為時(shí),會(huì)自動(dòng)將虛擬機(jī)的狀態(tài)保存到 VMCB.SAVE 區(qū),并從 指定的區(qū)域加載 VMM 的 CPU 狀態(tài)。
和 指令是對(duì) VMRUN 的補(bǔ)充,他們用來加載和恢復(fù)一些并不需要經(jīng)常使用的 CPU 狀態(tài),如 FS, GS, TR, LDTR 寄存器以及其相關(guān)的隱含的描述符寄存器的內(nèi)容, 和 可以讓 VMM 的實(shí)現(xiàn)對(duì)“guest”進(jìn)入和退出的過程進(jìn)行優(yōu)化,讓多數(shù)情況下只使用 VMRUN 進(jìn)行最少的狀態(tài)保存和恢復(fù)。
指令是 AMD-V 為客操作系統(tǒng)內(nèi)核提供的明確的功能調(diào)用接口,類似于 指令 ( 從 Ring3 到 Ring 0), 讓客操作系統(tǒng)直接執(zhí)行 # 而進(jìn)入 VMM,請(qǐng)求VMM 的服務(wù)。
3、總結(jié)
回顧一下CPU虛擬化技術(shù)的實(shí)現(xiàn),純軟件的CPU虛擬化使用了陷入-模擬的模式來模擬特權(quán)指令,而在x86架構(gòu)中由于只能模擬特權(quán)指令,無法模擬某些敏感指令而無法實(shí)現(xiàn)完全的虛擬化。(在x86架構(gòu)中,特權(quán)指令一定是敏感指令,但是敏感指令比特權(quán)指令多,造成某系敏感指令不是特權(quán)指令而無法模擬,使得CPU虛擬化異常),而硬件輔助虛擬化引入了根模式(root )和非根模式(none-root ),每種模式都有ring0-3的四級(jí)特權(quán)級(jí)別。所以,在硬件輔助虛擬化中,陷入的概念實(shí)際上被VM-EXIT操作取代了,它代表從非根模式退出到根模式,而從根模式切換到非根模式是VM-Entry操作。