1.本發(fā)明涉及計算機(jī)算法領(lǐng)域,特別是一套知識融合消歧算法以及配套的策略迭代方法。
背景技術(shù):
2.傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法是主要對未知參數(shù)進(jìn)行點(diǎn)估計,在強(qiáng)化學(xué)習(xí)問題中,狀態(tài)轉(zhuǎn)移函數(shù),獎賞函數(shù)以及觀察函數(shù)都是完全未知的,所以,在這樣的情況下求解最優(yōu)值函數(shù)是比較困難的,而且還會降低算法的收斂速度。大部分強(qiáng)化學(xué)習(xí)算法都需要大量樣本計算求解一個現(xiàn)實(shí)問題,而沒有從相似的任務(wù)中獲取有效信息,降低樣本復(fù)雜度,
技術(shù)實(shí)現(xiàn)要素:
3.本部分的目的在于概述本發(fā)明的實(shí)施例的一些方面以及簡要介紹一些較佳實(shí)施例。在本部分以及本技術(shù)的說明書摘要和發(fā)明名稱中可能會做些簡化或省略以避免使本部分、說明書摘要和發(fā)明名稱的目的模糊,而這種簡化或省略不能用于限制本發(fā)明的范圍。
4.鑒于上述和/或現(xiàn)有的知識融合消歧算法以及配套的策略迭代方法中存在的問題,提出了本發(fā)明。
5.因此,本發(fā)明所要解決的問題在于如何提供一套知識融合消歧算法以及配套的策略迭代方法。
6.為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:一套知識融合消歧算法以及配套的策略迭代方法,其包括,
7.建立特征子空間表示和標(biāo)記全局消岐策略的偏標(biāo)記學(xué)習(xí)算法;
8.基于偏標(biāo)記學(xué)習(xí)算法對動作值函數(shù)建立學(xué)習(xí)模型;
9.利用方差閾值動態(tài)控制模型學(xué)習(xí)次數(shù);
10.通過高斯伽瑪分布均值差異變化進(jìn)行分布參數(shù)更新實(shí)現(xiàn)策略迭代;
11.利用-vpi求解最優(yōu)動作。
12.作為本發(fā)明所述知識融合消歧算法以及配套的策略迭代方法的一種優(yōu)選方案,其中:所述特征值子空間的屬性包含判別性,緊湊性與一致性。
13.作為本發(fā)明所述知識融合消歧算法以及配套的策略迭代方法的一種優(yōu)選方案,其中:所述全局消岐策略利用全局語義信息,消除標(biāo)記候選集存在的偽標(biāo)記。
14.作為本發(fā)明所述知識融合消歧算法以及配套的策略迭代方法的一種優(yōu)選方案,其中:所述特征子空間使用圖拉普斯拉約束,對于訓(xùn)練數(shù)據(jù)集集中的任意兩個示例xi和xj的相似性通過k近鄰的方式計算,
[0015][0016]
其中σ為示例樣本歐拉幾得距離均值。
[0017]
作為本發(fā)明所述知識融合消歧算法以及配套的策略迭代方法的一種優(yōu)選方案,其中:所述方差閾值可以進(jìn)行對于模型計算次數(shù)的控制,當(dāng)方差閾值越小時,需要進(jìn)行的模型計算次數(shù)越少。
[0018]
作為本發(fā)明所述知識融合消歧算法以及配套的策略迭代方法的一種優(yōu)選方案,其中:所述高斯伽瑪分布中r
x,u
是滿足高斯分布的隨機(jī)變量,p(μ
x,u
)概率為高斯伽瑪分布,p(μ,τ)~ng(μ0,λ,α,β),可表示為
[0019][0020]
其中μ
x,u
被近似認(rèn)為是q(x,u)值,τ表示高斯分布方差的倒數(shù),
[0021]
作為本發(fā)明所述知識融合消歧算法以及配套的策略迭代方法的一種優(yōu)選方案,其中:所述-vpi求解最優(yōu)函數(shù)可表示為
[0022][0023][0024]
基于高斯勒讓積分公式的節(jié)點(diǎn)與參數(shù)對照表,可求解vpi(x,u)。
[0025]
作為本發(fā)明所述知識融合消歧算法以及配套的策略迭代方法的一種優(yōu)選方案,其中:所述偏標(biāo)記學(xué)習(xí)算法包含兩個階段
[0026]
低階表示矩陣的學(xué)習(xí);
[0027]
基于消岐策略的分類算法。
[0028]
作為本發(fā)明所述知識融合消歧算法以及配套的策略迭代方法的一種優(yōu)選方案,其中:所述圖拉普斯拉約束通過懲罰項(xiàng)約束標(biāo)記空間。
[0029]
作為本發(fā)明所述知識融合消歧算法以及配套的策略迭代方法的一種優(yōu)選方案,其中:所述偏標(biāo)記學(xué)習(xí)算法運(yùn)行過程中,模型學(xué)習(xí)與策略學(xué)習(xí)同時進(jìn)行。
[0030]
本發(fā)明有益效果為在標(biāo)記層面充分利用全局語義信息實(shí)現(xiàn)標(biāo)記消歧,具體的,該算法將高維特征映射到低維子空間,使用正交約束約束映射矩陣,使得學(xué)到的低維度特征子空間更加緊湊沒有冗余再利用高斯伽瑪分布對動作值函數(shù)進(jìn)行建模,求解值函數(shù)后驗(yàn)。將知識融合消歧算法思想應(yīng)用于策略迭代方法中,降低算法計算量,提高算法的收斂速度。
附圖說明
[0031]
為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其它的附圖。其中:
[0032]
圖1為實(shí)施例2中知識融合消歧算法以及配套的策略迭代方法的子空間維度變化實(shí)驗(yàn)數(shù)據(jù)。
[0033]
圖2為實(shí)施例2中知識融合消歧算法以及配套的策略迭代方法的稀疏約束參數(shù)改變實(shí)驗(yàn)數(shù)據(jù)。
[0034]
圖3為實(shí)施例2中知識融合消歧算法以及配套的策略迭代方法的模型復(fù)雜度參數(shù)改變實(shí)驗(yàn)。
[0035]
圖4為實(shí)施例2中知識融合消歧算法以及配套的策略迭代方法的一致性約束參數(shù)改變實(shí)驗(yàn)數(shù)據(jù)。
[0036]
圖5為實(shí)施例2中知識融合消歧算法以及配套的策略迭代方法的流程圖。
具體實(shí)施方式
[0037]
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合說明書附圖對本發(fā)明的具體實(shí)施方式做詳細(xì)的說明。
[0038]
在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是本發(fā)明還可以采用其他不同于在此描述的其它方式來實(shí)施,本領(lǐng)域技術(shù)人員可以在不違背本發(fā)明內(nèi)涵的情況下做類似推廣,因此本發(fā)明不受下面公開的具體實(shí)施例的限制。
[0039]
其次,此處所稱的“一個實(shí)施例”或“實(shí)施例”是指可包含于本發(fā)明至少一個實(shí)現(xiàn)方式中的特定特征、結(jié)構(gòu)或特性。在本說明書中不同地方出現(xiàn)的“在一個實(shí)施例中”并非均指同一個實(shí)施例,也不是單獨(dú)的或選擇性的與其他實(shí)施例互相排斥的實(shí)施例。
[0040]
實(shí)施例1
[0041]
參照圖1到圖,為本發(fā)明第一個實(shí)施例,該實(shí)施例提供了一套知識融合消歧算法以及配套的策略迭代方法,知識融合消歧算法以及配套的策略迭代方法包括
[0042]
建立特征子空間表示和標(biāo)記全局消岐策略的偏標(biāo)記學(xué)習(xí)算法;
[0043]
基于偏標(biāo)記學(xué)習(xí)算法對動作值函數(shù)建立學(xué)習(xí)模型;
[0044]
利用方差閾值動態(tài)控制模型學(xué)習(xí)次數(shù);
[0045]
通過高斯伽瑪分布均值差異變化進(jìn)行分布參數(shù)更新實(shí)現(xiàn)策略迭代;
[0046]
利用-vpi求解最優(yōu)動作。
[0047]
所述特征值子空間的屬性包含判別性,緊湊性與一致性。
[0048]
特征子空間應(yīng)該具有三種屬性:判別性,一致性,和緊湊性。采用最小二乘損失確保特征子空間更具有判別性,利用圖拉普拉斯約束確保特征子空間和原始特征空間的流形結(jié)構(gòu)一致,使用正交約束確保特征子空間是緊湊的沒有冗余。
[0049]
利用標(biāo)記傳播迭代方式進(jìn)行候選標(biāo)記消岐,通過k近鄰最小重構(gòu)損失的方法來進(jìn)行偏標(biāo)記學(xué)習(xí)模型計算,偏標(biāo)記學(xué)習(xí)模型進(jìn)行相似度計算,基于樣本x建立距離下的矩陣e,
[0050][0051]
s.t.w
iaj
≥0
[0052]
其中w為權(quán)重矩陣,w
ij
為相似度。
[0053]
高維度的特征空間映射到一個低維度的判別能力強(qiáng)的特征子空間,來解決冗余特征帶來的潛在問題。同時,特征映射矩陣用正交約束確保學(xué)到的特征子空間更加緊湊沒有冗余。然后我們使用全局消歧策略探索偏標(biāo)記學(xué)習(xí)中的全局語義信息。我們采用標(biāo)記置信度矩陣取代原始標(biāo)記空間,同時,為了符合偏標(biāo)記學(xué)習(xí)中的標(biāo)記空間應(yīng)該有的稀疏特性,我們引入范數(shù)約束標(biāo)記置信度矩陣。最后,我們對低維度的特征子空間和和標(biāo)記置信度矩陣
都加上圖拉普拉斯約束。在低維度子空間的圖拉普拉斯矩陣是為了保持?jǐn)?shù)據(jù)的流形結(jié)構(gòu),使得原來相似的樣本在投影到新的特征子空間后依然相似,樣本之間的拓?fù)浣Y(jié)構(gòu)不改變。在標(biāo)記置信度矩陣增加的圖拉普拉斯約束,是為了增強(qiáng)標(biāo)記的局部一致性,標(biāo)記的局部一致性是指,如果兩個樣本所述特征子空間使用圖拉普斯拉約束,對于訓(xùn)練數(shù)據(jù)集集中的任意兩個示例xi和xj的相似性通過k近鄰的方式計算,
[0054][0055]
其中σ為示例樣本歐拉幾得距離均值。
[0056]
不僅在特征層面利用了子空間表示方法減輕了由于混合在高維度空間中的冗余特征造成的不利影響,還通過在標(biāo)記層面引入對標(biāo)記置信度矩陣的稀疏約束和圖拉普拉斯,探索了全局語義信息在實(shí)現(xiàn)消歧中發(fā)揮的效果。
[0057]
所述方差閾值的計算,對于變量q和n的分布概率密度定義
[0058][0059]
p為分布密度,z(n)為常量表示;
[0060]
令的分布期望與分布方差分別為
[0061][0062][0063]
當(dāng)參數(shù)ni越大時,對應(yīng)方差會越小。其計算為:
[0064]
所述高斯伽瑪分布中r
x,u
是滿足高斯分布的隨機(jī)變量,p(μ
x迭代尺度算法中的w收斂,u
)概率為高斯伽瑪分布,p(μ,τ)~ng(μ0,λ,α,β),可表示為
[0065][0066]
其中μ
x,u
被近似認(rèn)為是q(x,u)值,τ表示高斯分布方差的倒數(shù),
[0067]
所述-vpi求解最優(yōu)函數(shù)可表示為
[0068][0069][0070]
其中函數(shù)取i=0,1,2....n次多項(xiàng)式準(zhǔn)確成立得出的積分節(jié)點(diǎn)和積分系數(shù),通常采取(-1,1)的積分節(jié)點(diǎn)與積分系數(shù),其他分域通過變換到-1到1直接的函數(shù),最后基于高斯勒讓積分公式的節(jié)點(diǎn)與參數(shù)對照表,可求解vpi(x,u)。
[0071]
策略迭代算法是強(qiáng)化學(xué)習(xí)較為基本的學(xué)習(xí)算法,主要目的就是獲得最優(yōu)策略。策略迭代算法包含兩個模擬、交互的過程,一個是策略評估,通過計算值函數(shù)對策略進(jìn)行評
估,使得值函數(shù)能夠與當(dāng)前策略一致;另一個為策略改進(jìn),基于新的值函數(shù)對策略進(jìn)行改進(jìn),使得策略與當(dāng)前值函數(shù)不一致。在策略迭代過程中,這兩個過程是交替學(xué)習(xí)的,一個過程在另外一個過程結(jié)束后才開始,只要兩個過程都能夠持續(xù)地更新所有值函數(shù)和策略,算法總能夠收斂到最優(yōu)值和最優(yōu)策略,其中
[0072]
輸入:d:偏標(biāo)記數(shù)據(jù)集d={(xs1≤i≤n)}t:最大的迭代輪次d*:降維之后的特征x*:測試示例,其次輸出:y*:x*的預(yù)測標(biāo)記。流程是參數(shù)初始化設(shè)定,a,β,λ,設(shè)置標(biāo)記置信度矩陣p=y(tǒng),循環(huán)直到t《t
[0073]
a)更新分類模型w
[0074]
b)更新特征映射矩陣q
[0075]
c)更新標(biāo)記置信度矩陣p
[0076]
d)如果收斂,則跳出循環(huán)
[0077]
其后結(jié)束循環(huán),對于測試示例,y*=
tqt
x*所述偏標(biāo)記學(xué)習(xí)算法包含兩個階段
[0078]
低階表示矩陣的學(xué)習(xí);
[0079]
基于消岐策略的分類算法。
[0080]
所述圖拉普斯拉約束通過懲罰項(xiàng)約束標(biāo)記空間。
[0081]
所述偏標(biāo)記學(xué)習(xí)算法運(yùn)行過程中,模型學(xué)習(xí)與策略學(xué)習(xí)同時進(jìn)行。
[0082]
實(shí)施例2
[0083]
參照圖1到圖4,為本發(fā)明第二個實(shí)施例,其不同于第一個實(shí)施例的是:還包括在上一個實(shí)施例中,知識融合消歧算法以及配套的策略迭代方法包括策略迭代算法中,每一次策略評估都是從先前策略的值函數(shù)開始進(jìn)行一輪完整的迭代計算。這可以使得策略評估的收斂速度加快,因?yàn)樵u估后期值函數(shù)從一個策略到另外一個策略的變化差異不大。策略改進(jìn)往往是利用策略選擇使得值函數(shù)較大的動作。具體的參數(shù)改變實(shí)驗(yàn)數(shù)據(jù)如圖1到圖4。
[0084]
基于通過參數(shù)改變實(shí)驗(yàn)確定知識融合消歧算法以及配套的策略迭代方法計算a算法具有穩(wěn)定性后進(jìn)行其計算精度與其他計算算法比較如下表
[0085]
a算法與各個對比算法在真是數(shù)據(jù)集上的分類精度,基于顯著程度為0.05的成對t檢驗(yàn):
[0086][0087]
應(yīng)說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制,盡管參照較佳實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對本發(fā)明的技術(shù)
方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
技術(shù)特征:
1.一套知識融合消歧算法以及配套的策略迭代方法,其特征在于,包括:建立特征子空間表示和標(biāo)記全局消岐策略的偏標(biāo)記學(xué)習(xí)算法;基于偏標(biāo)記學(xué)習(xí)算法對動作值函數(shù)建立學(xué)習(xí)模型;利用方差閾值動態(tài)控制模型學(xué)習(xí)次數(shù);通過高斯伽瑪分布均值差異變化進(jìn)行分布參數(shù)更新實(shí)現(xiàn)策略迭代;利用-vpi求解最優(yōu)動作。2.如權(quán)利要求1所述的知識融合消歧算法以及配套的策略迭代方法,其特征在于:所述特征值子空間的屬性包含判別性,緊湊性與一致性。3.如權(quán)利要求1或2所述的知識融合消歧算法以及配套的策略迭代方法,其特征在于:所述全局消岐策略利用全局語義信息,消除標(biāo)記候選集存在的偽標(biāo)記。4.如權(quán)利要求3所述的知識融合消歧算法以及配套的策略迭代方法,其特征在于:所述特征子空間使用圖拉普斯拉約束迭代尺度算法中的w收斂,對于訓(xùn)練數(shù)據(jù)集集中的任意兩個示例x
i
和x
j
的相似性通過k近鄰的方式計算,其中σ為示例樣本歐拉幾得距離均值。5.如權(quán)利要求1、2和4任一所述的知識融合消歧算法以及配套的策略迭代方法,其特征在于:所述方差閾值可以進(jìn)行對于模型計算次數(shù)的控制,當(dāng)方差閾值越小時,需要進(jìn)行的模型計算次數(shù)越少。6.如權(quán)利要求5所述的知識融合消歧算法以及配套的策略迭代方法,其特征在于:所述高斯伽瑪分布中r
x,u
是滿足高斯分布的隨機(jī)變量,p(μ
x,u
)概率為高斯伽瑪分布,p(μ,τ)~ng(μ0,λ,α,β),可表示為其中μ
x,u
被近似認(rèn)為是q(x,u)值,τ表示高斯分布方差的倒數(shù),7.如權(quán)利要求6所述的知識融合消歧算法以及配套的策略迭代方法,其特征在于:所述-vpi求解最優(yōu)函數(shù)可表示為vpi求解最優(yōu)函數(shù)可表示為基于高斯勒讓積分公式的節(jié)點(diǎn)與參數(shù)對照表,可求解vpi(x,u)。8.如權(quán)利要求6或7所述的知識融合消歧算法以及配套的策略迭代方法,其特征在于:所述偏標(biāo)記學(xué)習(xí)算法包含兩個階段低階表示矩陣的學(xué)習(xí);基于消岐策略的分類算法。9.如權(quán)利要求8所述的知識融合消歧算法以及配套的策略迭代方法,其特征在于:所述
圖拉普斯拉約束通過懲罰項(xiàng)約束標(biāo)記空間。10.如權(quán)利要求1、2、4、6、7和9任一所述的知識融合消歧算法以及配套的策略迭代方法,其特征在于:所述偏標(biāo)記學(xué)習(xí)算法運(yùn)行過程中,模型學(xué)習(xí)與策略學(xué)習(xí)同時進(jìn)行。
技術(shù)總結(jié)
本發(fā)明公開了一套知識融合消歧算法以及配套的策略迭代方法,包括建立特征子空間表示和標(biāo)記全局消岐策略的偏標(biāo)記學(xué)習(xí)算法,基于偏標(biāo)記學(xué)習(xí)算法對動作值函數(shù)建立學(xué)習(xí)模型,利用方差閾值動態(tài)控制模型學(xué)習(xí)次數(shù),通過高斯伽瑪分布均值差異變化進(jìn)行分布參數(shù)更新實(shí)現(xiàn)策略迭代,利用-VPI求解最優(yōu)動作。將知識融合消歧算法思想應(yīng)用于策略迭代方法中,降低算法計算量,提高算法的收斂速度。提高算法的收斂速度。提高算法的收斂速度。
技術(shù)研發(fā)人員:涂亮 周育忠 林正平 王宏 趙超
受保護(hù)的技術(shù)使用者:貴州電網(wǎng)有限責(zé)任公司
技術(shù)研發(fā)日:2022.10.24
技術(shù)公布日:2023/1/19