欧美vvv,亚洲第一成人在线,亚洲成人欧美日韩在线观看,日本猛少妇猛色XXXXX猛叫

新聞資訊


    深度學習的世界中,無論您的模型多么先進,沒有充分對業務充分理解和干凈的數據都不會走得太遠。這個事實在金融領域尤其如此,在我們的數據集中,只存在股票的開盤價,最高價,最低價,調整后的收盤價和交易量的5個變量。

    在第一幅圖中,不難發現這些原始數據值不足以訓練機器學習模型。高度相關的變量乍看起來似乎很有希望,但是相關系數極高的缺點是實際上沒有那么多的信息。數據集基本上有五個數字,它們對模型說的完全相同,這使得模型很難理解允許機器學習交易者獲利的市場波動的復雜性。

    數據的相關性顯示在下面的分散矩陣內,其中對角線是變量分布的估計值。


    技術分析:這是一個數學工具箱,用來將嘈雜的原始金融數據轉換成可理解、清晰的信號,量化資產的動量、波動性、交易量和其他一般趨勢。幸運的是,TA是一個很棒的python庫,擁有所有這些指標,并允許對數據進行簡單的實驗。我們花費了大量時間來查找指標的不同組合,并對數據集進行自己的更改,以確保我們擁有最佳的數據集。 我們可以看到將相對強度指標(RSI)(其唯一輸入為收盤價)相對于下面的原始收盤價得出了顯著結果。



    但是,在數學金融領域,一個重大謬論是存在一些功能的完美組合,這些功能可以為您"預測"市場。與數據科學和機器學習中的許多方法一樣,這個工具實際上只在數據轉換階段提供幫助。這一事實在許多項目中得到了體現,因為最終您只需要相信您目前擁有的組合已經足夠好,可以讓模型學習。因此,我們確定了兩個動量指標,即經典相對強度和另一個被有趣地命名為awesome指標,以及兩個趨勢指標,移動平均收斂散度和Aroon指標。

    動量指標很有用,因為它們試圖量化股票在先前價格的背景下的走勢。這可能對代理人有所幫助,因為它可以嘗試了解動量增加通常是股價可能上漲的好兆頭,并且可以自信地持有股票直到動量開始減少。另一方面,趨勢指標通常形成動量指標的超集,因為趨勢跟蹤通常涉及動量和移動平均值的計算。通常,我們嘗試獲取動量生成的不容易量化的值,并將其轉換為百分比,其中正數和負數表示各自的趨勢。這種設置將進一步幫助代理了解股票走勢的能力,并希望了解趨勢和動量都開始上升時獲利的可能性很高。

    一個關鍵的發現是在我們的數據上應用了信號處理濾波器,該濾波器在固定數量的點之間插入多項式以顯著平滑數據。這是很重要的,因為我們使用的技術分析功能在本質上仍具有相當高的噪聲和連續性,因此更平滑的數據將使模型具有更清晰的信息并在環境中做出更好的決策。下圖通過顯著消除了許多容易造成模型混亂的隨機運動,證明了濾波器對開盤價的巨大平滑作用。


    在特征被挑選出來之后,還有一個預處理的關鍵操作,即對我們的數據進行標準化。盡管很容易忽略,但是忘記進行標準化會嚴重影響模型性能。更有趣的是,由于財務數字是無界的,因此沒有直接的方法來選擇如何規范化我們的數據,這與像素值介于0到255之間的圖像不同。例如,簡單的滾動窗口z得分計算可以很好地解決此問題。很好,因為z分數會將我們的所有數據轉換為大約-3到3的合理范圍。

    確定輸入后,我們就進入了超參數調整和模型優化的階段。在大多數深度學習應用程序中,模型具有多個可調超參數,即我們可以指定訓練時使用的模型的變量。這些參數的變化可以說是對模型性能的最重要的結果,因為模型訓練中的關鍵時刻受這些值控制。

    我們能夠了解近端策略優化(PPO)框架背后的機制,以幫助實驗,調整和改進現有模型的超參數。在此過程中,我們能夠深入了解某些超參數與代理獲得的獎勵之間的關系。這使我們能夠真正了解代理是否真正在學習。通過我們的探索,我們能夠發現我們的模型從股票交易中學到的一些有趣的見解。

    為了測試不同的超參數值與模型性能之間的關系,我們決定采用科學的方法。這種方法涉及我們一次只更改一個超參數來測試代理的性能。通過確保所有其他超參數保持恒定,我們能夠找出最有效地允許我們的代理學習的每個超參數的范圍。我們還通過使用種子控制了每個試驗中訓練的數據的隨機性。這樣可以確保模型性能的任何變化都可以歸因于指定的參數,而不是其他無關的變量。

    默認參數值:

    'n_steps': 1024,

    'gamma': 0.9391973108460121,

    'learning_rate': 0.0001,

    'ent_coef': 0.0001123894292050861,

    'cliprange': 0.2668120684510983,

    'noptepochs': 5,

    'lam': 0.8789545362092943

    Nsteps:此超參數告訴我們每個環境在更新模型之前要運行的步驟數。這從根本上決定了單一學習經歷對政策更新的影響程度。如果nsteps較低,則意味著該策略將不斷變化,并適應可能由隨機機會造成的經驗。因此,當模型的n_steps低時,每種學習經歷可能會對策略更改產生更大的影響。但是,與此有關的一個問題是,它可能導致相對不穩定的策略,該策略可能永遠不會收斂到最佳狀態。因此,通過調整超參數找到合適的平衡可以幫助獲得更好的代理交易性能。

    Gamma:接下來,我們繼續修改伽瑪值。這是折扣因子,基本上意味著它會削弱下一個獎勵在政策上的權重。通過對此進行調整,我們可以優化新政策與舊政策之間的差異。這使我們的代理可以朝著其最大目標邁出較小的步伐,而不會受到最新經驗的過度影響。

    Entropy coefficient:我們還試圖調整熵系數,該熵系數充當正則項并給策略增加隨機性。探索是強化學習中找到一個好的策略的至關重要的一點,如果策略收斂得太快,代理可能會發現自己陷入重復執行相同次優操作的局部最大值中。可以通過調整熵系數來糾正此行為,以防止過早收斂并鼓勵探索。

    Lambda:Lambda是用于減少Generalized Advantage Estimator(GAE)中方差的平滑參數。 GAE使用每個時間步驟的獎勵來估算采取特定行動后,代理的狀況會好轉多少。 Lambda通過確保策略不會過度適應特定的狀態-操作對,幫助穩定這種學習。

    關鍵發現

    在運行和微調每個列出的超參數后,我們得出了一些有趣的結論。首先,較高的nstep值范圍似乎會產生更健康的獎勵和優勢曲線。這意味著,當我們的代理在更新模型之前在每個環境中采取更多步驟時,它將學習更有效的交易策略。因為當nsteps參數較高時,模型的表現似乎更好,這可能意味著最佳策略是一種策略,即交易員購買股票并持有較長時間。這可能表明,我們在交易時可以采取的最佳策略是買入一只股票并持有它,而不是在更高的頻率上進行微交易的股票。

    除了從調整n_steps超參數中獲得的一些有趣的見解外,我們還發現在我們的模型中gamma的最佳值相對較高,性能最大化可達0.99。gamma值代表折扣率,因此會影響我們根據最新經驗更新策略的程度。這個超參數在較大值上的成功意味著,在改變策略時,新體驗會得到輕微的權衡。這意味著代理只稍微優先考慮短期回報。

    加入熵正則化有助于減少梯度估計中固有的噪聲。通過調整熵系數,我們發現將默認值調整到較高的0.01會導致更穩定的情節獎勵增加,并產生更健康的優勢曲線。在1e-3到1e-5的較小范圍內,我們看到熵損失迅速崩潰,這表明agent的策略過于迅速地變得確定性。相反,當熵系數過高的值(0.1 - -0.5),我們看到這一集獎勵壓扁和熵的減少損失,表明我們的代理無法學習由于高的概率熵系數是持有所有可能的行動幾乎是相同的。對于我們的代理來說,擁有一個相當高的熵系數值有助于防止由于短期市場趨勢而采取行動,因為它們并不總是轉化為長期收益。

    在改變lambda超參數時,我們發現它有一個很高的最優值范圍為0.99 ~ 0.999。當lambda設置為0時,GAE就變成了一步優勢估計器,它在進行策略更新時只考慮當前狀態。這類政策有很高的偏見。另一方面,如果我們讓lambda為1,GAE成為基線蒙特卡羅估計器,它可能會受到高方差的影響。有一個較高的lambda值表明在模型中注入一些偏差對我們的代理來說是重要的,但它確實有價值的長期回報。最大的增長是當我們的代理不受市場短期波動的影響,而是專注于長期的增量收益。

    在進行了充分的超參數調整后,我們能夠使用真實的市場數據生成我們的政策交易運行,每天政策可以買進、賣出或持有股票。灰色的點表示持有,黃色表示買入,綠色表示賣出。在下面的測試運行中,我們可以看到,總的來說,該政策在持有購買的資產幾天來產生一些利潤方面做得很好,但它也經歷了縮水,損失了一些利潤。這個測試運行是使用本文前面建議的超參數生成的。盡管超參數設置較強,但模型中仍存在大量波動性,這表明強模型訓練性能與實時模型結果并不完全相關。這個結果通常是金融建模中反復出現的主題。盡管如此,我們的智能體知道除了最大化我們的目標函數,沒有其他目標,卻能夠盈利,這無疑是強化學習的一個了不起的壯舉。


    總體而言,我們在這家PPO股票交易員上的工作使我們能夠深入研究最先進的強化學習研究,同時還致力于利用我們的知識來解決實際問題。 盡管問題非常復雜,但是我們每個人都能夠執行最適合我們每個技能的任務,并隨后與團隊的其他成員分享我們的結果以改善模型的性能。

    作者:UCLA DataRes

    deephub翻譯組

    023年7月31日
    意大利進口RCF單元再次進入鼎泰豐音響的倉庫。

    世界著名RCF音箱作為世界知名品牌音箱為什么那么受人喜歡,作為世界頂級音響廠商如何把音箱做到深得民心。


    1、人耳感受聲音的頻率范圍大約為20~20000Hz,rcf箱能在這個范圍內音樂音能達到精確平衡。rcf箱能在這個范圍內音樂音能達到精確平衡,沒有任何的刻意增強削弱,或是故意忽略,體現音樂的和諧自然。但需要說明的是,能做到完美平衡的器材幾乎沒有,而接近完美平衡的,也動輒人民幣數十萬計,一般發燒友,在自己的財力允許內做到相對平衡即可。


    2、RCF音響的低音單元在酒吧KTV音響里算是上乘的品牌,雖然沒有學JBL在國內打響名氣。但在清晰度方面,通過和鋁號角的結合,音質和擴聲力度在低音領域都是屬于高端級別。


    3、RCF音響能做到重現人聲的技術,就像你在角落里能聽到的歌聲是真人發出來的,而非是音響。目前國內基本沒一家公司能將人聲做得清晰透徹。而RCF是一款不可多得的好品牌。


    如果一套音響乍聽下來有驚艷之感,但聽多了就覺得耳朵很累很疲勞的話,那我們就可以認為其耐聽性不高。而rcf箱是無論聽多久,耳朵也不會累的。 也就是我們常說的離箱感或結像感。聽到的聲音好像不是從兩個音箱里出來的,而是有真人在一個位置發聲唱歌。


    鼎泰豐音響自主品牌GAEpro 和世界著名RCF音響廠商達成長久的合作,也做作為RCF單元主要代理商,同時把產品技術有質的提升,同時將會打開國內市場,將產品國際化給用戶帶來更加真實的體驗,并且與鼎泰豐公司攜手打造高端酒吧KTV音響品牌。


    RCF亞太區域銷售總監拉斯先生曾說:縱觀中國市場,我覺得中國的娛樂環境發展將會越來越好,消費者的娛樂需求及場所類型更趨多元化,各種不同類型的符合不同娛樂需求的文化娛樂場所將紛紛出現。


    經過多年的研發,鼎泰豐音響成功了研發出多系列符合娛樂音響,同時贏得了廣大消費一致認可。

    器之心專欄

    機器之心編輯部

    圖靈獎得主 Yoshua Bengio 和 Yann LeCun 在 2020 年的 ICLR 大會上指出,自監督學習有望使 AI 產生類人的推理能力。該觀點為未來 AI 領域指明了新的研究方向——自監督學習是一種不再依賴標注,而是通過揭示數據各部分之間關系,從數據中生成標簽的新學習范式。

    近年來,自監督學習逐漸廣泛應用于計算機視覺、自然語言處理等領域。隨著該技術的蓬勃發展,自監督學習在圖機器學習和圖神經網絡上的應用也逐漸廣泛起來,圖自監督學習成為了圖深度學習領域的新發展趨勢。

    本文是來自澳大利亞蒙納士大學(Monash University)圖機器學習團隊聯合中科院、聯邦大學,以及數據科學權威 Philip S. Yu 對圖自監督學習領域的最新綜述,從研究背景、學習框架、方法分類、研究資源、實際應用、未來的研究方向的方面,為圖自監督學習領域描繪出一幅宏偉而全面的藍圖。

    全文鏈接:https://arxiv.org/pdf/2103.00111.pdf

    1. 緒論

    近年來,圖深度學習廣泛應用于電子商務、交通流量預測、化學分子研究和知識庫等領域。然而,大多數工作都關注在(半)監督學習的學習模式中,這種學習模式主要依賴標簽信息對模型進行訓練,導致了深度學習模型獲取標簽成本高、泛化能力能力不佳、魯棒性差等局限性。

    自監督學習是一種減輕對標簽數據的依賴,從而解決上述問題的新手段。具體地,自監督學習通過解決一系列輔助任務(稱為 pretext task,代理任務)來進行模型的學習,這樣監督信號可以從數據中自動獲取,而無需人工標注的標簽來對模型進行監督訓練。

    自監督學習目前已經被廣泛應用于計算機視覺(CV)和自然語言處理(NLP)等領域,具體技術包括詞嵌入、大規模語言預訓練模型、圖像的對比學習等。然而,與 CV/NLP 領域不同,由于圖數據處于不規則的非歐幾里得空間,其具有獨特的特點,包括:1)需要同時考慮特征信息與不規則的拓撲結構信息;2)由于圖結構的存在,數據樣本(節點)間往往存在依賴關系。因此,圖領域的自監督學習(graph self-supervised learning)無法直接遷移 CV/NLP 領域的代理任務設計,從而為圖自監督學習帶來了獨有的概念定義和分類方法。

    不同領域的自監督代理任務對比

    圖自監督學習的歷史最早可追溯到經典的圖嵌入方法,包括 DeepWalk、Line 等,而經典的圖自編碼器(GAE)模型也可被視為一種圖自監督學習。自 2019 年以來,一系列新工作席卷了圖自監督學習領域,涉及到的技術包括但不限于對比學習、圖性質預測、圖生成學習等。然而,目前缺少系統性的分類法對這些方法進行歸類,同時該技術相關的框架與應用也沒有得到規范化的統計與調查。

    為了填補這一空缺,本文對圖自監督學習領域相關工作做了綜合、全面、實時的綜述。本文的主要貢獻有:1)以數學語言統一了的圖自監督學習框架,并提供了系統的分類法;2)對現有方法進行了綜合且實時更新的整理;3)統計了相關的研究資源和應用場景;4)指出了未來潛在的研究方向。

    2. 核心詞條與概念定義

    為了便于讀者理解,本文提供了以下核心詞條的定義辨析:

    人工標簽 vs 偽標簽:人工標簽指需要人類專家或工作者手動標注的標簽數據;偽標簽指機器可以從數據中自動獲取的標簽數據。通常,自監督學習中不會依賴人工標簽,而是依賴偽標簽來進行學習。

    下游任務 vs 代理任務:下游任務指具體用于衡量所學習表征和模型性能的圖分析任務,比如節點分類、圖分類等;代理任務指專門設計的、用于幫助模型無監督地學習更優表征從而在下游任務上取得更高性能的輔助任務。代理任務一般采用偽標簽進行訓練。

    監督學習、無監督學習與自監督學習:監督學習指通過人工標簽來訓練機器學習模型的學習范式,而無監督學習是一種無需人工標簽來學習的學習范式。作為無監督學習的子類,自監督學習指從數據本身獲取監督信號的學習范式,在自監督學習中,模型由代理任務進行訓練,從而在下游任務重獲取更好的性能和更佳的泛化性。

    本文主要研究圖數據。圖由節點集合和邊集合構成,其中節點的個數計為 n,邊的個數計為 m。圖的拓撲結構一般用 n*n 的鄰接矩陣 A 來表示,A_ij=1 表示節點 i 和節點 j 之間存在連接關系,A_ij=0 則表示二者無連接關系。對于屬性圖,存在一個特征矩陣 X 來包含每個點和每條邊的特征向量。

    對于大部分圖自監督學習方法,圖神經網絡(GNN)作為編碼器而存在。GNN 輸入鄰接矩陣 A 和特征矩陣 X,通過可學習的神經網絡參數,生成低維的表征矩陣 H,其中每一行為對應節點的表征向量。對于圖級別的任務,一般采用讀出函數 R 將節點表征矩陣聚合為一個圖表征向量,從而進行圖級別的屬性學習。

    3. 圖自監督學習框架與分類

    本文用編碼器 - 解碼器(encoder-decoder)框架來規范化圖自監督學習。其中編碼器 f 的輸入是原始圖數據(A,X),輸出為低維表征 H;代理解碼器 p 以表征 H 為輸入,輸出代理任務相關的信息。在此框架下,圖自監督學習可以表示為:

    其中 D 為相關的圖數據分布,L_ssl 為代理任務相關的損失函數。

    利用訓練好的編碼器 f,所生成的表征 H 被進一步用于下游任務的學習當中。通過引入下游解碼器 q,下游任務的學習可表示為:

    其中 L_sup 為下游任務相關的損失函數,y 為相關的人工標簽。

    在此框架下,本文通過以下幾個維度進行分類:1)通過進一步細分公式 (1) 中的代理解碼器 p 和損失函數 L_ssl,對圖自監督學習方法進行分類;2)通過進一步細分代理任務和下游任務的關系,對三種自監督學習模式進行分類;3)通過進一步細分公式 (2) 中的下游解碼器 q 和損失函數 L_sup,對下游任務進行分類。

    本文將圖自監督學習方法分為 4 個類別:基于生成的圖自監督學習方法,基于屬性的圖自監督學習方法,基于對比的圖自監督學習方法,以及混合型方法。其中,基于生成的方法(generation-based method)主要將重構圖的特征信息或結構信息作為代理任務,實現自監督學習;基于屬性的方法(Auxiliary Property-based method)通過預測一些可以自動獲取的圖相關的屬性,來進行模型的訓練;基于對比的方法(Contrast-based method)則是通過最大化同一樣本的兩個增廣實體之間的互信息來進行學習;最后,混合型方法(Hybrid method)通過組合不同的上述幾種代理任務,采用多任務學習的模式進行自監督學習。

    4 種圖自監督學習方法分類

    基于代理任務和下游任務之間的不同關系,自監督學習的模式分為以下 3 類:預訓練 - 微調(Pre-training and Fine-tuning,PF)、聯合學習(Joint Learning,JL)以及無監督表征學習(Unsupervised Representation Learning)。其中,PF 首先采用代理任務對編碼器進行預訓練,然后采用下游任務對編碼器進行微調;JL 則是采用多任務學習的方式,同時利用代理任務和下游任務對編碼器進行訓練;URL 首先無監督地對編碼器用代理任務進行訓練,然后直接用得到的表征 H 來訓練下游任務的解碼器。

    3 種自監督學習模式分類

    下游任務的分類則涉及了大多數圖機器學習相關的傳統任務,根據其數據樣本的尺度不同,本文將下游任務分類為節點級別任務(如節點分類),邊級別任務(如邊分類)和圖級別任務(如圖分類)。

    4. 圖自監督學習相關工作匯總

    根據上述對圖自監督學習方法的分類方式,本文對相關工作進行了整理、分類與匯總,分類樹如下圖所示。

    分類樹

    A.基于生成的圖自監督學習方法

    基于生成的方法主要通過重構輸入數據以獲取監督信號。根據重構的對象不同,本文將該類方法進一步細分為兩個子類:特征生成和結構生成。

    基于生成的圖自監督學習

    特征生成方法通過代理解碼器對特征矩陣進行重構。模型的輸入為原始圖或者經過擾動的圖數據,而重構對象可以是節點特征矩陣,邊特征矩陣,或者經過 PCA 降維的特征矩陣等。對應的自監督損失函數一般為均方誤差(MSE)。比較有代表性的方法為 Graph Completion,該方法對一些節點的特征進行遮蓋,其代理任務的學習目標為重構這些被遮蓋的節點特征。

    結構生成方法起源于經典的圖自編碼器(GAE),一般采用基于表征相似度的解碼器對圖的鄰接矩陣 A 進行重構。由于鄰接矩陣的二值性,對應的損失函數一般為二分類交叉熵(BCE);而由于鄰接矩陣的稀疏性,一般采用負采樣等手段實現類別平衡。

    本文對現有的基于生成的圖自監督學習方法進行了總結,如下表所示:

    B.基于屬性的圖自監督學習方法

    基于屬性的方法從圖中自動獲取一些有用的屬性信息,以此作為監督信號對模型進行訓練。這類方法在形式上與監督學習比較類似,都是采用 “樣本 - 標簽” 的數據模式進行學習,其區別在于這里的 “標簽” 信息為偽標簽,而監督學習所用的為人工標簽。根據監督學習的分類模式,本文將該類方法細分為兩個子類:屬性分類和屬性回歸。

    基于屬性的圖自監督學習

    屬性分類方法自動地從數據中歸納出離散的屬性作為偽標簽,作為代理任務的學習目標供模型學習,對應的損失函數一般為交叉熵。通過獲取偽標簽的手段不同,該類方法可進一步分為:1)基于聚類的屬性分類:2)基于點對關系的屬性分類。前者采用基于特征或結構的聚類算法的對節點賦予偽標簽,而后者則是通過兩個點之間的關系得到一個點對的偽標簽。

    屬性回歸方法從數據中獲取連續的屬性作為偽標簽,對應的損失函數為均方誤差(MSE)。一個典型的例子是提取節點的度(degree)作為其屬性,通過代理編碼器對該特性進行回歸,實現對模型的自監督訓練。

    該類別方法的總結如下表所示:

    C.基于對比的圖自監督學習方法

    基于對比的方法引入了互信息最大化的概念,通過預測兩個視角(view)之間的相容性來進行自監督學習。本文從三個角度對該類方法進行整理,分別是:1)圖增廣方式;2)圖對比學習代理任務;3)互信息估計方式。

    圖增廣技術用于從原始數據生成出增廣數據,從而構成對比學習中不同的視角。圖增廣方法有特征增廣、結構增廣、混合增廣。特征增廣主要對圖數據中的特征信息進行變換,最常見的手段是節點特征遮蓋(NFM),即隨機的將圖中的一些特征量置為 0;此外,節點特征亂序(NFS)也是一種特征增廣方法,其手段為對調不同節點的特征向量。結構增廣的手段是對圖結構信息進行變換,常見的結構增廣為邊修改(EM),包括對邊的增加和刪除;另一種結構增廣為圖彌散(Graph diffusion,GD),其對不同階的鄰接矩陣進行加權求和,從而獲取更全局的結構信息。混合增廣則結合了上述兩種增廣形式,一個典型的手段為子圖采樣(SS),即從原圖數據中采樣子結構成為增廣樣本。

    圖增廣方法

    對于對比式的代理任務,本文通過其對比樣本的尺度進行進一步細分為同尺度對比學習和跨尺度對比學習。其中,同尺度對比學習通過最大化同一節點樣本或者同一圖樣本在不同視角下的互信息來進行自監督學習,此類方法包括早期的基于隨機游走的圖嵌入方法,以及一系列 CV 對比學習框架(如 SimCLR 和 MoCo)在圖領域的應用方法。跨尺度對比學習通過最大化 “節點樣本 vs 全局樣本” 或者 “節點樣本 vs 鄰居樣本” 之間的互信息來學習,這類方法起源于 Petar 等人與 2019 年提出的 DGI,目前在異質圖、動態圖等數據上均有應用。

    基于對比的圖自監督學習

    由于對比學習涉及到對互信息的估計,本文也從數學層面總結了幾種互信息估計方法,包括經典的 Jensen-Shannon 散度,InfoNCE,Triplet loss function,以及前沿的 BYOL 以及 Barlow twins。

    基于對比的圖自監督學習方法總結見下表:

    D.混合型圖自監督學習方法

    混合型方法結合了兩種或多種不同的代理任務,以多任務學習的模式共同訓練模型。常見的組合包括:結合兩種生成任務(特征生成 + 結構生成)的混合方法,結合生成任務和對比任務的混合方法,結合多種對比任務的混合方法,以及三種任務共同參與的混合方法。混合型方法的總結如下表所示:

    5. 研究資源與實際應用

    在附錄內容當中,本文統計了圖自監督學習相關的各種研究資源,包括:主流的數據集,常用的評估手段,不同方法的性能對比,以及各方法對開源代碼總結。這些信息可以更好的幫助研究人員了解、對比和復現現有工作。

    本文總結了圖自監督學習在三個領域的實際應用,包括:推薦系統,異常檢測,以及化學領域。此外,更多應用類工作也被總結在附錄當中,涉及到的領域包括程序修復、醫療、聯邦學習等。

    6. 未來的研究方向

    針對潛在的研究熱點,本文分析了圖自監督學習中存在的挑戰,并指出了一些旨在解決這些挑戰的未來研究方向。

    A. 理論基礎

    雖然圖自監督學習在各種任務和數據集上都取得較好的性能,但其依然缺乏堅實的理論基礎以證明其有效性,因為大多數工作都只是經驗性地設計其代理任務,且僅采用實驗手段進行評價。目前僅有的理論支持來自互信息最大化,但互信息的評估依然依賴于經驗方法。我們認為,圖自監督學習亟需與圖理論相關的研究,潛在的理論基礎包括圖信號處理和譜圖理論。

    B. 可解釋性與魯棒性

    許多圖自監督學習的工作應用于風險敏感性和隱私相關的領域,因此,可解釋且魯棒的自監督框架對于適應此類學習場景具有重要意義。但是,現有工作只將下游任務性能視為其目標,而忽略了學習表示和預測結果的可解釋性。此外,考慮到真實數據的不完整性以及圖神經網絡易受對抗攻擊的特點,我們應當考慮圖自監督學習的魯棒性;然而,除個別工作外,現有的圖自監督學習方法均假定輸入數據是完美的。因此,探索可解釋的、魯棒的圖自監督方法是一個未來的潛在方向。

    C. 復雜類型圖的代理任務設計

    當前的大多數工作集中于屬性圖的自監督學習,只有少數工作集中于復雜的圖類型,例如異質或時空圖。對于復雜圖,主要的挑戰是如何設計代理任務來捕獲這些復雜圖的獨特數據特征。現有的一些方法將互信息最大化的思想應用于復雜圖的學習,其學習能力比較有限。因此,一個潛在方向是為復雜的圖數據設計多種多樣的代理任務,這些任務應適應其特定的數據特征。此外,將自監督技術擴展到更普遍的圖類型(例如超圖)將是一個可行的方向,值得進一步探索。

    D. 圖對比學習的增廣方法

    在 CV 的對比學習中,大量的數據增廣策略(包括旋轉、顏色扭曲、裁剪等)提供了不同的視角,從而支持了對比學習中的表征不變性。然而,由于圖結構數據的性質(復雜和非歐幾里德結構),圖上的數據增廣方案沒有得到很好的探索。現有的圖增廣策略大多采用隨機的遮蓋 / 亂序節點特征、邊修改、子圖采樣和圖擴散等手段,這在生成多個圖視角時無法提供豐富的多樣性,同時其表征不變性也是不確定的。為了解決這個問題,自適應地執行圖形增廣,自動選擇增廣,或通過挖掘豐富的底層結構和屬性信息聯合考慮更強的增廣樣本都將是未來潛在的研究方向。

    E. 通過多代理任務學習

    本文統計的大部分方法僅通過解決一個代理任務來訓練模型,只有少數混合方法探索多個代理任務的組合。然而,不少 NLP 領域的與訓練模型和本文所匯總的少數混合方法都說明了:不同的代理任務可以從不同的角度提供監督信號,這更有助于圖自監督方法學習到有用的信息表征。因此,對多種代理任務的自適應組合,以及更先進的混合方法值得進一步研究。

    F. 更廣泛的應用

    圖是許多領域中普遍存在的數據結構;然而,在大多數應用領域,獲取手動標簽的成本往往很高。在這種情況下,圖自監督學習具有很好的前景,特別是那些高度依賴專業知識來標注數據的領域。然而,大多數現有的圖自監督學習的實際應用僅集中在少數幾個領域(推薦系統、異常檢測和化學),這表明圖自監督在大多數應用領域具有未開發的潛力。我們有望將圖自監督學習擴展到更廣闊的應用領域,例如,金融網絡、網絡安全、社區檢測和聯邦學習等。

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有