penAI又在搗鼓神秘“黑科技”?
12日,據媒體援引知情人士透露,生成式AI領頭羊OpenAI正開發新的AI大模型項目----"草莓 "(Strawberry),而這個“草莓”非常神秘,很可能與提升AI大模型的推理能力有關。
OpenAI的神秘項目“草莓”是什么?
據媒體報道,5月份OpenAI的一份內部文件顯示,OpenAI的內部團隊正開發的“草莓”項目,目的是增強OpenAI的模型的推理能力,處理復雜科學和數學問題的能力,讓大模型不僅能生成查詢答案,還能提前規劃,以便自主、可靠地瀏覽互聯網,進行OpenAI 定義的“深度研究”。
按照十幾位人工智能研究人員的說法,這是目前大語言模型還沒能實現的功能。
很明顯OpenAI現階段還不想公布關于“草莓”的詳細資料。
當被問及“草莓”的細節時,OpenAI的一位發言人只是繞了個彎表示:“我們希望AI大模型能像人類那樣看待和理解這個世界。不斷研究新的AI能力是業界的普遍做法,畢竟我們都相信AI的推理能力會隨著時間的推移而不斷提高。”
畢竟即便在 OpenAI 內部,“草莓”的工作原理也是嚴格保密的,目前仍沒有“草莓”的發布時間消息。
但有媒體透露,“草莓”項目的前身是Q*算法模型,Q*能夠解決棘手的科學和數學問題。而數學是生成式AI發展的基礎,如果AI模型掌握了數學能力,將擁有更強的推理能力,甚至與人類智能相媲美。而這一點也是目前的大語言模型還無法做到的。
去年底Q*在OpenAI的內部信中首次曝光,而CEO奧特曼當時被開除也是因為這個Q*項目。
一些OpenAI內部人士指出,Q*可能是 OpenAI 在追尋通用人工智能(AGI)路上的一項突破,其發展速度之快讓人感到震驚,并擔心AI過快發展可能會威脅到人類安全。在這種擔憂蔓延之際,奧特曼在沒有告知董事會的情況下,選擇加速推進GPT系列模型的開發及商業化,這激發了OpenAI董事會的不滿并選擇把他踢出局。
OpenAI的野心:利用“草莓”提高大模型的推理能力
雖然無法獲取“草莓”的詳細情況,但從OpenAI近期的種種蛛絲馬跡中可以發現,增強生成式AI大模型的推理能力,是它接下來的發展重心。
OpenAI的CEO奧特曼曾強調,今后AI發展的關鍵將圍繞推理能力展開。
在本周二的一次內部全員會議上,OpenAI展示了一個研究項目的演示,稱該項目擁有類似人類的推理能力。OpenAI發言人向媒體證實了這次內部會議,但拒絕透露會議細節,因此無法確定演示的項目是否為“草莓”。
但據知情人士透露,“草莓”項目包括一種專門的“后訓練”方法,即生成式AI模型已經過大量數據集上進行預訓練后,進一步調整模型以提高其在特定任務上的表現。這類似于斯坦福大學在2022年開發的“自學推理者”(Self-Taught Reasoner,簡稱STaR)方法。
STaR的創造者之一、斯坦福大學教授Noah Goodman曾表示,STaR可以讓AI模型通過反復創建自己的訓練數據,“引導 ”自己進入更高的智能水平,理論上可以用來讓語言模型實現超越人類的智能。
這就和OpenAI想要的“推理能力”對上了號。而且,OpenAI在11日還公布了未來AI發展的五級路線圖:
按照OpenAI的猜想,未來AI會經歷5個階段:
第一級:聊天機器人,具有對話語言的人工智能 第二級:推理者,人類水平的問題解決 第三級:代理者,可以采取行動的系統 第四級:創新者、可協助發明的人工智能 第五級:組織者,可以完成組織工作的人工智能
按照目前搜集的信息,“草莓”項目極可能是幫助OpenAI實現第二級AI的關鍵。
據媒體報道,一位OpenAI高管表示,目前AI模型正處第一級別,但預計很快將達到第二級別,即推理者。OpenAI目前正在致力于在特定任務上實現博士級別的智能,預計可能在一年或一年半內實現。
另一項OpenAI聚焦的功能是,提高大語言模型執行長時間任務(Long-Horizon Tasks,簡稱LHT)的能力,這指的是需要模型提前規劃,并在較長一段時間內執行一系列任務。
據知情人士透露,為了實現這一目標,OpenAI希望“草莓”能成為創建、訓練和評估“深度研究”的模型,并利用“計算機使用代理”(Computer-Using Agent,簡稱CUA)來自主瀏覽網頁,并根據其發現自主采取行動。
如果OpenAI成功了,“草莓”項目很可能會重新定義AI的能力,使其能夠進行重大科學發現、開發新的軟件應用程序,并自主執行復雜任務,那人類離AGI又進一步了。
家好,這里是正經電競,我是正經小弟。
老WE幾位成員除了廠長還奮斗在前線上,其他人都退役打直播,日子過得比較悠閑。在昨日,微笑和草莓、若風等幾位老選手排位打游戲時,微笑閑聊時說出一句話,卻讓粉絲們心疼不已。
微笑聊天時談起現在的生活:現在已經可以做到一個人吃飯,一個人看電影,一個人看醫生。就差一個人吃火鍋了。習慣了一個人的日子,有個電腦有個右手就夠了。
自從去年3月份,微笑和蘇小妍這對被電競圈看好的金童玉女分手后,微笑一直都是單身狀態。其實憑借著微笑在競技圈和直播圈的影響力,想找個女朋友還是很容易的事情。然而那么久了,一直沒有微笑談戀愛的消息。
微笑到現在沒有結交新女友,讓老隊友“草莓”操碎了心,草莓曾不止一次公開給微笑招婚,希望微笑能找個女朋友。或許,微笑心里還有一個“她”讓她無法忘懷吧......
在不久前,WE的獲得S7門票的慶功宴上,微笑與蘇小妍相逢,再度同框,網友們都希望他們能夠復合,奈何兩條線相交之后,再次迅速擦肩而過。這次短暫相聚也沒能擦出任何火花。
事實上,自去年3月份他們和平分手當朋友后,微笑在去年6月份還參加蘇小妍的生日party。是的,他們一直以朋友的身份相處著,距離不近也不遠。
這一年半中,微笑沒有再找女朋友,蘇小妍也沒有交新男友的消息。也正是因為兩人都還是單著,許多網友都期待著他們能再度復合。
小弟有話說:如果他們復合了,小弟立個flag,也要大膽去追回我的前女友!
那么問題來了:微笑和蘇小妍都還沒有找對象,你覺得他們有希望復合嗎?
第一手游戲資訊,請關注“17173游戲網”
敏 克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
OpenAI最新絕密項目曝光!
知情人士透露,OpenAI正在開發一個名為“草莓(Strawberry)”的新模型,它的前身是Q*。
其工作機制在內部被嚴格保密,且細節從未被外界報道過。
消息稱,“草莓”模型不僅在超大規模數據集上完成預訓練,并且采用了一種特殊的方法。
馬斯克已火速趕來吃瓜:
之前都說,AI災難會是回形針成災。如今來看,可能是草莓田了。(哲學家尼克·博斯特羅姆曾提出高度智能的AI可能被設計為回形針,意思是看似無害但可能風險巨大)
本周二,OpenAI在一次內部全體會議上展示了一個demo。據稱該項目的推理能力已接近人類水平。
盡管OpenAI拒絕透露會議具體內容,無法確定該項目是否就是“草莓”。但可以肯定,推理能力被業界認為是AI達到人類智能水平的關鍵。
巧合的是,周二OpenAI科學家Noam Brown發了一條推特,感慨OpenAI總是會堅定地在重大研究方向上持續押注。
而這位科學家去年才跳槽到OpenAI,主要負責研究模型推理能力,之前一直被認為在研究Q*。
在最新曝光信息中,還顯示“草莓”使用的推理方法和2022年斯坦福發表的一種方法相似。
具體來看更多細節。
據路透社消息,5月份他們看到了OpenAI一份內部文件副本,上面詳細說明了“草莓”項目的研究計劃。
消息人士稱這是一項正在推進的工作。但是“草莓”的工作原理在OpenAI內部被嚴格保密。
文件中顯示,公司希望“草莓”模型不僅能生成答案,而且能執行長任務(LHF),包括提前進行規劃,自主可靠地在互聯網上導航以及一系列行動。
比如通過CUA(一種計算機代理)的幫助來自動瀏覽網頁,該代理可以根據發現內容采取行動。
十余位業內人士認為,這是當下AI模型所不能解決的問題。
為此,OpenAI正在開發訓練評估這些模型。內部形成了一個名為“深度研究”的數據集,具體內容不詳。同時OpenAI還計劃測試模型可以如何影響軟件和機器學習工程師的工作。
在被問及關于“草莓”的細節時,OpenAI一位發言人沒有直接回答問題,但是在一份聲明中表示:
我們希望我們的愛模型能像人類一樣看到和理解世界,不斷研究新模型是行業內都在做的事,大家都相信隨著時間推移,這些系統的推理能力將得到改善。
據了解,“草莓”的前身是Q*。
此前消息稱,Q*被OpenAI視為一項重大突破。一些看過Qdemo的內部人員表示,該項目能回答其他大模型所不能應對的棘手科學和數學問題。
知情人士表示,OpenAI希望通過該項目大幅提升AI模型的推理能力,“草莓”已經在非常大的數據集上完成預訓練,并使用了一種專門的處理方法。
包括后訓練(post-training);或者在已經進行大規模訓練后,再調整基礎模型來“磨煉”性能。
后訓練部分包括常見的微調、人類反饋強化學習(RLHF)等。
值得一提的是,一位知情人士透露,“草莓”與斯坦福大學在2022年(當時ChatGPT還未發布)提出的一種名為自學推理(Self-Taught Reasoner,簡稱STaR)的方法很相似。
就在今年,斯坦福團隊又基于STaR,提出了一種名為Quiet-STaR的推理方式,簡寫的話就是Q*了(手動狗頭)。
不過還是先從基礎的STaR說起,它的創新點在于不依賴大規模人工標注的數據集進行訓練,通過自舉的方式讓大模型自己學會如何推理。
具體來說,一開始會把少量帶有推理步驟的樣本作為示范,與待推理的問題一起輸入給模型。
然后模型會生成每個問題的推理步驟和答案,從中篩選出推理結果正確的樣本,將其作為新的訓練數據。
對于無法正確推理的問題,作者還引入了“反向推理”機制,將正確答案作為提示,讓模型倒推對應的推理步驟,將生成結果并入訓練集。
最終,作者用新的訓練數據微調原始語言模型,重復進行推理生成,直至性能趨于穩定。
結果,在CommonsenseQA數據集上,STaR將GPT-3 Curie(6.7B參數)的準確率從33.6%提升到72.5%,與30倍參數量的微調模型(GPT-3 DaVinci,175B參數)性能相當。
時隔兩年,本次發布的Quiet-STaR,在此基礎之上做出了一些重要改進。
其中最核心的是把推理過程的生成從顯式的思考變成了隱式的內部思考,實現了對推理過程的靜默建模,這也就是名稱中quiet的由來。
不同于STaR在輸入中明確包含生成推理步驟的prompt,Quiet-STaR直接在模型內部、每個token處并行地生成推理過程。
同時,Quiet-STaR引入了可學習的“思考開始”和“思考結束”特殊token,使模型能夠自主學習何時開始和結束推理。
為了緩解推理引入的分布偏移問題,Quiet-STaR使用了一個混合頭來動態融合有無推理時的下一token預測結果,使模型能夠平滑過渡到生成推理的狀態。
另一個不同點是,Quiet-STaR采用了一個非短視的、多步預測的訓練目標。模型生成推理時,不僅要考慮下一個token,還要考慮對之后多個token的影響,從而生成高質量、長遠的推理。
數據方面,Quiet-STaR不再局限于STaR使用的特定推理數據集或任務,而是使用了互聯網文本等大規模語料,讓模型的推理能力更加多樣化。
效果上看,這次的baseline模型換成了Mistral-7B,在GSM8K和CommonsenseQA兩個數據集上,應用Quiet-STaR訓練后準確率均有所提升,且隨著思考token數量增加提升越來越明顯。
具體來說,baseline模型在GSM8K和CommonsenseQA上的準確率分別是5.9%和36.3%,加入Quiet-STaR后最高上升到了10.9%和47.2%。
論文作者Noah Goodman教授表示,對于最新曝光的消息,他感覺既興奮又恐懼。
如果一切真的朝著這一方向發展,那么作為人類就要考慮一些嚴肅的問題了。
對于最新的曝光內容,有人覺得是炒作,有人覺得這倒是比語音模型進展有意思。
還有人覺得,如果Noam Brown都認可了,那應該是一個值得期待的進展。
不過最近OpenAI內部的動作似乎又多了起來。
也是在周二這次全體會議上,OpenAI提出了一套評級來定義AI的進展。
一共可以分為5級:
最后一級L5,也就是達到AGI的最后一步。此前OpenAI將AGI定義為“在最具經濟價值的任務中超越人類的高度自治系統”。
除了OpenAI以外,DeepMind、Anthropic也對AI系統提出了分級定義。
△來源:蘆義,Brilliant Phoenix 合伙人 / 數字鏡像博主
你更認可哪一家呢?
參考鏈接:
[1]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/
[2]https://www.reddit.com/r/OpenAI/comments/1e1umu2/exclusive_openai_working_on_new_reasoning/
[3]https://arxiv.org/abs/2403.09629
[4]https://www.theverge.com/2024/7/11/24196746/heres-how-openai-will-determine-how-powerful-its-ai-systems-are
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態