論文 1:A for the 2020s
視覺識別的快速發展始于 ViT 的引入,其很快取代了傳統 ,成為 SOTA 圖像分類模型。ViT 模型在包括目標檢測、語義分割等一系列計算機視覺任務中存在很多挑戰。因此有研究者提出分層 Swin ,重新引入 先驗,使得 作為通用視覺主干實際上可行,并在各種視覺任務上表現出卓越的性能。
然而,這種混合方法的有效性在很大程度上仍歸功于 的內在優勢,而不是卷積固有的歸納偏置。本文中,FAIR 、UC 伯克利的研究者重新檢查了設計空間并測試了純 所能達到的極限。研究者逐漸將標準 「升級」為視覺 的設計,并在此過程中發現了導致性能差異的幾個關鍵組件。
論文地址:
論文 2: as Zero-Shot : for
通過大型語言模型(LLM)學習的世界知識能能用于交互式環境中的行動嗎?本文中,UC 伯克利、CMU 和谷歌的研究者探究了將自然語言表達為一組選定可操作步驟的可能性。以往的工作側重于從顯式分布示例中學習如何行動,但他們驚訝地發現,如果預訓練語言模型足夠大并得到適當的提示,則可以有效地將高級任務分解為中級規劃,無需進一步訓練。但是,LLM 制定的規劃往往無法精確地映射到可接受的行動。
研究者提出的步驟以現有演示為條件,并將規劃在語義上轉換為可接受的行動。在 環境中的評估表明,他們提出的方法大大提高了 LLM 基線的可執行性。人工評估揭示了可執行性和正確性之間的權衡,但展現出了從語言模型中提取可操作知識的可能性跡象。
論文地址:
論文 3:OFA: , Tasks, and a -to-
這是阿里達摩院推出的統一多模態多任務模型框架 OFA,總結了通用模型現階段最好符合的三個特點,即模態無關、任務無關、任務多樣性。該論文被 ICML 2022 接收。
在圖文領域,OFA 將 、VQA、image 、image 、 、 等經典任務通過統一的 框架進行表示,在任務間共享不同模態的輸入輸出,并且讓 和預訓練保持一致,不新增額外的參數結構。
論文地址:
論文 4: V: Large via Zero-Shot
深度學習中的超參數(HP)調優是一個成本高昂的過程,對于具有數十億參數的神經網絡而言更是如此。本文中,微軟和 的研究者表明,在最近發現的 (muP)中,即使模型大小發生變化,很多最優 HP 仍保持穩定。
這促成了他們稱為 的全新 HP 調優范式,即在 muP 中對目標模型進行參數化,在較小的模型上不直接進行 HP 調優,并將它們零樣本遷移到全尺寸模型中,這也意味著根本不需要直接對后者模型進行調優。研究者在 和 上驗證了 。例如,通過從 40M 參數的模型進行遷移,性能優于已發布的 6.7B GPT-3 模型,調優成本僅為預訓練總成本的 7%。
論文地址:
論文 5:OPT: Open Pre-
大模型往往經過成千上萬個計算日的訓練,在零樣本和少樣本學習中展現出了非凡的能力。不過考慮到它們的計算成本,如果沒有充足的資金,這些大模型很難復制。對于少數可以通過 API 獲得的模型,無法訪問它們完整的模型權重,也就難以展開研究。
本文中,Meta AI 的研究者提出了 Open Pre- (OPT),這是一套僅用于解碼器的預訓練 模型,參數從 125M 到 175B 不等。他們表明,OPT-175B 性能與 GPT-3 相當,但開發所需的碳足跡僅為后者的 1/7。
論文地址:
論文 6:A Agent
受大規模語言建模的啟發, 構建了一個單一的「通才」智能體 Gato,它具有多模態、多任務、多具身()特點。
Gato 可以玩雅達利游戲、給圖片輸出字幕、和別人聊天、用機械臂堆疊積木等等。此外,Gato 還能根據上下文決定是否輸出文本、關節力矩、按鈕按壓或其他 token。
與大多數智能體玩游戲不同,Gato 使用相同的訓練模型就能玩許多游戲,而不用為每個游戲單獨訓練。
論文地址:
**論文 7: with
**
來自谷歌的研究者提出了一種叫作 的深度學習語言模型,可以通過逐步推理解決數學定量問題。其解決方案包括數值計算、符號操作,而不需要依賴計算器等外部工具。
此外, 還結合了多種技術,包括小樣本提示、思維鏈、暫存器提示以及多數投票原則,從而在 STEM 推理任務上實現 SOTA 性能。
建立在 PaLM( Model ) 的基礎上,在 118GB 數據集上進一步訓練完成,數據集來自 arXiv 上關于科技方面的論文以及包含使用 LaTeX、 或其他數學表達式的網頁的數據進行進一步訓練。
下圖為 解決問題示例展示:
論文地址:
**論文 8:No Left : Human-
**
來自 Meta AI 的研究者發布了翻譯模型 NLLB(No Left ),直譯為「一個語言都不能少」,其可以支持 200 + 語言之間的任意互譯,除了中英法日等常用語種翻譯外,NLLB 還能對包括盧干達語、烏爾都語等在內的許多小眾語言進行翻譯。
Meta 宣稱,這是全球第一個以單一模型對應多數語言翻譯的設計,他們希望借此能夠幫助更多人在社群平臺上進行跨語言互動,同時提高用戶在未來元宇宙中的互動體驗。
論文地址:
**論文 9:High- Image with
**
最近一段時間 火爆出圈,圍繞這一技術展開的研究數不勝數。
該研究是來自慕尼黑大學和 的研究者基于其 CVPR 2022 的論文《High- Image with 》,并與 AI、LAION 等團隊合作完成。 可以在消費級 GPU 上 10 GB VRAM 下運行,并在幾秒鐘內生成 像素的圖像,無需預處理和后處理。
時間僅過去四個月,該開源項目已收獲 38K 星。
項目地址:
生成圖像示例展示:
**論文 10: via Large-Scale Weak
**
發布開源模型機器數據常用三種方法表示,在英語語音識別方面接近人類水平,并具有較高的準確性。
是一個自動語音識別(ASR, )系統, 通過從網絡上收集了 68 萬小時的 98 種語言和多任務監督數據對 進行了訓練。除了可以用于語音識別,還能實現多種語言轉錄機器數據常用三種方法表示,以及將這些語言翻譯成英語。
論文地址:
**論文 11:Make-A-Video: Text-to-Video Text-Video Data
**
來自 Meta AI 的研究者提出了一種最先進的文本到視頻模型:Make-A-Video,可以將給定的文本提示生成視頻。
Make-A-Video 有三個優點:(1)它加速了 T2V(Text-to-Video)模型的訓練,不需要從頭開始學習視覺和多模態表示,(2)它不需要配對的文本 - 視頻數據,(3)生成的視頻繼承了當今圖像生成模型的多項優點。
該技術旨在實現文本到視頻生成,僅用幾個單詞或幾行文本就能生成獨一無二的視頻。如下圖為一只狗穿著超級英雄的衣服,披著紅色的斗篷,在天空中飛翔:
論文地址:
**論文 12:: A Large Model for
**
近年來,隨著各學科領域研究的進步,科學文獻和數據呈爆炸式增長,使學術研究者從大量信息中發現有用的見解變得越來越困難。通常,人們借助搜索引擎來獲取科學知識,但搜索引擎不能自主組織科學知識。
最近,Meta AI 的研究團隊提出了一種新的大型語言模型 ,可以存儲、組合和推理科學知識。 可以自己總結歸納出一篇綜述論文、生成詞條的百科查詢、對所提問題作出知識性的回答。
論文地址:
參考鏈接: