型介紹
The O-one :一個創新的開源語言模型計算機 可以讓你通過語音交互來和你的計算機進行對話,完成詢問、指令下達等任務。靈感居然來自Andrej Karpathy 的 LLM 操作系統。
O1運行一個代碼解釋語言模型,并在計算機內核發生特定事件時調用它。
裝上它,你可以使用語音說話的方式來操控你的電腦完成各種任務。 它還能通過你的指導,自己學會新的技能,只需一次下次就自己會了。
特點
主要功能
1、語音交互:允許用戶通過簡單的推按操作與設備進行對話,完成詢問、指令下達等任務。
2、日程和活動管理:可以遠程訪問你的電腦設備查詢天氣、查看日程、添加活動至日歷,并自動發送活動相關信息。
3、郵件與文件處理:能夠訪問你的郵件,管理郵件,例如自動發送包含指定文件的郵件給特定聯系人
4、學習新技能:通過用戶指導,O1可以學會新的操作技能,如發送Slack消息等。
5、自動化工作流:監控郵件,自動處理和轉發信息,如發票詳情等。最牛皮的是,O-one是開源的,他們公布了代碼、CAD圖紙、以及其他信息,你完全可以自己做一個。
項目:https://github.com/OpenInterpreter/01。價格99美金,現在可以預定,開發者可以自己DIY一個。
新聞客戶端 記者 何泠瑤
OpenAI又迎來升級,搖身一變成了人工智能語音助手。
北京時間周二凌晨1點, 人工智能(AI)巨頭OpenAI舉行春季發布會。公司首席技術官Mira Murati帶來了多項與ChatGPT有關的更新。
發布會截圖
正如前幾天, CEO山姆·奧特曼(Sam Altman)在一檔播客中預告的一樣,OpenAI將改進并提升ChatGPT的語音功能質量,并表示相信語音交互是通向未來交互方式的一個重要途徑。
奧特曼稱:“多模態交互能力非常強大,比如可以問:‘嘿,ChatGPT,我正在看什么’或‘我不太確定這是哪種植物。’”
“我期望的是一種始終處于激活狀態,且極易使用的設備,可以通過語音、文字,或者更理想的其他狀態,來理解我的需求。”奧特曼表示,“設想有個系統能全天輔助我,盡可能多地去收集上下文信息,成為世界上最出色的助理,不斷地幫助我提升自我。”
OpenAI的發布會上,Mira Murati發布最新GPT-4o多模態大模型,相較于上一代GPT-4 Trubo,速度更快、價格也更便宜。
通過響應速度的大幅提升,該模型在語音模式下,已經可以達到“實時”響應的狀態,不再需要尷尬地等上幾秒鐘,等ChatGPT給出一個回答。
換句話說,用戶可以與ChatGPT像真人一樣聊天——在機器人回應的過程中打斷它,提出更多的要求(例如轉變話題、要求機器人改變語音語調),再也不需要等待機器人完成上一個問題的回復后,再提出新的問題。
發布會上,主持人與ChatGPT寒暄幾句,它能夠從對方的喘氣聲中理解“緊張”的含義,并且指導他進行深呼吸。
隨后,主持人開了攝像頭,拍了白紙上一道題目,請ChatGPT實時幫忙解一個一元方程題,又解讀了一幅氣溫圖表。除了圖像識別和解題能力外,ChatGPT展現了實時根據影像變化,與人們實時互動的能力。
發布會截圖
主持人還展示了和ChatGPT進行意大利語、英語的對話聊天,ChatGPT毫不費力地就能充當兩人的現場翻譯員,實時準確地翻譯出對話內容。
發布會截圖
此外,OpenAI宣布,ChatGPT的免費用戶也能用上最新發布的GPT-4o模型(更新前只能使用GPT-3.5),來進行數據分析、圖像分析、互聯網搜索、訪問應用商店等操作。這也意味著GPT應用商店的開發者,將面對海量的新增用戶。
當然,付費用戶將會獲得更高的消息限制,至少是免費用戶的5倍。當免費用戶用完消息數量后,ChatGPT將自動切換到 GPT-3.5。另外,OpenAI將在未來1個月左右向Plus用戶推出基于GPT-4o改進的語音體驗,目前GPT-4o的API并不包含語音功能。
發布會截圖
最后,蘋果電腦用戶將迎來一款為macOS設計的ChatGPT桌面應用,用戶可以通過快捷鍵“拍攝”桌面并向ChatGP提問,OpenAI表示,Windows版本將在今年晚些時候推出。
OpenAI 還表示,ChatGPT 還優化了用戶界面,有了全新的界面。OpenAI 的演示顯示,用戶可以將處于最小化窗口的 ChatGPT 桌面應用與其他程序并排打開。用戶可以通過輸入或語音的方式向 ChatGPT 提問屏幕上顯示的內容,ChatGPT 則能根據其“所見” 進行回答。
對于蘋果用戶,人們可以通過 Option + 空格鍵向 ChatGPT 提問,并且可以在應用內截取和討論屏幕截圖。
“轉載請注明出處”
天凌晨,一場 26 分鐘的發布會,將又一次大大改變 AI 行業和我們未來的生活,也會讓無數 AI 初創公司焦頭爛額。
這真不是標題黨,因為這是 OpenAI 的發布會。
剛剛,OpenAI 正式發布了 GPT-4o,其中的「o」代表「omni」(即全面、全能的意思),這個模型同時具備文本、圖片、視頻和語音方面的能力,這甚至就是 GPT-5 的一個未完成版。
更重要的是,這個 GPT-4 級別的模型,將向所有用戶免費提供,并將在未來幾周內向 ChatGPT Plus 推出。
我們先給大家一次性總結這場發布會的亮點,更多功能解析請接著往下看。
發布會要點
這些功能早在預熱階段就被 Altman 形容為「感覺像魔法」。既然全世界 AI 模型都在「趕超 GPT-4」,那 OpenAI 也要從武器庫掏出點真家伙。
其實在發布會前一天,我們發現 OpenAI 已經悄悄將 GPT-4 的描述從「最先進的模型」,修改為「先進的」。
這就是為了迎接 GPT-4o 的到來。GPT-4o 的強大在于,可以接受任何文本、音頻和圖像的組合作為輸入,并直接生成上述這幾種媒介輸出。
這意味著人機交互將更接近人與人的自然交流。
GPT-4o 可以在 232 毫秒內回應音頻輸入,平均為 320 毫秒,這接近于人類對話的反應時間。此前使用語音模式與 ChatGPT 進行交流,平均延遲為 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。
它在英文和代碼文本上與 GPT-4 Turbo 的性能相匹敵,在非英語語言文本上有顯著改進,同時在 API 上更快速且價格便宜 50%。
而與現有模型相比,GPT-4o 在視覺和音頻理解方面表現尤為出色。
從測試參數來看,GPT-4o 主要能力上基本和目前最強 OpenAI 的 GPT-4 Turbo 處于一個水平。
過去我們和 Siri 或其他語音助手的使用體驗都不夠理想,本質上是因為語音助手對話要經歷三個階段:
然而我們日常的自然對話基本上卻是這樣的
此前的 AI 語言助手無法很好處理這些問題,在對話的三個階段每一步都有較大延遲,因此體驗不佳。同時會在過程中丟失很多信息,比如無法直接觀察語調、多個說話者或背景噪音,也無法輸出笑聲、歌唱或表達情感。
當音頻能直接生成音頻、圖像、文字、視頻,整個體驗將是跨越式的。
GPT-4o 就是 OpenAI 為此而訓練的一個全新的模型,而要時間跨越文本、視頻和音頻的直接轉換,這要求所有的輸入和輸出都由同一個神經網絡處理。
而更令人驚喜的是,ChatGPT 免費用戶就能使用 GPT-4o 可以體驗以下功能:
而當你看完 GPT-4o 下面這些演示,你的感受或許將更加復雜。
ChatGPT 不光能說,能聽,還能看,這已經不是什么新鮮事了,但「船新版本」的 ChatGPT 還是驚艷到我了。
睡覺搭子
以一個具體的生活場景為例,讓 ChatGPT 講一個關于機器人和愛的睡前故事,它幾乎不用太多思考,張口就能說出一個帶有情感和戲劇性的睡前故事。
甚至它還能以唱歌的形式來講述故事,簡直可以充當用戶的睡眠搭子。
做題高手
又或者,在發布會現場,讓其演示如何給線性方程 3X+1=4 的求解提供幫助,它能夠一步步貼心地引導并給出正確答案。
當然,上述還是一些「小兒戲」,現場的編碼難題才是真正的考驗。不過,三下五除二的功夫,它都能輕松解決。
借助 ChatGPT 的「視覺」,它能夠查看電腦屏幕上的一切,譬如與代碼庫交互并查看代碼生成的圖表,咦,不對勁?那我們以后的隱私豈不是也要被看得一清二楚了?
實時翻譯
現場的觀眾也給 ChatGPT 提出了一些刁鉆的問題。
從英語翻譯到意大利語,從意大利語翻譯到英語,無論怎么折騰該 AI 語音助手,它都游刃有余,看來沒必要花大價錢去買翻譯機了,在未來,指不定 ChatGPT 可能比你的實時翻譯機還靠譜。
暫時無法在飛書文檔外展示此內容
實時翻譯(官網案例)
感知語言的情緒還只是第一步,ChatGPT 還能解讀人類的的面部情緒。
在發布會現場,面對攝像頭拍攝的人臉,ChatGPT 直接將其「誤認為」桌子,正當大家伙以為要翻車時,原來是因為最先打開的前置攝像頭瞄準了桌子。
不過,最后它還是準確描述出自拍面部的情緒,并且準確識別出臉上的「燦爛」的笑臉。
有趣的是,在發布會的尾聲,發言人也不忘 Cue 了英偉達和其創始人老黃的「鼎力支持」,屬實是懂人情世故的。
對話語言界面的想法具有令人難以置信的預見性。
Altman 在此前的采訪中表示希望最終開發出一種類似于 AI 電影《Her》中的 AI 助理,而今天 OpenAI 發布的語音助手切實是有走進現實那味了。
OpenAI 的首席運營官 Brad Lightcap 前不久曾預測,未來我們會像人類交談一樣與 AI 聊天機器人對話,將其視為團隊中的一員。
現在看來,這不僅為今天的發布會埋下了伏筆,同時也是我們未來十年生活的生動注腳。
蘋果在 AI 語音助手「兜兜轉轉」了十三年的時間都沒能走出迷宮,而 OpenAI 一夜之間就找到出口。可預見的是,在不久的將來,鋼鐵俠的「賈維斯」將不再是幻想。
雖然 Sam Altman 沒在發布會上出現,但他在發布會后就發布了一篇博客,并且在 X 上發了一個詞: her。
這顯然在暗指那部同名的經典科幻電影《她》,這樣是我觀看這場發布會的演示時,腦子里最先聯想的畫面。
電影《她》里的薩曼莎,不只是產品,甚至比人類更懂人類,也更像人類自己 ,你真的能在和她的交流中逐漸忘記,她原來是一個 AI 。
這意味著人機交互模式可能迎來圖像界面后真正的革命性更新,如同 Sam Altman 在博客中表示:
新的語音(和視頻)模式是我使用過的最好的計算機界面。它感覺像電影中的人工智能;而且我仍然有點驚訝它是真實的。達到人類級別的響應時間和表現力原來是一個很大的改變。
之前的 ChatGPT 讓我們看到自然用戶界面初露端倪:簡單性高于一切:復雜性是自然用戶界面的敵人。每個交互都應該是不言自明的,不需要說明手冊。
但今天發布的 GPT-4o 則完全不同,它的幾乎無延遲的相應、聰明、有趣、且實用,我們和計算機的交互從未真正體驗過這樣的自然順暢。
這里面還藏著巨大可能性,當支持更多的個性化功能和與不同終端設備的協同后,意味著我們能夠利用手機、電腦、智能眼鏡等計算終端做到很多以往無法實現的事情。
AI 硬件不會再試積累,當下更令人期待的,就是如果下個月蘋果 WWDC 真的官宣與 OpenAI 達成合作,那么 iPhone 的體驗提升或許將比近幾年任何一次發布會都大。
英偉達高級可科學家 Jim Fan 認為,號稱史上最大更新 iOS 18 ,和 OpenAI 的合作可能會有三個層面:
說到這里,也不得不心疼明天要舉辦發布會的 Google 一秒。
作者:李超凡 莫崇宇
#歡迎關注愛范兒官方微信公眾號:愛范兒(微信號:ifanr),更多精彩內容第一時間為您奉上。
愛范兒|原文鏈接· ·新浪微博