可能是史上最強的輸入法終于要來了。
在昨天,百度輸入法“AI·新輸入 全感官輸入2.0”發布會上。百度輸入法正式對外發布了最新殺手锏——AI探索版輸入法。
這個輸入法基本上顛覆了外界的想象。
作為百度眼中 AI 落地的“橋頭堡”,百度輸入法AI探索版默認將全語音作為默認輸入方式,并在豐富輸入方式上大開腦洞,圍繞表情、肢體等為用戶提供了全感官的輸入體驗。
在發布會現場,臺上是嘉賓的演講,大屏幕的右側則是百度輸入法的實時同步,我注意到,即便是一些英文單詞,也能識別出來。
簡單來說,這個輸入法的特點包括以下幾點:默認全語音輸入、調動表情、肢體等全感官豐富體驗。
比較有意思的是,百度在去年推出過一款默認語音搜索的搜索產品,簡單搜索,我當時在文章里就評價道:“誰掌握了語音交互的入口,誰就掌握了比賽的輸贏”。
以產品形態的角度看,輸入法也堪稱“古董”。從 PC 時代的鍵鼠,到移動互聯網時代的觸屏,介質一直在變,但輸入法產品的基本邏輯并無顯著革新,都是通過點按字符組成字詞,輸入效率提升已經頂到天花板。
早已成為一顆參天老樹的輸入法,如何在 5G、云計算、大數據、AI 技術的澆灌下發出新芽,已經成為老牌輸入法廠商面臨的新問題。現在看來,百度輸入法試圖通過AI探索版從“效率”與“溫度”兩方面給出答案。
1
AI探索版是如何提升效率的?
聊起輸入法,早年接觸電腦的朋友一定還對揣著五筆字根圖記憶猶新,五筆的高效率甚至一度讓“打字員”成為熱門行業。但以百度輸入法為代表的拼音輸入法迅速崛起,五筆漸漸成為歷史。
背后的邏輯其實很簡單,五筆終歸是一門新手藝,但漢語拼音近乎普及。而顛覆式創新從未停止,語音之于拼音、手寫亦是如此,近乎為零的學習成本帶來了“上手更快”。
這就不難理解,為何百度的“新芽”是一款全盤押注語音的 AI探索版輸入法。
如果說,“上手更快”是語音輸入法的共性,那么“識別更快”則是百度輸入法 AI探索版的個性。
早在移動互聯網浪潮興起時,語音識別準確率就已成為各家產品必爭指標。在基于 模型,紛紛提升到 97% 之后,市場卻似乎陷入沉寂。
究其原因,過去語音使用的場景集中在聊天、搜索這兩大場景,現在已經逐步拓展到了游戲、購物、娛樂等諸多場景,且使用的頻率也越來越高,這就給輸入法提出了新的考驗。
歸根結底,此前的語音輸入法其實存在兩大體驗上的痛點。
其一在于流式解碼。以谷歌 LAS 為代表的傳統 模型幾乎全部基于整句建模。簡單來說,用戶需要經歷一個整句錄制完成-上傳服務器-建模分析的過程,輸入法在其中充當的角色類似翻譯APP,用戶需要付出不小的時間成本。
其二在于長句識別準確率下降。這不得不提到 模型的核心邏輯:基于整句全局信息,通過機器學習的方法,選擇出和當前建模單元最匹配的特征。句子越長,進行特征選擇的難度越大。出錯的概率越高,錯誤前后傳導的概率也越高。
識別慢,識別不準,使得語音輸入總是不能一步到位,最終成了一個“應急功能”。
針對這兩大實打實的痛點,百度創新性地提出了流式多級截斷注意力模型SMLTA。
看起來相當硬核,但是只要稍加拆分就非常容易理解這項新技術的亮點。首先,核心依然是目前主流的 模型,但截斷、流式、多級、基于CTC & 的四大創新點代表了獨特的解決思路。
一一對應起來就是:先使用 CTC 算法對連續語音流進行截斷,然后對每一個截斷的流式語音數據進行建模,以往的整句建模轉變為局部語音段建模,同時引入多級 機制,避免 CTC 插入刪除錯誤對系統的影響,實現特征層層遞進的精準特征選擇。
簡單來說,將以往的整句“切”成了小段進行實時處理,且通過算法解決了失去上下文邏輯導致的誤差。
類比傳統方案,百度輸入法的 模型不僅解決了流式解碼的低效問題,切分后更小的語音段還有效避免了識別率下降的問題。
據百度輸入法官方披露,這也是第一次有公開報道局部 建模,有可能超過全局的 建模的產品。
流式多級截斷注意力模型SMLTA 解決了效率的問題,而在提升易用性上,百度輸入法還有另一個殺手锏——混合輸入。
“初代網紅”papi醬的成名作之一,便是演繹職場與生活的“上海話+英語”的混合表達。惡搞之于,其實也反映了一個現象,在全球化大背景下,商業文化的沖擊會讓口語表達更加不拘泥于一個固定范式。老實說,也的確有很多概念難以在普通話中找到一一對應的詞語加以概括。
不得不說,以往的解決方案屬于“頭痛醫頭,腳痛醫腳”。你說粵語?那么請在設置中切換粵語模式;你說英語?英語模式也有。至于普通話+方言+外語,輸入法直接歇菜。
百度輸入法的想法很直觀,讓語音輸入回歸本能。
一方面,百度輸入法將普通話和六大方言融合成一個語音識別模型,實現了方言與普通話之間的無差別混合語音輸入。
另一方面,得益于多年的海外布局,百度海外輸入法已經支持到 120 門語言,為不少國家由于歷史原因造成語言混輸習慣的用戶提供了更好的體驗。
兩大優勢一疊加,無論是面向國內的百度輸入法,還是面向海外的百度海外輸入法,都成了各自市場中目前唯一實現高精度混輸入的輸入法產品。
既然從“識別更快”,聊到百度海外輸入法,那就不得不提到它的“布局更快”。
作為輸入法,打入國外市場的難度是難以想象的。以傳統邏輯,來自目前全世界智能手機綜合實力最強的國家,輸入法出海最“明智”的方式無非是與廠商合作預裝,短時間內便能通過這條“大腿”拿下漂亮的裝機量。但與此同時,也會因為品牌在用戶認知中的“隱形”而逐漸喪失競爭力。
顯然,百度海外輸入法深知其中門道,選擇了不走捷徑,而是踏踏實實從用戶痛點出發,并深入當地文化語境中。
一方面當然是技術的革新,通過上面提到的智能語音、智能推薦、智能表情三大功能創新,百度得以在重技術、輕人性化的海外市場迅速占領市場。
另一方面,百度輸入法將跳出了輸入法的邊界,將自己定位為一個創意品牌,與包括 hello kitty、懶蛋蛋、輕松熊、LT DUCK、工作細胞血小板、雙子星、格林奇、大黃蜂等在內的知名 IP 跨界合作,實現了輸入法市場的差異化。
以熱衷“萌”系畫風的日本為例,有將近九成 10-19 歲女性為百度日文輸入法 用戶,目前日本市場品牌滲透率已經達到 80%。
靠著技術為主,深入文化語境為輔,百度輸入法成為了輸入法出海的代表。
2
輸入法如何體現科技的溫度
作為工具屬性極強的產品,輸入法往往承載了極為明確的用戶預期。用戶只希望它安安靜靜地干好輸入法的“本職工作”就好,至于更多的新奇特性并無預期。
但從廠商角度,市場競爭對差異性提出了永恒的要求,于是便出現了廠商與用戶在體驗層面的博弈。
百度輸入法AI探索版,顯然是在這樣的博弈中找到屬于自己的路徑,我將其概括為“溫度”。
什么是“溫度”?它并不代表有意放慢技術研發的速度,而是在技術落地到產品時,更多地考慮到如何以人性化的方式與用戶溝通。
于是,百度輸入法為何會主推一款默認全語音的輸入法不難理解了。
語言,是人類最高效,門檻最低的溝通方式。一切研發圍繞“回歸語言溝通本能”展開,則顯然是科技普惠又一次體現。
百度輸入法同時發布了一系列“新表達”功能,包括識別面部特征打造專屬表情的“拍立活”;將虛擬人物置于 360 度場景的“秀場”;配套的“表情秀”社區;以及基于最普通的手機攝像頭,便能將用戶肢體動作識別為文本信息的“新探索”功能“凌空手寫”。
其實都是試圖在手機端,加入神態、表情、動作等“全感官”體驗,為用戶還原生活中最真實的交流場景,以體現在技術飛速前進的浪潮下,百度依然希望產品能帶給用戶看上去“慢”的生活節奏。
3
最后
以當下的行業氛圍,作為目前國內產品落地節奏最快的 AI 技術巨頭,百度如果在這場發布會上暢談輸入法的各種想象空間亦未嘗不可。
一方面電腦日文輸入法推薦,AI 技術儲備深厚,布局宏大;另一方面,百度輸入法也是穩坐市場頭把交椅。但意料之外的是,看似“硬核”的一場發布會下來,我感受到的其實是行業領先者依然埋頭將技術付諸于科技普惠的沉穩與溫度。這當然是大局清晰后的自信電腦日文輸入法推薦,而更多的,則是一個企業價值觀的呈現。
點擊【下方圖片】查看最新精彩文章
我怎么這么好看