南通颐猩文化传播有限公司

當(dāng)前位置:首頁 >  科技 >  互聯(lián)網(wǎng) >  正文

跨越語音日均請求10億次的山和大海,百度輸入法的“平凡之路”

 2020-03-13 10:33  來源: A5專欄   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

文 | 魏啟揚(yáng)

來源 | 智能相對論

2020年的春節(jié)假期因?yàn)樾鹿谝咔榻o所有人來了個措手不及,大量“云”服務(wù)被激活,作為在線溝通工具的輸入法首當(dāng)其沖,成為特殊時期接受考驗(yàn)的中堅(jiān)力量之一,特別是語音輸入能力,更是成為用戶評價輸入法是否好用的重要維度。

近日,百度輸入法公布,自1月25日春節(jié)假期以來,百度輸入法日均語音請求量突破10億次大關(guān),再創(chuàng)行業(yè)歷史新高。

在很多人看來,這只不過一個數(shù)字而已,但很多年后,我們再來回首,日均10億次的語音請求量或?qū)⒊蔀橥苿虞斎敕ㄐ螒B(tài)和操作方式變革的一個標(biāo)志。

一、10億次,必然是高流量和高標(biāo)準(zhǔn)的雙重滿足

回到百度輸入法日均語音請求突破10億次事件本身,我們需要回答兩個問題,為什么會產(chǎn)生如此高的數(shù)據(jù)流量?完成這樣的任務(wù)又需要具備哪些素質(zhì)?

第一個問題很好回答,上文提到特殊時期各種“云”服務(wù)被激活,線上溝通需求呈指數(shù)級增加,輸入法的使用頻率由此被抬升,此時比傳統(tǒng)鍵盤打字更快,還不用動手,更不用學(xué)習(xí)拼音、五筆這類輸入規(guī)則的語音輸入表現(xiàn)出非常大的優(yōu)勢,輸入法語音請求量刷新歷史記錄也就不足為奇了。

只是在創(chuàng)造語音請求新紀(jì)錄之前,輸入法需要解決自己的流量承受能力,畢竟日均10億次的請求流量不是一個小數(shù)字,好在經(jīng)受過“春晚紅包”考驗(yàn)的百度是見過“世面”的,甚至還有很大余地接下更大的流量壓力。

第二個問題的核心關(guān)鍵在于輸入法不但要能用、好用還需要用戶喜歡用。

首先,在技術(shù)層面,準(zhǔn)確率是無法繞開的基礎(chǔ)門檻。

作為一種輸入方式,讓用戶愿意使用,首要滿足條件是準(zhǔn)確率,即精準(zhǔn)理解用戶的意圖并將其表達(dá)出來。

鍵盤打字輸入能夠成為主流輸入方式,很大原因在于用戶的一字一句被完全復(fù)刻,輸入結(jié)果精準(zhǔn)且高效。

相比之下,語音輸入需要經(jīng)過機(jī)器“識別”到“翻譯”再到呈現(xiàn)的過程,輸入鏈條被拉長,如果技術(shù)不夠完善,不但不能完成實(shí)時語音交互任務(wù),而且只要其中任何一個環(huán)節(jié)出現(xiàn)問題,都會影響到最終的輸入結(jié)果,準(zhǔn)確度難以保證。

百度去年發(fā)布的流式截斷多層注意力建模(SMLTA),則實(shí)現(xiàn)了中文在線語音識別的兩大突破:世界上首次實(shí)現(xiàn)了局部注意力建模識別精度超過全局注意力模型;世界上第一次大規(guī)模部署在線語音交互注意力模型。

也正是憑借著這一技術(shù),百度解決了傳統(tǒng)Attention模型在識別中的時延性,以及因此導(dǎo)致的無法進(jìn)行大規(guī)模在線語音實(shí)時交互的問題,將百度輸入法在線語音識別精度提升了15%,超越行業(yè)最高水平15%。同時在離線語音識別方面,即使用戶處于地鐵、電梯、隧道或者人流密集等離線場景中,百度輸入法依然可以提供準(zhǔn)確率超過98%的語音輸入服務(wù)。

其次,在用戶層面,“懂你”比“給你”更重要。

準(zhǔn)確率是滿足用戶需求的基礎(chǔ)門檻,但這也只是解決了“能用”的問題,要想讓用戶愛用,并形成使用習(xí)慣,那就要求輸入法要“懂”用戶。

如何理解?

說話時口語化怎么辦?說話習(xí)慣中英夾雜怎么辦?說話有方言口音又怎么辦?這些情況下,輸入法都能識別清楚嗎?

很明顯這類說話習(xí)慣一旦養(yǎng)成,在短時間內(nèi)既難糾正,更難改變,特別是一些年長用戶,讓他們改變幾十年來形成的口音,基本是一個不能完成任務(wù),這時就要求輸入法不能只是被動的向用戶提供自己的輸入能力,而要主動“遷就”用戶,“聽懂”用戶的意圖。

百度輸入法的“方言自由說”和“中英自由說”兩大功能就是這一產(chǎn)品設(shè)計思維下的產(chǎn)物。

前者是通過技術(shù)優(yōu)化,將普通話和六大方言融合成了一個語音識別模型,實(shí)現(xiàn)方言與方言、方言與普通話的混合語音輸入,這也使百度輸入法成為首個實(shí)現(xiàn)方言免切換語音輸入的輸入法產(chǎn)品。

后者可以在完全不影響中文語音輸入準(zhǔn)確率的情況下,實(shí)現(xiàn)高精準(zhǔn)中英文混合語音識別輸入。

在去年的百度AI開發(fā)者大會上,百度輸入法面對了一段高難度“Rap”識別挑戰(zhàn):“你的這個新model效果比baseline好多少,探索技術(shù)的depth和scope是我們的責(zé)任,我很喜歡barrier這個詞,AI的value其實(shí)就是break barrier”。

這段中英混雜的文字,即便讀出來也需在腦中回旋許久才能領(lǐng)會意思,但百度輸入法在現(xiàn)場卻零誤差的識別出來了,不但準(zhǔn)確理解還根據(jù)語義進(jìn)行了正確斷句,并且以非常快的速度上屏呈現(xiàn)結(jié)果。

最后,在創(chuàng)新層面,總能給用戶帶來驚喜。

上文提到的無論是流式截斷多層注意力建模(SMLTA),還是“方言自由說”和“中英自由說”兩大功能,都是百度輸入法的創(chuàng)新成果。很明顯,因?yàn)閯?chuàng)新給用戶帶來體驗(yàn)提升的同時,也帶來了愉悅與驚喜,并因此完成了用戶的拉新與留存。

偶然使用過百度輸入法用戶,體驗(yàn)過創(chuàng)新功能后,由路轉(zhuǎn)粉;百度輸入法的老用戶,在經(jīng)歷了輸入法的持續(xù)迭代進(jìn)化,一直處于對下一次創(chuàng)新功能的期待中,進(jìn)而成為鐵粉。

目前我們看到的百度輸入法呈現(xiàn)在外好像只是單純的聲音到文字的轉(zhuǎn)換,但事實(shí)上,百度輸入法已經(jīng)成為軟硬一體、語音語言一體,識別和交互一體的復(fù)雜應(yīng)用。

綜上而言,達(dá)成10億次成就,除了有深厚的技術(shù)實(shí)力作為支撐和保障,還需有技術(shù)溫度,帶來“人情”,感知“冷暖”。

二、打開AI的魔盒,我們到底需要怎樣的輸入法?

我們注意到,隨著AI開始進(jìn)入工業(yè)大生產(chǎn)階段,輸入法的形態(tài)和模式也開始發(fā)生變化,從鍵盤打字輸入到語音輸入,我們看到的只是其中的一個表象,在AI的驅(qū)動下,輸入法正由內(nèi)向外在更多維度發(fā)生著變化。

在討論輸入法形態(tài)變化之前,我們需要理解輸入法進(jìn)化的原因。

首先,用戶需求和場景倒逼,鍵盤打字輸入已經(jīng)out了。

在互聯(lián)網(wǎng)時代,輸入法只出現(xiàn)在PC端,使用場景單一,輸入法廠商只需保證輸入結(jié)果的準(zhǔn)確和快捷即可具備較強(qiáng)的競爭力。

進(jìn)入移動互聯(lián)網(wǎng)時代,用戶使用的智能終端變多,使用場景也更加豐富起來,這就要求輸入法不光要適用不同終端的使用習(xí)慣,還需適應(yīng)不同場景的使用需求,因而在操作方式上不再局限于鍵盤打字輸入,語音輸入方式成為一個非常重要的能力被提煉出來。

像此次疫情,語音輸入方式除了場景倒逼之外,用戶希望更快、更便捷的輸入體驗(yàn)升級,也推動著傳統(tǒng)輸入法做出改變。

可以預(yù)測,當(dāng)我們進(jìn)入物聯(lián)網(wǎng)時代后,還會有更多的輸入方式出現(xiàn)。

其次,擁有AI內(nèi)核的輸入法變得無處不在無所不能。

輸入法自身也一直在尋求進(jìn)化迭代,只是我們所說的輸入技術(shù)并非只局限于提高輸入法準(zhǔn)確性的基礎(chǔ)能力,而是通過AI技術(shù)的賦能,創(chuàng)新輸入法產(chǎn)品形式,讓用戶獲得更好的使用體驗(yàn)。

像百度輸入法基于NLP、圖像識別、AR等技術(shù),推出了NLP整句預(yù)測、AI斗圖、神句配圖、皮膚主體C位識別等功能,成為業(yè)內(nèi)首家實(shí)現(xiàn)多場景整句智能預(yù)測的輸入法產(chǎn)品;去年發(fā)布的AI探索版,還創(chuàng)新性的推出全語音交互的產(chǎn)品新形態(tài)和凌空手寫等領(lǐng)先的AI功能。

用戶需求和使用場景的變化,任何一個輸入法產(chǎn)品都能掌握,但能否根據(jù)這些變化做出應(yīng)對,則非??简?yàn)產(chǎn)品在“輸入”之外的能力。一為行業(yè)進(jìn)化趨勢的洞察力,一為支持產(chǎn)品迭代的技術(shù)儲備力。

三、踏上10億次臺階,百度開啟輸入法的生態(tài)空間

每天10億次語音請求交互是一個里程,也是一個臺階,一個邁向輸入法下個形態(tài)高度的臺階。對于百度輸入法來說,這個創(chuàng)造紀(jì)錄的數(shù)據(jù)則為其開啟生態(tài)空間的打法提供了基礎(chǔ)。

第一是用戶基礎(chǔ)。

在此之前,根據(jù)艾媒咨詢不久前發(fā)布的《2019中國第三方手機(jī)輸入法市場年度專題研究報告》顯示,百度輸入法去年全年月活增速處于行業(yè)第一,市場份額達(dá)43.1%,與搜狗幾近持平。

今年春節(jié)期間的語音請求交互流量的爆發(fā),百度輸入法在完成了對用戶語音輸入普及和教育的同時,也因新型輸入方式帶來的體驗(yàn)升級進(jìn)一步提升了用戶的粘性。

第二是內(nèi)容基礎(chǔ)。

當(dāng)用戶的基數(shù)足夠大的時候,為滿足用戶的個性需求,輸入法的內(nèi)容承載形式也出現(xiàn)了創(chuàng)新。

百度輸入法不但與Cherry、FILCO、ROG等近20家外設(shè)頭部品牌建立了輸入法行業(yè)的獨(dú)家內(nèi)容生態(tài)聯(lián)盟,與這些外設(shè)品牌共同推出旗艦仿真鍵盤精品授權(quán)皮膚,還與Cherry合作打造仿真鍵盤,在華為Mate30 pro上高度還原Cherry實(shí)體機(jī)械鍵盤軸的觸感。

可鹽可甜,輸入內(nèi)容的豐富既是用戶體驗(yàn)的升級,亦是產(chǎn)品技術(shù)的升級。

第三是硬件廠商的合作基礎(chǔ)。

百度輸入法龐大的用戶基礎(chǔ),也將順理成章的打通硬件廠商的預(yù)裝渠道,成為更多硬件終端的預(yù)裝應(yīng)用。

事實(shí)上,百度輸入法長期以來都是華為的預(yù)裝合作輸入法,二者在機(jī)型適配、輸入體驗(yàn)的打造上已經(jīng)形成默契,很明顯,兩者的合作形成了雙贏的結(jié)局,這也給其他硬件廠商樹立了一個可以參照的典范。

可以想象,當(dāng)百度輸入法進(jìn)入越來越多的硬件終端時,結(jié)合其巨大的用戶基礎(chǔ)和豐富內(nèi)容,將構(gòu)建起一個充滿活力的輸入法生態(tài)。

由生態(tài)對抗單一的輸入法應(yīng)用,你可以將其理解為“搶跑”,也可理解為“降維”競爭,在輸入法的戰(zhàn)略布局上,百度又走在了前面。

此內(nèi)容為【智能相對論】原創(chuàng),

僅代表個人觀點(diǎn),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。

部分圖片來自網(wǎng)絡(luò),且未核實(shí)版權(quán)歸屬,不作為商業(yè)用途,如有侵犯,請作者與我們聯(lián)系。

智能相對論:

•AI新媒體;

•今日頭條青云計劃獲獎?wù)逿OP10;

•澎湃新聞科技榜單月度top5;

•文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

•著有《人工智能 十萬個為什么》

•【重點(diǎn)關(guān)注領(lǐng)域】智能駕駛、AI+醫(yī)療、機(jī)器人、AI+硬件(含無人機(jī)、智能手機(jī)、電視)、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計算、開發(fā)者以及背后的芯片、算法等。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
百度輸入法

相關(guān)文章

熱門排行

信息推薦