2019年12月，愛數(shù)智慧自然式對話測試數(shù)據(jù)集入選LDC Catalog，編號為LDC2019S23。LDC Catalog是經(jīng)過CoreTrustSeal數(shù)據(jù)知識庫認(rèn)證的數(shù)據(jù)存儲平臺，并獲得OLAC(開放數(shù)據(jù)存儲聯(lián)盟) 五星級評定。愛數(shù)智慧此次入選的數(shù)據(jù)集由60名發(fā)音人在不同環(huán)境中錄制而成，發(fā)音人來自全國多個口音區(qū)，年齡段覆蓋均衡。作為測試集，該數(shù)據(jù)集可為多種對話類語音識別模型測試提供特征廣泛的語音數(shù)據(jù)。

AI巨頭發(fā)力多輪對話研究，對話數(shù)據(jù)集需求爆發(fā)

AI巨頭在應(yīng)用層的拓展推動對話類數(shù)據(jù)集需求迎來爆發(fā)期。《2019人工智能商業(yè)化報告》指出，語音交互更貼近人類的溝通行為和習(xí)慣，隨著技術(shù)突破帶來的用戶體驗的提升，將最有可能成為人機(jī)交互的主流。對話式語音交互成為AI巨頭發(fā)力的重點，谷歌、亞馬遜、阿里、騰訊、百度、小米等紛紛推出了支持多輪連續(xù)對話的智能音箱、智能助理、智慧客服、智能機(jī)器人等產(chǎn)品。AI系統(tǒng)連續(xù)對話能力將引發(fā)金融、教育、科技互聯(lián)網(wǎng)、交通出行、移動通信、科技制造等行業(yè)的交互變革。

另一方面，朗讀式數(shù)據(jù)的模型識別準(zhǔn)確率已可達(dá)97%-98%，而從CHiME 5比賽數(shù)據(jù)來看，對話式數(shù)據(jù)的模型識別準(zhǔn)確率基本在50%左右。這個結(jié)果表明，在語音識別領(lǐng)域，對話類語音識別仍然是一個挑戰(zhàn)。語音識別技術(shù)應(yīng)用需要更好、更智能的對話類語音識別模型，也需要更多的對話類數(shù)據(jù)提升模型性能。

愛數(shù)智慧自然式對話測試數(shù)據(jù)集入選LDC Catalog

總有一些企業(yè)走在了行業(yè)趨勢的前端，因此當(dāng)市場需求興起時，那些具有前瞻性眼光的企業(yè)便能抓住機(jī)遇的風(fēng)口。2019年12月，著名的語音數(shù)據(jù)存儲與發(fā)布平臺LDC將愛數(shù)智慧的自然式對話測試數(shù)據(jù)集納入數(shù)據(jù)集目錄，編號為LDC2019S23。公開資料顯示，該目錄已經(jīng)過CoreTrustSeal數(shù)據(jù)知識庫認(rèn)證。這充分肯定了入選數(shù)據(jù)集的可信賴度，同時也表明這些數(shù)據(jù)在未來仍然有用且有意義。

愛數(shù)智慧自然式對話測試數(shù)據(jù)集詳解

愛數(shù)智慧科技有限公司成立于2016年，是一家專業(yè)的人工智能數(shù)據(jù)服務(wù)商，為語音識別、語音合成等領(lǐng)域提供專業(yè)的數(shù)據(jù)采集和標(biāo)注服務(wù)。人工智能從業(yè)者常說 “Garbage in, garbage out”，也就是說好的數(shù)據(jù)和好的模型一樣重要。因此，我們不禁有些好奇這個數(shù)據(jù)集的魅力。愛數(shù)智慧的工作人員從數(shù)據(jù)采集、標(biāo)注以及應(yīng)用三方面為我們講述了這個數(shù)據(jù)集的豐富內(nèi)涵。

（一）采集的多樣性

該數(shù)據(jù)集采用自發(fā)式風(fēng)格錄制，發(fā)音人根據(jù)選擇的主題自由對話，充分還原生活中自然語言對話的場景。

發(fā)音人的多樣性：該數(shù)據(jù)集由60名發(fā)音人錄制而成，年齡段為4-67歲，采樣均衡;發(fā)音人來自全國多個口音區(qū)，如陜西、內(nèi)蒙、福建等;

錄制環(huán)境多樣性：該數(shù)據(jù)集在三個不同混響的房間進(jìn)行錄制，接近真實生活場景;

錄音設(shè)備多樣性：錄音設(shè)備包含5種不同品牌安卓手機(jī)、8種型號的蘋果手機(jī)、2種型號的錄音筆;

拾音距離的多樣性：數(shù)據(jù)集既包含近場數(shù)據(jù)，又包含遠(yuǎn)場數(shù)據(jù)。

（二）標(biāo)注的準(zhǔn)確性

同一說話人音頻截取的準(zhǔn)確性。在對話過程中，既有設(shè)備錄制單人說話聲音，又有設(shè)備

同時記錄對話音頻。因此，為了保證說話人音頻的一致性，需要將至少3份音頻數(shù)據(jù)結(jié)合起來標(biāo)注。這要求在不同的音頻數(shù)據(jù)中，對同一說話人音頻的截取要保持高度的統(tǒng)一。

前瞻性的標(biāo)簽體系和標(biāo)注準(zhǔn)則。自然語言產(chǎn)生的語音交疊、停頓、咳嗽、拍手等聲音都

是有意義的，這些聲音表明了說話人的狀態(tài)、情緒，甚至?xí)凳菊f話人的心理活動。如何用機(jī)器可識別的語言說明這些聲音呢?愛數(shù)智慧的標(biāo)注團(tuán)隊制定了一套客戶認(rèn)可的標(biāo)簽體系，為出現(xiàn)在音頻中的每一種聲音找到歸屬。在長期的標(biāo)注中，愛數(shù)智慧形成了一套完整的標(biāo)注準(zhǔn)則，讓數(shù)據(jù)保持一致性。

（三）語音識別模型適配的多樣性

該自然式對話測試數(shù)據(jù)集可用于多種類型的語音識別模型測試，如對話識別模型、說話人分離、模型魯棒性測試等。

對話類語音識別模型準(zhǔn)確率測試。例如，在一個典型的家庭應(yīng)用場景中，使用語音交互的家庭成員包含老人、妻子(成年女性)、丈夫(成年男性)、孩子。這些家庭成員的發(fā)音方式、發(fā)音習(xí)慣均有差異。在語音識別模型中，該數(shù)據(jù)集發(fā)音人年齡的多樣性可用于測試模型對不同年齡段的識別效果。

說話人分離任務(wù)測試。基于特定說話人的場景化識別已經(jīng)成為研究熱點，美國國家標(biāo)準(zhǔn)局從2002年的豐富轉(zhuǎn)寫評測中正式加入了說話人分離任務(wù)，即從多人對話中自動地將語音依據(jù)說話人進(jìn)行劃分并加以標(biāo)記。該數(shù)據(jù)集在采集中，已經(jīng)設(shè)置了單人錄音通道和多人錄音通道。因此，可以將該數(shù)據(jù)集用于測試模型對說話人分離任務(wù)的準(zhǔn)確率。

說話人確認(rèn)任務(wù)測試。標(biāo)注人員按照說話人對音頻進(jìn)行標(biāo)注，即每段音頻都有對應(yīng)的說話人。由于該數(shù)據(jù)集采用多種不同類型的設(shè)備錄制，在模型中，可將不同設(shè)備錄制的語音段用于對待測說話人的身份進(jìn)行判斷，從而得出模型完成說話人確認(rèn)任務(wù)的準(zhǔn)確率。

模型魯棒性測試。該數(shù)據(jù)集采集中，既有近場數(shù)據(jù)，又包含遠(yuǎn)場數(shù)據(jù)。將不同拾音距離的數(shù)據(jù)放入模型中，可以測試出模型在不同底噪、距離等因素干擾下的準(zhǔn)確率，從而分析模型魯棒性。

此外，該數(shù)據(jù)集包含了多種口音的語音數(shù)據(jù)，可以幫助模型快速擴(kuò)展到多個不同口音區(qū)域。

據(jù)了解，愛數(shù)智慧擁有數(shù)據(jù)量行業(yè)領(lǐng)先的中文自然對話數(shù)據(jù)庫，并在多語種自然對話數(shù)據(jù)制作上擁有行業(yè)認(rèn)可的專業(yè)度?？芍谱?0多種語言的數(shù)據(jù)集，如中文、日語、韓語、泰語、他加祿語、馬來語以及各種口音的英語等。該公司已經(jīng)積累10萬小時+多語種多場景的音頻數(shù)據(jù)，可快速用于提高語音識別模型性能。隨著AI巨頭對對話數(shù)據(jù)需求的爆發(fā)式增長，我們期待愛數(shù)智慧作為對話數(shù)據(jù)制作的先行者，發(fā)揮先發(fā)優(yōu)勢，為提升語音識別模型性能提供有力的數(shù)據(jù)支撐。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

南通颐猩文化传播有限公司

當(dāng)前位置：首頁 > 科技 > IT業(yè)界 > 正文

愛數(shù)智慧高難度對話測試集入選LDC Catalog，助力語音識別

相關(guān)文章

“一語即達(dá)”，信美相互智能語音識別功能上線

如何制作雙語字幕？用繪影字幕自動識別，快速制作雙語字幕

咪鼠S2帶來更出色的使用體驗

ASRU2019大賽落幕，中英混雜語音識別技術(shù)取得新突破

訊飛錄音筆憑借優(yōu)越實力助用戶開啟工作、學(xué)習(xí)高效便捷時代

熱門排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網(wǎng)廣告的存在意義何在？

熱門標(biāo)簽