.精品久久久麻豆国产精品,а√天堂网www在线中文,国产成人欧美一区二区三区,疯狂的欧美乱大交另类,99热都是精品久久久久久

Jan 16, 2020

【熱點(diǎn)資訊】聞其聲而知其人——語音識別技術(shù)的革命

上期我們聊到了“子彈短信”,子彈短信最具特色的就是語音文字功能,據(jù)說搭載科大訊飛語音技術(shù)的子彈短信其語音轉(zhuǎn)文字的正確率可以達(dá)到97%,準(zhǔn)確率超過了微信。



那我們今天就來聊聊,語音聊天中最重要的技術(shù)——語音識別。


未見其人先聞其聲,要想了解語音識別這個(gè)概念,先要看看下面這段對話。


“我來遲了,不曾迎接遠(yuǎn)客!”

“這些人個(gè)個(gè)皆斂聲屏氣,恭肅嚴(yán)整如此,這來者系誰,這樣放誕無禮?”

“一定是鳳辣子來了。”


看過《紅樓夢》的朋友,想必都對這段對話印象深刻,賈母正是通過聲音的音色來辨別來者何人,這就叫“聞其聲而知其人”。語音識別大概就是這個(gè)意思了。



通俗的說就是,我說,他聽。


專業(yè)的說,語音識別技術(shù)(AutomaticSpeech Recognition)的目標(biāo)是將人類的語音表達(dá)的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入內(nèi)容,例如按鍵、二進(jìn)制編碼或者字符序列。


語音識別技術(shù)的應(yīng)用包括語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術(shù)與其他自然語言處理技術(shù)如機(jī)器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語音到語音的翻譯。


語音識別技術(shù)所涉及的領(lǐng)域就更加廣泛了,包括信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等各類行業(yè)領(lǐng)域。


其實(shí)對于一款社交軟件來說,可以說語音功能決定了一切。大多數(shù)用戶都是從文字聊天流向語音聊天的,盡管現(xiàn)在大部分的聊天還是通過文字表達(dá)的手段,但是如果說這款社交軟件缺失了語音聊天語音識別的功能,我想它一定很快就被淘汰了。


而輸入法軟件更是必不可少的內(nèi)嵌了語音輸入的功能,通過語音識別技術(shù),通過識別語音內(nèi)容形成文字輸出。想來語音識別技術(shù)發(fā)展到今天,已經(jīng)是一項(xiàng)不可或缺的功能。


其實(shí)早在上世紀(jì)50年代就有人開始研究這項(xiàng)技術(shù)了,直到80年代才取得重大突破。之后這項(xiàng)技術(shù)便從實(shí)驗(yàn)室開始走向整個(gè)市場。


目前語音識別是市場上應(yīng)用最為成熟的人機(jī)交互方式,蘋果的Siri、微軟的Cortana都運(yùn)用了這項(xiàng)技術(shù)原理。



那么在AI行業(yè)中

語音識別技術(shù)又有怎樣的發(fā)展呢?


“語音識別”的終極夢想,是真正能夠理解人類語言甚至是方言環(huán)境的系統(tǒng)。但幾十年來,人們并沒有一個(gè)有效的策略來創(chuàng)建這樣一個(gè)系統(tǒng),直到人工智能技術(shù)的爆發(fā)。


在過去幾年中,人們在人工智能和深度學(xué)習(xí)領(lǐng)域的突破,讓語音識別的探索跨了一大步。市面上玲瑯滿目的產(chǎn)品也反映了這種飛躍式發(fā)展,例如亞馬遜Echo、蘋果Siri等等。


多年來,理解人類一直都是人工智能的最重要任務(wù)之一。人們不僅希望機(jī)器能夠理解他們在說些什么,還希望它們能夠理解他們所要表達(dá)的意思,并基于這些信息采取特定的行動。而這一目標(biāo)正是對話式人工智能(AI)的精髓。



對話式AI包含有兩個(gè)主要類別:人機(jī)界面,以及人與人溝通的界面。在人機(jī)界面中,人類與機(jī)器往往通過語音或文本交互,屆時(shí)機(jī)器會理解人類(盡管這種理解方式是有限的)并采取相應(yīng)的一些措施。


而人工智能所包含的機(jī)器感知和機(jī)器識別在對話式AI中被這樣體現(xiàn)出來:所有的語音分析技術(shù),如識別和性能分析被機(jī)器感知所控制;所有與語言理解能力相關(guān)的技術(shù)則被機(jī)器識別所包含(自然語言處理也包含在內(nèi))。


早年語音識別技術(shù)的發(fā)展緩慢,缺陷就在于建立的語言模型并不完善。因?yàn)檎Z言模型和聲學(xué)模型是聽寫識別的基礎(chǔ),這方面沒有突破,語音識別的進(jìn)展就只能是一句空話。而口音也是語音識別的技術(shù)難點(diǎn),盡管就目前所知道的語言庫中,各地方言詞匯庫在不斷地?cái)U(kuò)充,而微信也加入了識別方言的功能,但這還遠(yuǎn)遠(yuǎn)不夠,語音識別的自適應(yīng)能力仍需要進(jìn)一步的加強(qiáng)。


簡單地說,目前使用的聲學(xué)模型和語音模型太過于局限,以至用戶只能使用特定語音進(jìn)行特定詞匯的識別。如果突然從中文轉(zhuǎn)為英文,或者法文、俄文,計(jì)算機(jī)就會不知如何反應(yīng),而給出一堆不知所云的句子;或者用戶偶爾使用了某個(gè)專門領(lǐng)域的專業(yè)術(shù)語,如“信噪比"等,可能也會得到奇怪的反應(yīng)。這一方面是由于模型的局限,另一方面也受限于硬件資源。


隨著兩方面的技術(shù)的進(jìn)步,將來的語音和聲學(xué)模型可能會做到將多種語言混合納入,用戶因此就可以不必在語種之間來回切換。此外,對于聲學(xué)模型的進(jìn)一步改進(jìn),以及以語義學(xué)為基礎(chǔ)的語言模型的改進(jìn),也能幫助用戶盡可能少或不受詞匯的影響,從而可實(shí)行無限詞匯識別。


基于深度學(xué)習(xí)對語音識別技術(shù)的改進(jìn)


深入學(xué)習(xí)對語音識別領(lǐng)域產(chǎn)生了巨大的影響。其影響非常深遠(yuǎn),即使在今天,幾乎每一個(gè)語音識別領(lǐng)域的解決方案都可能包含有一個(gè)或多個(gè)基于神經(jīng)模型的嵌入算法。


通常而言,人們對語音識別系統(tǒng)的評價(jià)都基于一個(gè)名為配電盤(SWBD)的行業(yè)標(biāo)準(zhǔn)。SWBD是一個(gè)語音語料庫,整合了電話中的即興對話,包含音頻和人聲的副本。


語音識別系統(tǒng)的評估標(biāo)準(zhǔn)主要基于其誤字率(WER),誤字率是指語音識別系統(tǒng)識別錯(cuò)誤的單詞有多少。



從2008年到2011年,誤字率一直都處于一個(gè)穩(wěn)定的狀態(tài),位于23%至24%之間;而深度學(xué)習(xí)從2011年開始出現(xiàn)時(shí)起,誤字率從23.6%降低至5.5%。這一重大發(fā)展對語音識別開發(fā)而言是一種變革,其誤字率的改進(jìn)相對提高了近77%。


誤字率的改善也產(chǎn)生了廣泛應(yīng)用,例如蘋果Siri、亞馬遜Alexa、微軟Cortana 和GoogleNow,這些應(yīng)用也可以通過語音識別激活各種家居,如亞馬遜Echo和Google Home。



而隨著亞馬遜Echo與Google Home的成功,許多公司正在發(fā)布能夠識別理解語音的智能揚(yáng)聲器和家庭設(shè)備。然而,這些設(shè)備的推出又帶來了一個(gè)新問題:用戶說話時(shí)往往距離麥克風(fēng)不是很近,例如用戶用手機(jī)對話時(shí)的狀態(tài)。而處理遠(yuǎn)距離語音識別又是一個(gè)具有挑戰(zhàn)性的問題,很多研究小組也正在積極研究這個(gè)問題。如今,創(chuàng)新的深度學(xué)習(xí)和信號處理技術(shù)已經(jīng)可以提高語音識別的質(zhì)量了。



語音識別系統(tǒng)的關(guān)鍵問題之一是缺乏現(xiàn)實(shí)生活的數(shù)據(jù)。例如,很難獲得高質(zhì)量的遠(yuǎn)程通話數(shù)據(jù)。但是,有很多來自其他來源的數(shù)據(jù)可用。一個(gè)問題是:我們可以創(chuàng)建合適的合成器來生成培訓(xùn)用的數(shù)據(jù)嗎?今天,生成合成數(shù)據(jù)并培訓(xùn)系統(tǒng)正在受到重視。


為了訓(xùn)練語音識別系統(tǒng),我們需要同時(shí)具備音頻和轉(zhuǎn)錄的數(shù)據(jù)集。人工轉(zhuǎn)錄是繁瑣的工作,有時(shí)會導(dǎo)致大量音頻的問題。因此,就有了對半監(jiān)督培訓(xùn)的積極研究,并為識別者建立了適當(dāng)程度的信心。


今天,大多數(shù)語音識別系統(tǒng)都是基于云的,并且具有必須解決的兩個(gè)具體問題:延遲和持續(xù)連接。延遲是需要立即響應(yīng)的設(shè)備(如機(jī)器人)的關(guān)鍵問題。在長時(shí)間監(jiān)聽的系統(tǒng)中,由于帶寬成本,持續(xù)連接是一個(gè)問題。因此,還需要對邊緣語音識別的研究,它必須保持基于云的系統(tǒng)的質(zhì)量。


寫在最后:

深度學(xué)習(xí)在語音識別和對話式AI領(lǐng)域刻下了深深的印記。而鑒于該技術(shù)最近獲得的突破,我們真的正處于一場革命的邊緣。


而最大的問題在于,我們是否準(zhǔn)備贏得語音識別領(lǐng)域的技術(shù)挑戰(zhàn),并像其他商品化技術(shù)一樣開始運(yùn)用它呢?或者說,是否還有另一個(gè)新的解決方案正等待著我們?nèi)グl(fā)現(xiàn)?畢竟,語音識別的最新進(jìn)展只是未來科技藍(lán)圖的一小塊:語言理解本身就是一個(gè)復(fù)雜而且或許更加強(qiáng)大的一個(gè)領(lǐng)域。