“語音識別”的智能紅利如何商業化

    從語言學角度說,自然語言包括詞法、語法、語義、語用四個階段。目前語音識別從詞法、語法的理解,逐步進入多種表達方式的語義階段。如果說人臉識別讓安全進入生物階段,那么語音識別則讓人工智能進入感官時代。真正學會主動思考的機器人時代似乎也不遙遠了。

    繼馬云年初在德國刷臉支付淘寶后,上周招商銀行也推出刷臉ATM取款。相比于人臉識別、指紋識別等生物特征在金融領域大放異彩,語音識別則不溫不火地滲透到人們的生活細節中。10月初,科大訊飛發布客家話版本,這是其第14種地方方言;上周,出門問問則獲得G oogle的C輪融資,這也是Google2010年退出中國后第一筆投資。

    從語言學角度說,自然語言包括詞法、語法、語義、語用四個階段。目前語音識別從詞法、語法的理解,逐步進入多種表達方式的語義階段。如果說人臉識別讓安全進入生物階段,那么語音識別則讓人工智能進入感官時代。真正學會主動思考的機器人時代似乎也不遙遠了。

    從“聽得到”到“聽得懂”

    語音識別,用人類比喻就是先用耳朵(前端模塊)聽進去,然后通過大腦(識別系統)理解,然后再通過嘴巴(后端解碼)表達出來。耳朵與嘴巴需要的是靈敏度,而大腦則需要不斷訓練學習。

    關于前端,漢王科技常務副總裁徐冬堅告訴南都記者:“這部分難度主要在于算法,因為目前的語音樣本主要來自于移動設備,都是非標準的、自然場景的?!币话闱闆r需要信號處理與特征處理,前者去除環境噪音,后者則對某些特定語言進行標注,從而使語言成為機器能理解的“信號”。

    標注之后就進入了識別系統,一套語音系統包括聲學模型與語言模型。語言模型一般采用N -G ram模型,就是統計每個詞前面的單詞出現的概率;聲學模型主要有深度網絡與遞進網絡兩種,微信、科大訊飛、出門問問都采用前者,和人腦類似,模型中的神經元獲得標注后,對比已有的標注數據,通過不斷反饋錯誤,使得每個神經元重新學習。

    但出門問問C T O雷欣告訴南都記者,深度學習網絡需要人工標準,“語音分析數據人工標注只需要聽懂普通話就行,但對于語義分析的一些特定任務,要求語言學研究生以上級別,這導致其數據標注獲取十分昂貴?!?/p>

    大量數據的訓練也是語音識別的門檻之一,像科大訊飛對一套語言系統訓練至少需要2萬小時及過百萬詞匯量,沒有足夠的樣本量也無法讓其理解語言與文字之間的內在關系,而云數據就在這里面發揮了作用?!耙郧暗淖R別只能是在PC或嵌入式的設備上運行,現在通過云端來提供服務是識別技術發展的必然趨勢?!毙於瑘员硎?,漢王向語音開發者開放A P I接口,而也是這些云平臺的數據讓語音識別變得不那么“高大上”。

    同時,一套語言系統更多的學習還在于投入應用之后。這也能有效解決方言數據不足問題,比如說科大訊飛10月份剛上線客家話版本,但實際上客家話方言差異很大,目前只是以梅州為主音,在未來需要用戶反饋去優化。

    “目前微軟人工智能機器人小冰上線一年多,一開始的訓練數據來自必應的搜索大數據,而現在小冰已經實現了自我成長,超過50%的數據量來自于后期用戶的反饋。”微軟小冰負責人李笛告訴南都記者,“同時,小冰還具有情感計算的能力,可以通過用戶的客觀檔案、重要時間節點以及行為習慣三方面進行采集,去理解每個用戶的不同?!?/p>

    說比聽容易。如果“大腦”能夠理解,解碼便成了最容易的事。像小冰還聽不懂粵語,但可以根據用戶的定位和行為習慣表達粵語等方言俚語。根據不同場景,比如作為輸入法的科大訊飛注重口語翻譯文字,而出門問問的智能手表ticw atch則是將用戶搜索內容通過發音字典“說”出來。

    商業化前景

    一個語音系統經過大量工程師、語言學家的訓練推向市場,就要考慮商業化問題?!半m然語音不像人臉、指紋一樣具有唯一性,可作為金融領域等的身份辨別功能,但語言的輸入與交互更加自然”,雷欣如是表示。

    目前,語音識別面向消費者的應用場景主要包括翻譯文字、垂直搜索、定向推送,不同互聯網公司根據其需求疊加不同服務。比如說在翻譯文字上,搜索引擎谷歌、百度更注重網頁翻譯,阿里巴巴注重商品信息,而科大訊飛則偏重口語;而定向推送及垂直搜索主要是根據用戶的上下文關聯,推送更多生活服務,比如出門問問的可穿戴設備ticw atch.

    “一個通用的語音識別引擎(常見的輸入法)在識別某種特定領域(如垂直類生活服務搜索時),效果不會很好,這需要特定聲音模型與語音模型的訓練。”雷欣舉例說,“比如‘幫我找一下附近的酒店,3星級以上,帶W IFI,今晚入住,明天退房’,這需要理解用戶核心需求找酒店以及其他關鍵信息?!?/p>

    在長時間訓練下,語音識別系統可以從理解語法到理解語義,應用于更多垂直行業領域———教育、車聯網、智能家居是多家語音平臺提到的最主要的垂直應用領域。比如科大訊飛介入普通話考試以及汽車互聯網服務等領域;而漢王則結合其OCR識別(手寫與文字識別),來表達公式、圖像等教育內容。

    比如車聯網,“語音可以實現盲操作,不會分散司機注意力,比起圖像更適用于高速駕駛狀態”,達晨創投南區T M T投資總經理程仁田告訴南都記者,但實現車聯網的前提是硬件上要先有聯網功能。

    “人臉可以作為身份辨別,但語言卻是人工智能的感官系統。”微軟(亞洲)互聯網工程院院長王永東告訴南都記者,“人工智能助理小娜屬于有用的工具階段,這也是目前語音識別最廣泛的應用領域,而小冰希望通過情感學習成為‘可信任’的朋友。你可以發現現在的語言輸入基本是命令式的,而不是真正的交互式?!?/p>

    “如果它能取得用戶信任,理解用戶的喜好,它的商業價值就更明顯,比如說電商推薦?!蓖跤罇|說,目前小冰肯定不考慮商業化問題?!罢l喜歡一個沒多熟,還天天‘安利’的朋友??!”

    熱詞搜索: 紅利|語音識別|智能

    [責任編輯:]

    相關文章

    最新推薦

    主站蜘蛛池模板: 国产婷婷一区二区三区| 久久国产精品国产精品| 喝丰满女医生奶水电影| 国产94在线传媒麻豆免费观看| 全彩无修本子里番acg| 久久精品国产乱子伦| 99久久99久久精品国产| 美女扒开尿口给男人爽免费视频 | 精品一区二区三区免费视频 | 92国产福利久久青青草原| xxxxx免费视频| 一个人看的免费观看日本视频www 一个人看的免费视频www在线高清动漫 | 日本dhxxxxxdh14日本| 无人码一区二区三区视频| 97碰公开在线观看免费视频| www久久com| 97精品伊人久久久大香线蕉| 91探花视频在线观看| 99精品国产在热久久无码| av网站免费线看| avtt香蕉久久| 在线观看91精品国产入口| 亚洲人成网亚洲欧洲无码| 亚洲成a人片在线不卡一二三区| 伊人久久精品亚洲午夜| 无码专区天天躁天天躁在线| 最强yin女系统白雪| 日韩人妻无码免费视频一区二区三区 | 色五月激情小说| 蜜臀AV无码精品人妻色欲| 精品黑人一区二区三区| 毛茸茸bbw亚洲人| 日韩视频在线免费| 无码精品久久久天天影视| 性欧美激情xxxd| 在线观看视频免费国语| 国产精品精品自在线拍| 国产成人无码aa精品一区| 国产在线拍揄自揄视精品不卡| 国产午夜福利片在线观看| 国产r67194吃奶视频|