兩年前,IBM的研究人員聲稱,他們用機器學習系統訓練了兩個公共語音識別數據集,取得了最先進的轉錄性能。人工智能系統不僅要應對訓練語料庫音頻片段的失真,還要應對一系列的演講風格、重疊的演講、中斷、重啟和參與者之間的交流。
為了開發一種更強大的系統,這家總部位于紐約阿蒙克的公司的研究人員最近在一篇論文中設計了一種架構,該論文名為《人類和機器對英語廣播新聞語音識別》(English Broadcast News Speech Recognition by Humans and Machines),將于本周在布萊頓舉行的聲學、語音和信號處理國際會議上發表。他們說,在初步實驗中,它在播放新聞字幕任務上取得了行業領先的結果。
做到這一點并不容易。該系統本身也面臨著一系列挑戰,比如帶有大量背景噪音的音頻信號,以及主持人就各種新聞話題發表演講。雖然大部分培訓語料庫的演講都很清晰,但其中包含了現場采訪、電視節目剪輯和其他多媒體內容等材料。
正如IBM研究人員Samuel Thomas在一篇博客文章中所解釋的那樣,人工智能利用了長短時記憶(LSTM)(一種能夠學習長期依賴關系的算法)和聲學神經網絡語言模型,以及互補的語言模型的組合。聲學模型包含多達25層的節點(模擬生物神經元的數學函數),它們通過語音譜圖或信號頻譜的視覺表示進行訓練,而六層的LSTM網絡學習了“豐富”的各種聲學特征,以增強語言建模。
在為整個系統提供1,300小時的廣播新聞數據后,研究人員將人工智能放進了一個測試集,測試集包含6個節目的兩個小時數據,總共有近100名重疊的演講者。(第二個測試集包含12個節目的四個小時廣播新聞數據,大約有230名重疊的演講者。)該團隊與語音和搜索技術公司Appen合作,對語音識別任務的識別錯誤率進行了測量,并報告說,該系統在第一組測試中達到6.5%,在第二次測試中達到5.9%,比人類的表現略差一些,分別為3.6%和2.8%。
托馬斯寫道:“(我們的)新結果……是我們在這項任務中所知的最低水平,(但)在這個領域仍有新技術和改進的空間。”
原文出自:https://venturebeat.com/2019/05/14/ibms-ai-achieves-state-of-the-art-broadcast-news-captioning/
來源:venturebeat