據外媒報道,日本電氣科技大學和軟銀公司可以通過人工智能AI技術直接將手語翻譯成日語,這將使聾啞人之間的交流更加順暢。
目前,該系統只能在柜臺設備上使用。聾人可以通過手語在鏡頭前交流。然后系統利用圖像識別技術,分析人體手指、手臂等幾個部位的骨骼運動,將手勢翻譯成日語,顯示在工作人員的電腦屏幕上。然后,口頭回復以文字的形式出現在聾啞人面前的屏幕上,使交流更加順暢。
該系統的核心技術由2018年谷歌投資的ABEJA提供。ABEJA的核心產品是利用機器學習幫助公司從數據堆中進行業務分析。在這個項目中,ABEJA讓AI學習了5萬個手語視頻,這樣它就可以捕捉手語的特點和變化。目前,該系統可以將手勢準確翻譯成約1500個日語單詞。
早在2015年,就有關于手語識別的研究。
人工智能技術的出現和逐漸成熟,不僅有利于產業升級,事實上,從很早開始,就有研究人員嘗試用AI技術幫助聾人更順暢地交流。
2015年9月,沙特一位設計師專門研發了一款內置傳感器的無線智能手套。當聾啞人進行交流時,傳感器可以根據手指運動跟蹤手勢,然后通過語言軟件將其轉換為聲音和單詞。在初期,這款無線智能手套只能說法語、英語和阿拉伯語,研究團隊表示未來將支持更多語言。
我國早就有相關研究。2016年,有媒體報道東大自動化專業的李寧等同學開發了一種新型手語識別發聲系統,這是一種結合了人體生物和姿勢信息的便攜式手語發聲裝置。聾人可以通過手語讓機器發聲和翻譯。
2018年,東北大學還開發了一個智能系統,幫助聽力障礙者進行交流,該系統由一個智能傳感器手環、一個前端APP和云服務組成。智能傳感器手環可以捕捉和識別聽力障礙者的手語動作,并轉換成云端的文字和聲音,呈現在APP端,傳輸給非手語用戶。同時,非手語用戶的語音可以在APP端轉化為文字和手語動畫的“雙語形式”。
百度、騰訊等互聯網巨頭也進行了相關研究。2019年,百度在AI開發者大會上提出了“人人都能AI”的理想,意思是每個人都能平等地擁有接收AI的能力。百度基于百度飛槳的開源內容構建了一個訓練模型。通過收集手勢數據,并在手機的幫助下將其轉換為短信,聽力障礙的人可以像咖啡館和餐館里的正常人一樣,使用翻譯來點菜和交流。
優圖人工智能手語翻譯界面
同樣是在2019年,騰訊優圖實驗室還推出了一款基于自研算法的優圖AI手語翻譯機,該翻譯機使用普通攝像頭作為手語采集設備,用戶正在向攝像頭完成手語表達,翻譯機通過后臺操作可以快速將手語翻譯成文字。據介紹,UTO AI手語翻譯機的數據集涵蓋了近千個日常表達,包括900個常用詞,同時對數據進行分析總結,是目前最大的中文手語識別數據集。
手語識別技術面臨巨大挑戰。
與其他AI視覺識別技術相比,手語識別的研發難度更大。在東北大學2018年的研究中,揭示了手語言識別研究中的實際問題,即每個聾人的手語規劃不同,同一單詞所扮演的手勢也不同,因此智能識別可能不那么準確。
幸運的是,2018年中央發布了《國家通用手語標準方案》,極大地有利于后續手語向文字或語音轉換的研究。即便如此,仍可能存在微妙的差異
百度還談到了另一個主要困難,那就是用于訓練模型的數據量很小。在上述日語項目中,一位參與開發的軟銀工程師也表示,需要大量的手語數據來構建一個能夠將符號準確翻譯成日語的模型。因此,他們呼吁更多的人通過網站等方式發送手語圖像數據。
總結
在提升服務業的同時,AI技術也能極大地幫助聾啞人更好地交流,這是這個時代的福音。根據第二次全國殘疾人抽樣調查結果,我國有聽力障礙者2780萬人。使用人工智能技術將手語實時翻譯成單詞和聲音將是非常有意義的。
日本聾人聯合會認為,要讓人工智能成為聾人的有效工具,還需要很長時間。然而,顯而易見的是,從2015年到現在,手語識別正在逐步取得進展,相當多的研究人員和企業參與其中。未來取得更大的進步還是值得期待的。