北京時間4月16日早間消息,谷歌研究人員開發了一種深度學習系統,可以幫助電腦在嘈雜環境中更好地識別和區分一個人的聲音。 本周在谷歌研究博客中發布的文章顯示,該公司的一個內部團隊試圖讓人工智能(AI)像人類的大腦一樣,可以主動關注一個聲源,同時過
北京時間4月16日早間消息,谷歌研究人員開發了一種深度學習系統,可以幫助電腦在嘈雜環境中更好地識別和區分一個人的聲音。
本周在谷歌研究博客中發布的文章顯示,該公司的一個內部團隊試圖讓人工智能(AI)像人類的大腦一樣,可以主動關注一個聲源,同時過濾其他聲源——就像你在聚會上跟朋友對話時的做法。
谷歌的方法使用了一個視聽模型,使之可以集中精力區分一段視頻中的聲音。該公司還發布了多段YouTube視頻,演示這項技術的實際效果。
谷歌表示,這項技術可以適用于單音軌視頻,而且可以通過算法分離出視頻中不同人的音頻內容,也可以讓用戶手動選取視頻中的人臉,專門收聽此人的聲音。
谷歌表示,視覺元素是關鍵,因為這項技術會關注一個人的嘴唇運動,從而更好地判斷某個時點應該關注哪段聲音,并為一段較長的視頻創造更精確的獨立音軌。
石家莊網站建設消息谷歌研究人員通過收集10萬段YouTube“演講視頻”開發了這個模型,總共提取了大約2000小時的內容,然后將這些音軌混合后,添加上人工背景噪音。
谷歌之后訓練該技術通過觀察每一格視頻中的人臉和視頻音軌的頻譜圖,把混合后的音頻進行分割。這套系統可以區分哪個聲源在特定時間內屬于哪張臉,并為每個人制作一段獨立的音軌。
谷歌認為,隱藏式字幕系統會成為該系統的一大應用領域,他們還在設想更廣泛的應用方向,而且還在探索更多的機會,希望將其整合到各種谷歌產品中。例如,如果把它加入到Google Home智能音箱中,便可區分出不同用戶發出的指令。
不過,這個模型需要配合視頻才能更好地發揮作用,所以可能更適合亞馬遜Echo Show。谷歌今年早些時候面向Echo Show這樣的智能顯示器開放了谷歌助手,但該公司本身尚未推出這樣的產品。
但這項技術可能也會引發隱私擔憂。雖然該技術的實際效果遠沒有視頻演示得那么好,但經過一些細微調整,的確有可能成為強大的監聽和監視工具。