国产在线精品一区二区不卡,国产熟人av一二三区,国产精品制服,国产一区二区三区不卡,国产午夜福利精品久久不卡

您現在的位置:首頁 > 科技 > 正文

時訊:AI偽造人聲無敵了么?

時間:2022-12-15 16:49:12    來源:科普中國網    

2014 年的一個清晨,瓦爾·基爾默醒來,發(fā)現自己置身血泊之中。全身上下唯一的異樣是喉嚨,里面出現了一個腫塊,讓他吞咽困難。


(資料圖)

他很快得到診斷,是喉癌導致的嘔血。為了治療,他不得不接受氣管切開術。手術在喉嚨上留下一個洞,進食時需要接入一根管子。此后,“呼吸還是吃飯?”,變成了一個二選一的問題。

瓦爾·基爾默在《壯志凌云》中與阿湯哥的對手戲 | 來源:Looper

對于這位曾扮演 95 版蝙蝠俠的好萊塢演員,更嚴重的后果是,他失去了自己的聲音。如今,當他嘗試說話,只能發(fā)出介于“吱吱聲和低吼”之間的聲音。

去年,基爾默決定與人工智能公司 Sonantic 合作,恢復自己“說話的能力”。憑借有限的錄音,他們成功克隆出了跟生病前的基爾默十分相像的聲音,未來將可以替代他進行發(fā)言。

AI 合成人聲的技術已經十分成熟。一些開放免費測試的主流平臺,例如 Resemble AI、Descript ,僅需要你錄入 25 句話或 10 分鐘錄音,就能克隆你的聲音——當然,訓練集的時長越長,模型就會與你越相像。最低要求呢?3.7 秒就可以。

除了服務基爾默這樣的病人,語音克隆還有一大用處,是“復活故人”,不論是去世的親人,還是已故的名人。不久前,語音合成公司 Play.ht 釋出了一集播客,內容是喬布斯與著名播客主播喬·羅根對談——其中的文本和人聲全都是 AI 合成的。

“冒牌貨”們在播客里談笑風生,從頭至尾本尊都不用參與其中。這是否會涉及到侵權呢?尤其是已過世者,他們的聲音所有權歸屬于誰呢?任何人都可以使用么?

更棘手的問題是,真假如何分辨呢?

挺好的技術,卻被用來行騙?

別說你一定分得出人聲與 AI。

2019 年 3 月,英國一家能源公司的員工接到老板電話,要求他在一個小時內轉 22 萬歐元給匈牙利的一家供應商,電話那頭“老板”略帶德國口音,和平時老板說話的聲音不差分毫,他毫不懷疑立刻照辦了,轉賬后這筆錢很快被轉移到墨西哥,難再追回;2020 年,香港的一名銀行經理被克隆語音欺騙,向詐騙者批準了一筆 3500 萬美金的轉賬。

這種事情正在變得越來越多, VMware 今年的調查顯示,三分之二的受訪企業(yè)表示過去一年收到的詐騙攻擊中存在音頻或視頻偽造的成分。

當你在電話里聽到一個熟悉的聲音,大多數人“沒有建立起肌肉記憶來真正應對它?!卑I馨踩径驴偨浝睇惿?奧康納表示。

生理結構上,人類大腦面對假聲音時會變得蠢蠢的。

2019 年加州大學河濱分校的一項研究發(fā)現,在觀看倫勃朗畫作的真跡和贗品時,人們的腦部掃描會顯現出明顯的差異;聆聽摩根 · 弗里曼、機器弗里曼和模仿者說話時,卻沒有同樣表現。

“結果表明,人類可能在本質上無法區(qū)分真實的和非真實的聲音?!?/p>

聆聽真人和合成人聲時,人腦活動沒有顯現出顯著差異 | 來源:論文配圖

AI 偽造人聲無敵了么?

科學家正在試圖應對它。

最近的一項研究中,佛羅里達大學的研究者們發(fā)現了機器的一個破綻:沒有聲道?;蛘哒f,人類發(fā)聲方式的局限,在于每一個人的聲道結構,而 AI 不具備這樣的“局限性”。

數十年來,科學家都試圖重現史前生物的聲音。猛犸象、恐龍……它們的嘯叫、呼喊,聽起來會是怎樣的?骨骼的形狀提供了許多線索,比如副櫛龍,它們的頭骨中有一個很長的腔,科學家據此來估測它的共振頻率。

人類發(fā)聲也是如此,通過使用聲道的各種結構,聲帶、舌頭、嘴唇,協作擠壓空氣來發(fā)出聲音并改變聲音。使用聲學和流體動力學模型,研究者可以倒推出怎樣的一個結構發(fā)出了這段聲音。

通常會像是這樣,一個不規(guī)則的,有突起和凹陷的通路。

口腔的打開程度會決定我們發(fā)出怎樣的聲音|來源:論文截圖

然而,當他們把機器生成的聲音放入同樣模型時,奇怪的事情就發(fā)生了:

紅圈中為機器的“聲道結構” |來源:論文截圖

機器人聲倒推出來聲道,就像一根又細又長的吸管,這跟人體的正常結構完全不同。僅憑這樣的側面解剖圖,就幾乎可以立刻分辨這是人發(fā)出的聲音,還是機器的。通過這個方法,他們檢驗了 4966 個音頻語段,準確率高達 99.9%。

想象一下,這或許很快會成為一個基礎配置,當你接起一通電話,一個附加的插件會同時開始運轉,判斷對面是真人還是機器合成人聲,再向你發(fā)出警告。

已經有很多人在為此努力。2019 年,為了對抗克隆語音、假音頻,Google 發(fā)布了一個合成語音數據庫,來推動對假音頻檢測的研究,里面包含了谷歌深度學習模型所“說”的上千個短語,用 68 種不同的聲音覆蓋了各式各樣的口音,希望以此鼓勵外界開發(fā)出更多語音鑒真的方案。

沒有科學家的工具,我們自己怎么辦?

有一些小竅門,但主要靠直覺。

語音認證服務公司 Pindrop 一直在開發(fā)合成聲音,這個過程中他們也發(fā)現了機器的一些缺陷:

不善于處理摩擦音,比如 f,s,v,z ,因為軟件很難將它們與噪音區(qū)分開來

愛拖長音,算法很難區(qū)分單詞的末尾和錄音中的背景噪音,會出現斷句的問題

過于“干凈”,像是在錄音室里用專業(yè)設備錄制的,且質量始終如一

Pindrop 也發(fā)現了一些異?!奥斆鳌钡姆缸锓肿?,為了掩蓋這些缺陷,故意放入嘈雜的環(huán)境音來干擾對方的判斷。有一位他們稱之為“雞人”的詐騙犯,總是在背景中播放公雞的叫聲;還有一位女士會利用嬰兒的啼哭聲做背景音,試圖來博取對方的同情。

因此,當發(fā)現對面有持續(xù)奇怪的噪聲,你就要小心了。

對于涉及重大交易的對話,深度偽造偵測公司 Deeptrace 的主管亨利?阿杰德給出了一個實用建議:考慮使用暗號進行對話,或者在通話開始時提出或回答一個秘密問題。

以當前 AI 的學習速度,相信很快,這些拙劣的破綻就會被逐一擊破——曾有一篇論文研究發(fā)現,通過人物眨眼的不規(guī)律,可以判斷視頻是否為深度偽造。可僅僅幾個月之后,開發(fā)者就解決了這個 bug 。

但至少現在,人類仍能通過細枝末節(jié)的線索,判斷出對方非我同類。比如,在羅根與喬布斯的對談中,總有詭異的笑聲穿插在流利的對話中,“呵呵呵、嘻嘻嘻”,十分突兀,語調也會因此變形。

這讓人想起 Resemble 在語音生成后,會給你一些選項,可以在段落中加入停頓或是“憤怒”、“喜悅”這樣的情緒。從反饋來看,模型似乎并尚不能很好地處理情緒。

但終有一天,我們要懷疑一切。

前幾天同事小楊接到一個推銷電話,開了免提,熱火朝天地跟辦公室里其他人討論對方是不是機器人。

突然,電話對面緩緩傳來:“對不起,我說話的方式讓您誤解了。”

“你信這是真人了么?”

他回答:“哼,我才不信,這肯定是 AI 的伎倆?!?/p>

參考文獻

[1] https://www.ndss-symposium.org/wp-content/uploads/2019/02/ndss2019_08-3_Neupane_paper.pdf

[2] https://theconversation.com/deepfake-audio-has-a-tell-researchers-use-fluid-dynamics-to-spot-artificial-imposter-voices-189104

[3] https://www.nytimes.com/2020/05/06/magazine/val-kilmer.html

[4] https://www.yahoo.com/entertainment/val-kilmer-cancer-treatment-lost-voice-142401511.html

[5] https://www.hellomagazine.com/healthandbeauty/health-and-fitness/20210825120419/val-kilmer-heartbreaking-reveal-cancer-diagnosis/[6] https://arstechnica.com/information-technology/2022/10/fake-joe-rogan-interviews-fake-steve-jobs-in-an-ai-powered-podcast/

[7] https://www.howtogeek.com/682865/audio-deepfakes-can-anyone-tell-if-they-are-fake/

[8] https://senseient.com/wp-content/uploads/Deepfakes-updated.pdf

[9] https://mitsloan.mit.edu/ideas-made-to-matter/deepfakes-explained

作者:翁垟

果殼(IDGuokr42

如需轉載,請聯系sns@guokr.com

歡迎轉發(fā)到朋友圈

來源果殼

標簽: 從頭至尾 加州大學河濱分校 談笑風生

上一篇:
下一篇:

相關新聞

凡本網注明“XXX(非現代青年網)提供”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和其真實性負責。

特別關注

熱文推薦

焦點資訊