2014 年的一個清晨,瓦爾·基爾默醒來,發(fā)現自己置身血泊之中。全身上下唯一的異樣是喉嚨,里面出現了一個腫塊,讓他吞咽困難。
(資料圖)
他很快得到診斷,是喉癌導致的嘔血。為了治療,他不得不接受氣管切開術。手術在喉嚨上留下一個洞,進食時需要接入一根管子。此后,“呼吸還是吃飯?”,變成了一個二選一的問題。
瓦爾·基爾默在《壯志凌云》中與阿湯哥的對手戲 | 來源:Looper
對于這位曾扮演 95 版蝙蝠俠的好萊塢演員,更嚴重的后果是,他失去了自己的聲音。如今,當他嘗試說話,只能發(fā)出介于“吱吱聲和低吼”之間的聲音。
去年,基爾默決定與人工智能公司 Sonantic 合作,恢復自己“說話的能力”。憑借有限的錄音,他們成功克隆出了跟生病前的基爾默十分相像的聲音,未來將可以替代他進行發(fā)言。
AI 合成人聲的技術已經十分成熟。一些開放免費測試的主流平臺,例如 Resemble AI、Descript ,僅需要你錄入 25 句話或 10 分鐘錄音,就能克隆你的聲音——當然,訓練集的時長越長,模型就會與你越相像。最低要求呢?3.7 秒就可以。
除了服務基爾默這樣的病人,語音克隆還有一大用處,是“復活故人”,不論是去世的親人,還是已故的名人。不久前,語音合成公司 Play.ht 釋出了一集播客,內容是喬布斯與著名播客主播喬·羅根對談——其中的文本和人聲全都是 AI 合成的。
“冒牌貨”們在播客里談笑風生,從頭至尾本尊都不用參與其中。這是否會涉及到侵權呢?尤其是已過世者,他們的聲音所有權歸屬于誰呢?任何人都可以使用么?
更棘手的問題是,真假如何分辨呢?
挺好的技術,卻被用來行騙?
別說你一定分得出人聲與 AI。
2019 年 3 月,英國一家能源公司的員工接到老板電話,要求他在一個小時內轉 22 萬歐元給匈牙利的一家供應商,電話那頭“老板”略帶德國口音,和平時老板說話的聲音不差分毫,他毫不懷疑立刻照辦了,轉賬后這筆錢很快被轉移到墨西哥,難再追回;2020 年,香港的一名銀行經理被克隆語音欺騙,向詐騙者批準了一筆 3500 萬美金的轉賬。
這種事情正在變得越來越多, VMware 今年的調查顯示,三分之二的受訪企業(yè)表示過去一年收到的詐騙攻擊中存在音頻或視頻偽造的成分。
當你在電話里聽到一個熟悉的聲音,大多數人“沒有建立起肌肉記憶來真正應對它?!卑I馨踩径驴偨浝睇惿?奧康納表示。
生理結構上,人類大腦面對假聲音時會變得蠢蠢的。
2019 年加州大學河濱分校的一項研究發(fā)現,在觀看倫勃朗畫作的真跡和贗品時,人們的腦部掃描會顯現出明顯的差異;聆聽摩根 · 弗里曼、機器弗里曼和模仿者說話時,卻沒有同樣表現。
“結果表明,人類可能在本質上無法區(qū)分真實的和非真實的聲音?!?/p>
聆聽真人和合成人聲時,人腦活動沒有顯現出顯著差異 | 來源:論文配圖
AI 偽造人聲無敵了么?
科學家正在試圖應對它。
最近的一項研究中,佛羅里達大學的研究者們發(fā)現了機器的一個破綻:沒有聲道?;蛘哒f,人類發(fā)聲方式的局限,在于每一個人的聲道結構,而 AI 不具備這樣的“局限性”。
數十年來,科學家都試圖重現史前生物的聲音。猛犸象、恐龍……它們的嘯叫、呼喊,聽起來會是怎樣的?骨骼的形狀提供了許多線索,比如副櫛龍,它們的頭骨中有一個很長的腔,科學家據此來估測它的共振頻率。
人類發(fā)聲也是如此,通過使用聲道的各種結構,聲帶、舌頭、嘴唇,協作擠壓空氣來發(fā)出聲音并改變聲音。使用聲學和流體動力學模型,研究者可以倒推出怎樣的一個結構發(fā)出了這段聲音。
通常會像是這樣,一個不規(guī)則的,有突起和凹陷的通路。
口腔的打開程度會決定我們發(fā)出怎樣的聲音|來源:論文截圖
然而,當他們把機器生成的聲音放入同樣模型時,奇怪的事情就發(fā)生了:
紅圈中為機器的“聲道結構” |來源:論文截圖
機器人聲倒推出來聲道,就像一根又細又長的吸管,這跟人體的正常結構完全不同。僅憑這樣的側面解剖圖,就幾乎可以立刻分辨這是人發(fā)出的聲音,還是機器的。通過這個方法,他們檢驗了 4966 個音頻語段,準確率高達 99.9%。
想象一下,這或許很快會成為一個基礎配置,當你接起一通電話,一個附加的插件會同時開始運轉,判斷對面是真人還是機器合成人聲,再向你發(fā)出警告。
已經有很多人在為此努力。2019 年,為了對抗克隆語音、假音頻,Google 發(fā)布了一個合成語音數據庫,來推動對假音頻檢測的研究,里面包含了谷歌深度學習模型所“說”的上千個短語,用 68 種不同的聲音覆蓋了各式各樣的口音,希望以此鼓勵外界開發(fā)出更多語音鑒真的方案。
沒有科學家的工具,我們自己怎么辦?
有一些小竅門,但主要靠直覺。
語音認證服務公司 Pindrop 一直在開發(fā)合成聲音,這個過程中他們也發(fā)現了機器的一些缺陷:
不善于處理摩擦音,比如 f,s,v,z ,因為軟件很難將它們與噪音區(qū)分開來
愛拖長音,算法很難區(qū)分單詞的末尾和錄音中的背景噪音,會出現斷句的問題
過于“干凈”,像是在錄音室里用專業(yè)設備錄制的,且質量始終如一
Pindrop 也發(fā)現了一些異?!奥斆鳌钡姆缸锓肿?,為了掩蓋這些缺陷,故意放入嘈雜的環(huán)境音來干擾對方的判斷。有一位他們稱之為“雞人”的詐騙犯,總是在背景中播放公雞的叫聲;還有一位女士會利用嬰兒的啼哭聲做背景音,試圖來博取對方的同情。
因此,當發(fā)現對面有持續(xù)奇怪的噪聲,你就要小心了。
對于涉及重大交易的對話,深度偽造偵測公司 Deeptrace 的主管亨利?阿杰德給出了一個實用建議:考慮使用暗號進行對話,或者在通話開始時提出或回答一個秘密問題。
以當前 AI 的學習速度,相信很快,這些拙劣的破綻就會被逐一擊破——曾有一篇論文研究發(fā)現,通過人物眨眼的不規(guī)律,可以判斷視頻是否為深度偽造。可僅僅幾個月之后,開發(fā)者就解決了這個 bug 。
但至少現在,人類仍能通過細枝末節(jié)的線索,判斷出對方非我同類。比如,在羅根與喬布斯的對談中,總有詭異的笑聲穿插在流利的對話中,“呵呵呵、嘻嘻嘻”,十分突兀,語調也會因此變形。
這讓人想起 Resemble 在語音生成后,會給你一些選項,可以在段落中加入停頓或是“憤怒”、“喜悅”這樣的情緒。從反饋來看,模型似乎并尚不能很好地處理情緒。
但終有一天,我們要懷疑一切。
前幾天同事小楊接到一個推銷電話,開了免提,熱火朝天地跟辦公室里其他人討論對方是不是機器人。
突然,電話對面緩緩傳來:“對不起,我說話的方式讓您誤解了。”
“你信這是真人了么?”
他回答:“哼,我才不信,這肯定是 AI 的伎倆?!?/p>
參考文獻
[1] https://www.ndss-symposium.org/wp-content/uploads/2019/02/ndss2019_08-3_Neupane_paper.pdf
[2] https://theconversation.com/deepfake-audio-has-a-tell-researchers-use-fluid-dynamics-to-spot-artificial-imposter-voices-189104
[3] https://www.nytimes.com/2020/05/06/magazine/val-kilmer.html
[4] https://www.yahoo.com/entertainment/val-kilmer-cancer-treatment-lost-voice-142401511.html
[5] https://www.hellomagazine.com/healthandbeauty/health-and-fitness/20210825120419/val-kilmer-heartbreaking-reveal-cancer-diagnosis/[6] https://arstechnica.com/information-technology/2022/10/fake-joe-rogan-interviews-fake-steve-jobs-in-an-ai-powered-podcast/
[7] https://www.howtogeek.com/682865/audio-deepfakes-can-anyone-tell-if-they-are-fake/
[8] https://senseient.com/wp-content/uploads/Deepfakes-updated.pdf
[9] https://mitsloan.mit.edu/ideas-made-to-matter/deepfakes-explained
作者:翁垟
果殼(ID:Guokr42)
如需轉載,請聯系sns@guokr.com
歡迎轉發(fā)到朋友圈
來源:果殼
凡本網注明“XXX(非現代青年網)提供”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和其真實性負責。
原標題:《卿卿日?!防铮糯ǘY儀為何各不同?這部戲的禮儀從最開始的時候,最吸引觀眾的就是九川禮儀各不相同了。從第一集開始,我們就看到
2022-12-15 05:44
原標題:此“郁金香”非彼“郁金香”唐代的外來香料真“香”文 北京青年報記者陳品中國香文化歷史悠久,早在石器時代就有焚香祭祀的行為,先祖
2022-12-14 13:42
原標題:《故鄉(xiāng)潮州》出版專訪陳平原教授(引題)談論故鄉(xiāng),是一門學問,也是一種心境(主題)文 北京青年報記者王勉而心境好解,這學問又是如
2022-12-13 20:33
原標題:《逐光的孩子》高校“開講”工人日報—中工網記者鄒明強通訊員卓張鵬胡蘭楊倩文攝影彭佳12月11日,中南財經政法大學藝術大思政課《逐
2022-12-13 17:34
原標題:打磨六七年小說《天圣令》講了什么故事?中新網12月12日電近日,兩場主題為“從‘天圣令’看宋韻文化”的講座舉行,著名作家蔣勝男從
2022-12-13 13:50
原標題:《人在草木間》系列融媒體報道今起推出北京時間11月29日晚,“中國傳統(tǒng)制茶技藝及其相關習俗”,列入聯合國教科文組織人類非物質文化
2022-12-12 21:39
原標題:山西明日起多個文化場館恢復開放記者日前了解到,山西博物院、山西青銅博物館、太原市博物館、臨汾市博物館以及太原市圖書館等文化場
2022-12-12 20:36
原標題:《三體》上線首日播量放過億工人日報—中工網記者張翀12月10日,《三體》動畫在嗶哩嗶哩(以下簡稱“B站”)全網獨家上線,首周兩集連
2022-12-12 19:33
原標題:郭沫若屈原研究的時代氣象晚清七十年,中西文化在激烈碰撞中相互借鑒、吸收和融合。在這一時代大背景之下,20世紀上半葉的楚辭研究在
2022-12-12 14:45
原標題:中國近代日記研究的拓展、反思與未來(主題)——從“日記研究叢書”說起(副題)日記這種文獻類型和書寫方式,在中國具有悠久的傳統(tǒng)
2022-12-12 14:43
原標題:《詩經》的禮義、樂義、詩義與經義《詩經》所載樂歌,本為兩周禮儀的用樂與歌舞的歌詞,要對其詩義進行清晰的解讀,需要回到歷史現場
2022-12-12 11:32
原標題:微短劇靠什么贏得觀眾喜歡最近一段時間,單集不超過10分鐘的微短劇深受觀眾喜愛。數據顯示,今年僅快手平臺的微短劇日活躍用戶便增長
2022-12-12 08:32
原標題:考古還原青藏高原絲路的樣貌仝濤【考古中國】??●青海都蘭熱水一號大墓出土大量來自唐朝、中亞和西亞的絲織品、金銀器,以及各類寶石
2022-12-12 08:52
圖片故事原標題:劍川木雕:傳承千年技藝段四興在進行木雕制作中的打坯流程(12月1日攝)。劍川木雕是云南省劍川縣傳統(tǒng)美術項目,歷史悠久,具
2022-12-12 08:37
原標題:劇場藝術如何拓展邊界找尋多樣表達北京晚報記者高倩12月8日至9日,“2022世界劇院北京論壇”和“2022臺湖舞美國際論壇”在國家大劇院
2022-12-12 05:40
原標題:想學藝、想掙錢?快來村里這塊“寶地”集合!據12月8日甘肅省文旅廳、人社廳、鄉(xiāng)村振興局聯合印發(fā)的通知,甘肅新認定28家省級非遺工坊
2022-12-11 21:55
原標題:西安多家博物館明天起陸續(xù)開放陜西西安多家博物館11日發(fā)布公告,明天(12日)起陸續(xù)恢復開放。西安博物院12月12日(星期一)起恢復對
2022-12-11 21:36
原標題:世界杯的魅力韓立群1990年世界杯我17歲,我家黑白電視14寸。記得馬拉多納無能為力的淚水。1994年巴喬橫空出世,一路帶著意大利打入決
2022-12-11 20:42
原標題:初冬張燕峰初冬。田野空曠,露出黑油油的泥土,像一位剛剛生產過的母親,袒露著的胸膛,平靜而疲憊??拷坪跄苈牭絹碜源蟮厣钐?/p>
2022-12-11 11:36
原標題:別了,青石板的巷陌田海明夏雨猛烈而迅疾,砸在屋檐上,迸濺出水花,瀉出朦朧的水簾,隔絕了我望向窗外的視線。爸從外邊回來,穿著的
2022-12-11 11:44
原標題:一把檀木梳鄧素芳《牡丹花瓶》 文森特·凡高[荷] 瑪咖供圖月光從門外涌進來,閃著銀色的粼光。我坐在梳妝臺前,檀木梳隱發(fā)著淡淡的
2022-12-11 11:32
【藝評】原標題:最好的書店氛圍,是看得見的對閱讀的愛羅筱曉最近,位于杭州解放路的新華書店因內部改造暫時閉店。這家書店建成于1954年,是
2022-12-11 05:44
原標題:從“中文熱”到“天宮熱”(主題)——中文教學助推中國和阿拉伯國家文化交流(副題)藺妍林建杰“這是中國,這是阿聯酋,我們是好朋
2022-12-11 05:32
【視線】原標題:電視劇、小說同時推出(引題)《大博弈》書寫時代浪潮下的中國工業(yè)制造(主題)中工網訊(工人日報—中工網記者蘇墨)近日,
2022-12-11 05:34
原標題:“凌家灘文化展”在安徽博物院開展12月7日,觀眾參觀“凌家灘文化展”。12月7日起,“璀璨星光——凌家灘文化展”在安徽博物院開展。
2022-12-11 05:36