語言行業(yè)AI的新趨勢(shì)
近年來,人工智能取得了令人難以置信的進(jìn)步,自2022年底OpenAI的ChatGPT發(fā)布以來,成為每個(gè)行業(yè)的話題。
在語言服務(wù)行業(yè)內(nèi),人工智能的使用當(dāng)然不是什么新鮮事,但它卻在繼續(xù)塑造這個(gè)行業(yè)。由于MT和合成語音質(zhì)量的進(jìn)步(以前被認(rèn)為是不合格的、不準(zhǔn)備使用的技術(shù))現(xiàn)在正走出陰影,呈現(xiàn)出新的用例和機(jī)會(huì)。這是一個(gè)我們可以預(yù)期會(huì)加速的趨勢(shì)。
本文概述了企業(yè)和相關(guān)人士都應(yīng)注意的語言服務(wù)行業(yè)的人工智能趨勢(shì)。
機(jī)器生成的現(xiàn)場字幕:召開(虛擬)會(huì)議的新主力軍?
實(shí)時(shí)字幕是一項(xiàng)自視頻會(huì)議激增以來得到發(fā)展的服務(wù),這一領(lǐng)域的技術(shù)已經(jīng)取得進(jìn)步。
從本質(zhì)上講,現(xiàn)場字幕服務(wù)涉及將口語內(nèi)容以轉(zhuǎn)換為多種語言的書面內(nèi)容。實(shí)時(shí)字幕可用于在線會(huì)議以及現(xiàn)場廣播、現(xiàn)場活動(dòng),并使廣播內(nèi)容可以在線獲取。目前有三種主要方式可以生成實(shí)時(shí)字幕:
1.一位譯員實(shí)時(shí)打出字幕。
2. 使用語音轉(zhuǎn)文字技術(shù)和機(jī)器翻譯生成初始字幕,然后由譯員實(shí)時(shí)編輯輸出結(jié)果。
3. 字幕由機(jī)器生成,沒有人工干預(yù)。
雖然第一種選擇是傳統(tǒng)的方式,但它也越來越成為一種罕見的現(xiàn)象。即使是現(xiàn)場直播,為了提高速度和效率,人工和機(jī)器的混合也正在成為常態(tài)。自從Zoom火爆以來,由于需求的增加和MT技術(shù)的進(jìn)步,純機(jī)器生成的現(xiàn)場字幕的使用已經(jīng)增加。
這一趨勢(shì)值得注意的是,與更廣泛的多語言會(huì)議空間類似,現(xiàn)場字幕服務(wù)的提供商來自行業(yè)的不同方面。
• 媒體本地化供應(yīng)商在更廣泛意義上的字幕領(lǐng)域經(jīng)驗(yàn)豐富。
• 正在將其技術(shù)融入會(huì)議和活動(dòng)空間的機(jī)器翻譯供應(yīng)商。
• 希望為其現(xiàn)有客戶提供更強(qiáng)大的服務(wù)組合,同時(shí)也能接觸到預(yù)算較少的客戶的RSI供應(yīng)商。
• 來自行業(yè)外的技術(shù)公司以及視頻會(huì)議巨頭,如Zoom、MS Teams和Webex,他們都在其平臺(tái)上添加了自己的文本到語音翻譯功能。
換句話說,隨著人工智能的進(jìn)步,我們開始看到過去很長一段時(shí)間內(nèi)相當(dāng)獨(dú)立的行業(yè)部門之間的交叉。
AI配音
配音是媒體本地化行業(yè)中的主要服務(wù)之一,到目前為止,由配音演員來完成。然而,人工智能配音的新發(fā)展可能會(huì)改變這一局面。
合成語音技術(shù)的發(fā)展已經(jīng)有了很大的進(jìn)步。一些合成語音現(xiàn)在聽起來與人類的聲音驚人地相似,使人很難將它們與實(shí)際的人類語言區(qū)分開來。新的技術(shù)創(chuàng)新使合成語音能夠模仿原始說話者的語氣和舉止。
盡管目前還不適用于娛樂目的,但人工智能配音的當(dāng)前用例范圍從國際廣播到紀(jì)錄片和企業(yè)視頻的配音。此外,在接受Nimdzi 100采訪時(shí),一些媒體和游戲本地化服務(wù)提供商報(bào)告稱,他們正在探索以下用例:
• 次要角色:人工智能配音可能用于次要角色,要么以合成的方式,要么以一個(gè)配音演員說出所有次要角色的方式,聲音被合成改變,每次聽起來都不同。
• 背景喧囂:在游戲中,當(dāng)玩家仍然需要理解背景信息,但娛樂因素不那么重要時(shí),人工智能配音可以用于背景喧囂。
• 分層:一些LSP提到,他們正在考慮向客戶提供不同的等級(jí),這取決于不同類型的制作和預(yù)算可能需要的配音質(zhì)量。
• 通過人工智能改變聲音。
— 兒童演員有可能由年長的演員進(jìn)行配音,然后利用人工智能將聲音改變成年輕的聲音,這將是效率的一大提高。
— 在許多傳統(tǒng)的配音國家,特定的配音演員被分配給屏幕上的演員(總是同一個(gè)聲音)。但如果這些配音演員突然太忙或退休怎么辦?人工智能可能會(huì)給這樣的配音演員帶來機(jī)會(huì),讓他們出售自己的聲音,也就是說,由別人來做實(shí)際的配音工作,然后在之后人為地改變聲音。
• 語音描述(AD):語音描述是一項(xiàng)尚未在所有市場提供的服務(wù),在有語音描述的國家,大多數(shù)的語音描述服務(wù)是以英語提供的。考慮到AD通常需要比表演更中立的敘述,使用人工智能可能是以預(yù)算友好的方式將AD帶到更多市場的方法之一。
合成語音應(yīng)用和人工智能的發(fā)展已經(jīng)引起了商業(yè)界的關(guān)注。盡管對(duì)這項(xiàng)技術(shù)的探索還在進(jìn)行中,但重要的是,人工智能配音的想法已經(jīng)從被拒絕過渡到被主要媒體本地化參與者積極研究和考慮。
機(jī)器翻譯 - 迅速崛起
這不是我們第一次報(bào)道人工智能,但它仍然是一個(gè)熱門話題,因?yàn)槿斯ぶ悄芤匀绱丝斓乃俣劝l(fā)展。
但是,讓我們首先澄清一下,當(dāng)我們談?wù)揗I時(shí),我們到底是什么意思。MI是使用人工智能將一種語言的口語信息傳輸?shù)搅硪环N語言的口語信息中。MI,也可以稱為語音翻譯(S2ST),使用自動(dòng)語音識(shí)別(ASR),然后是人工智能轉(zhuǎn)錄,機(jī)器翻譯,最后是合成語音,以目標(biāo)語言說出信息。這種所謂的級(jí)聯(lián)模式是迄今為止市場上所有MI解決方案的基礎(chǔ)。
目前有哪些MI解決方案?
MI技術(shù)可以大致分為兩類:針對(duì)個(gè)人的技術(shù)和針對(duì)企業(yè)的技術(shù)。
針對(duì)個(gè)人的解決方案以手持設(shè)備的形式出現(xiàn),如Cheetah Talk、ili Handheld Translator和Vasco Translator,或作為應(yīng)用程序出現(xiàn)。移動(dòng)設(shè)備的解決方案,如Skype Translator和iTranslate Voice App。另一種流行的MI硬件形式是耳塞。Timekettles的WT2 Plus是這種技術(shù)的一個(gè)好例子,谷歌Pixel Buds也是如此。
對(duì)于企業(yè)來說,應(yīng)用程序形式的MI軟件使用廣泛,而且越來越受歡迎。這種類型的MI工具被用來翻譯會(huì)議、大會(huì)、大型活動(dòng)(包括在線和現(xiàn)場)或其他在線口語互動(dòng),如在線課程。在會(huì)議和活動(dòng)領(lǐng)域,Wordly是目前市場上知名的解決方案。例如,其他值得注意的解決方案包括來自GTCOM和XL8的解決方案。請(qǐng)關(guān)注這個(gè)領(lǐng)域。
直到最近,大多數(shù)MI解決方案針對(duì)個(gè)人消費(fèi)者(如游客)特別是在亞洲市場。它們被設(shè)計(jì)為促進(jìn)簡單的雙向交流。然而,MI正越來越多地進(jìn)入多語言在線會(huì)議領(lǐng)域,這在傳統(tǒng)上是人類會(huì)議口譯員的領(lǐng)域。這種轉(zhuǎn)變有兩個(gè)主要原因;第一個(gè)是疫情引起的,第二個(gè)是技術(shù)原因。疫情開創(chuàng)了一個(gè)虛擬會(huì)議的新時(shí)代,推動(dòng)了對(duì)在線多語言的需求。同時(shí),這一領(lǐng)域的技術(shù)也取得了重大飛躍,特別是得益于機(jī)器生成的現(xiàn)場字幕的進(jìn)步。
這種需求的增加和質(zhì)量的大幅提高相結(jié)合,導(dǎo)致更多的公司投資于語音轉(zhuǎn)語音技術(shù)和新的解決方案在市場上不斷涌現(xiàn)。這一發(fā)展不僅適用于口譯領(lǐng)域,也適用于媒體本地化領(lǐng)域,在該領(lǐng)域,人工智能配音正在出現(xiàn),一些解決方案甚至可以在合成版本中保留原演員的聲音(見關(guān)于人工智能配音的部分)。當(dāng)涉及到人工智能時(shí),我們最終將見證媒體和口譯領(lǐng)域的融合,這不是不可能的。
另一個(gè)值得注意的發(fā)展是,RSI供應(yīng)商開始進(jìn)入這一領(lǐng)域。2023年1月,KUDO是第一個(gè)RSI平臺(tái),以發(fā)布自己的MI功能。這一發(fā)展使該公司可以做到以下兩點(diǎn):
1. 一方面,可以接觸到更大的客戶群,另一方面,也可以接觸到那些預(yù)算較小的客戶,而對(duì)于這些客戶而言,RSI服務(wù)過于昂貴。
2. 在與視頻會(huì)議巨頭(如Zoom、MS Teams和Webex)競爭時(shí)保持競爭力,這些巨頭除了封閉式字幕和機(jī)器生成的現(xiàn)場字幕外,還增加了自己的RSI功能。至少現(xiàn)在,這些大平臺(tái)都沒有自己的MI功能,盡管Zoom有一個(gè)Wordly的附加功能。
ChatGPT
OpenAI的GPT-3(生成預(yù)訓(xùn)練轉(zhuǎn)換器3)變體,稱為ChatGPT,最近風(fēng)頭正勁。有理由支持這種現(xiàn)象——技術(shù)已經(jīng)發(fā)展了很長一段時(shí)間,有些人將其視為AI的一個(gè)轉(zhuǎn)折點(diǎn)。對(duì)于那些不了解的人,這里簡要介紹一下:GPT-3使用公共數(shù)據(jù)進(jìn)行訓(xùn)練,并應(yīng)用機(jī)器學(xué)習(xí)技術(shù),僅需要較少的輸入即可執(zhí)行多種按需任務(wù),包括:
• 常用語言的翻譯
• 歸納文本
• 寫文章、詩歌、故事、科學(xué)論文等
• 回答問題
ChatGPT是GPT-3的新變體。除了上述任務(wù)外,ChatGPT還可以。
• 編寫和糾正代碼
• 用于聊天機(jī)器人和虛擬助手
• 生成對(duì)話文本
• 解釋復(fù)雜的主題
• 可以針對(duì)各種語言任務(wù)進(jìn)行微調(diào)/定制化
為什么ChatGPT相比其他已經(jīng)存在的技術(shù)有可能是一個(gè)改變游戲規(guī)則的潛在因素?有兩個(gè)主要原因:
• 1)ChatGPT的結(jié)果質(zhì)量高,聽起來逼真。
• 2)ChatGPT的潛在應(yīng)用廣泛,因?yàn)樗情_放使用的!
盡管ChatGPT并非沒有局限性,也絕非事實(shí)上的真相來源,但它已經(jīng)改變了游戲規(guī)則,因?yàn)樗谷藗兡芤愿斓乃俣韧瓿筛喙ぷ鳌_@項(xiàng)技術(shù)能在多大程度上被使用(例如需要多少編輯和事實(shí)核查),以及它是否會(huì)真正成為一些人炒作的“谷歌殺手”,還有待觀察。
在語言行業(yè)中,人們正在談?wù)揅hatGPT并嘗試弄清它將如何影響他們。雖然現(xiàn)在還為時(shí)過早,但像GPT-3這樣的大型語言模型(LLM)被嵌入到翻譯過程的不同步驟中也不是沒有可能。已經(jīng)證明它是在內(nèi)容創(chuàng)作過程中解決寫作障礙或快速處理演示文稿和演講腳本的有用工具。雖然它不全是單語言的,但目前在英語方面表現(xiàn)較佳。已確定的其他用例包括:
• 增強(qiáng)型MT:沒有性別偏見,調(diào)整形式。
• TMS集成:自動(dòng)術(shù)語提取、QA、評(píng)分等。
現(xiàn)在,有很多的炒作,無論你從哪個(gè)角度看,ChatGPT已經(jīng)成為一個(gè)游戲規(guī)則的改變者。然而,從長遠(yuǎn)來看,這是否意味著該技術(shù)將成為真正的顛覆者,影響我們的日常生活以及語言行業(yè)的工作流程,這一點(diǎn)相當(dāng)值得懷疑,但現(xiàn)在說這些還為時(shí)尚早。
貝納托定理
這種現(xiàn)象表現(xiàn)為新技術(shù)的引入造成了對(duì)淘汰或行業(yè)消亡的新恐懼。
這是一個(gè)普遍的原則,人們傾向于采用新的恐懼,如對(duì)未來的焦慮或?qū)^時(shí)的恐懼,在他們能夠克服以前的恐懼之前,這些恐懼最終會(huì)消逝在潛意識(shí)里。
在語言行業(yè)中,這種現(xiàn)象表現(xiàn)為新技術(shù)的引入造成了新的擔(dān)心,擔(dān)心行業(yè)會(huì)被淘汰或消亡。然而,隨著時(shí)間的推移和新技術(shù)的出現(xiàn),這個(gè)行業(yè)開始克服這些恐懼,它們最終被歸入潛意識(shí)。這種循環(huán)反復(fù)出現(xiàn),因?yàn)槊宽?xiàng)新技術(shù)都會(huì)帶來新的恐懼,只是隨著行業(yè)的調(diào)整、前進(jìn)和不斷發(fā)展而被克服。
貝納托定理和阿馬拉定律為理解像ChatGPT這樣的新技術(shù)對(duì)語言行業(yè)的影響提供了一個(gè)框架。阿馬拉定律強(qiáng)調(diào),我們往往高估了一項(xiàng)技術(shù)的短期影響,而低估了其長期影響。通過考慮這兩個(gè)原則,我們可以更加了解ChatGPT和其他人工智能語言模型將如何塑造這個(gè)行業(yè)的未來。