1月28日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定(征求意見稿)》。
根據(jù)說明,深度合成技術(shù),是指利用以深度學(xué)習(xí)、虛擬現(xiàn)實(shí)為代表的生成合成類算法制作文本、圖像、音頻、視頻、虛擬場景等信息的技術(shù),包括但不限于:
1)篇章生成、文本風(fēng)格轉(zhuǎn)換、問答對話等對文本內(nèi)容進(jìn)行生成或者編輯的技術(shù);
2)文本轉(zhuǎn)語音、語音轉(zhuǎn)換、語音屬性編輯等對語音內(nèi)容進(jìn)行生成或者編輯的技術(shù);
3)音樂生成、場景聲編輯等對非語音內(nèi)容進(jìn)行生成或者編輯的技術(shù);
4)人臉生成、人臉替換、人物屬性編輯、人臉操控、姿態(tài)操控等對圖像、視頻內(nèi)容中人臉等生物特征進(jìn)行生成或者編輯的技術(shù);
5)圖像增強(qiáng)、圖像修復(fù)等對圖像、視頻內(nèi)容中非生物特征進(jìn)行編輯的技術(shù);
6)三維重建等對虛擬場景進(jìn)行生成或者編輯的技術(shù)。
深度合成服務(wù)提供者,是指提供深度合成服務(wù)以及為深度合成服務(wù)提供技術(shù)支持的組織。
深度合成服務(wù)使用者,是指使用深度合成服務(wù)制作、復(fù)制、發(fā)布、傳播信息的組織、個(gè)人。
征求意見中要求,提供以下深度合成服務(wù)的,應(yīng)當(dāng)使用顯著方式對深度合成信息內(nèi)容進(jìn)行標(biāo)識(shí),向社會(huì)公眾有效提示信息內(nèi)容的合成情況:
1)提供智能對話、智能寫作等模擬自然人進(jìn)行文本生成或者編輯服務(wù)的,在文本信息內(nèi)容的稿源說明處等位置進(jìn)行顯著標(biāo)識(shí);
2)提供合成人聲、仿聲等語音生成或者顯著改變個(gè)人身份特征的編輯服務(wù)的,在音頻信息內(nèi)容的合理區(qū)域以語音說明等方式進(jìn)行顯著標(biāo)識(shí);
3)提供人臉生成、人臉替換、人臉操控、姿態(tài)操控等虛擬人物圖像、視頻生成或者顯著改變個(gè)人身份特征的編輯服務(wù)的,在圖像、視頻信息內(nèi)容的明顯位置進(jìn)行顯著標(biāo)識(shí);
4)提供沉浸式擬真場景等生成或者編輯服務(wù)的,在虛擬場景信息內(nèi)容的明顯位置進(jìn)行顯著標(biāo)識(shí);
5)提供其他具有生成或者顯著改變信息內(nèi)容功能的服務(wù)的,在文本、圖像、音頻或者視頻、虛擬場景等的合理位置或者區(qū)域進(jìn)行顯著標(biāo)識(shí)。
深度合成服務(wù)提供者提供前款規(guī)定之外的深度合成服務(wù)的,應(yīng)當(dāng)向深度合成服務(wù)使用者提供對深度合成信息內(nèi)容進(jìn)行顯著標(biāo)識(shí)的功能,并提示深度合成服務(wù)使用者可以對深度合成信息內(nèi)容進(jìn)行顯著標(biāo)識(shí)。
涉及的用語的含義:
1)場景聲,是指音頻中非語音內(nèi)容的背景聲音。
2)人臉操控,是指對圖像、視頻中人物的面部表情等進(jìn)行操控。
3)姿態(tài)操控,是指對圖像、視頻中人物的肢體動(dòng)作等進(jìn)行操控。
4)三維重建,是指利用數(shù)據(jù)生成或者編輯場景三維立體影像的深度合成技術(shù)。
5)訓(xùn)練數(shù)據(jù),是指被用于訓(xùn)練機(jī)器學(xué)習(xí)模型的標(biāo)注或者基準(zhǔn)數(shù)據(jù)集。
6)沉浸式擬真場景,是指通過深度合成技術(shù)生成或者編輯的、可供參與者體驗(yàn)或者互動(dòng)的、具有高度真實(shí)感的虛擬場景。