j8又粗又硬又大又爽又长国产,色久网站,国产免费自拍视频,无码国产一区流畅有码av,Comwww在线播放,美女网站黄页免费,国产免费观看a∧wwwww.

網(wǎng)站首頁(yè) | 網(wǎng)站地圖

每日推薦
首頁(yè) > 理論前沿 > 深度原創(chuàng) > 正文

大模型在網(wǎng)絡(luò)空間中的安全風(fēng)險(xiǎn)與治理對(duì)策

【摘要】隨著智能技術(shù)的不斷發(fā)展,大模型日益成為網(wǎng)絡(luò)空間的新型基礎(chǔ)設(shè)施,其生成內(nèi)容借助互聯(lián)網(wǎng)快速傳播,對(duì)個(gè)人、社會(huì)乃至國(guó)家治理帶來潛在安全風(fēng)險(xiǎn)。這些安全風(fēng)險(xiǎn)深嵌于大模型“數(shù)據(jù)—訓(xùn)練—評(píng)估—應(yīng)用”的全生命周期,無法依賴單一環(huán)節(jié)或技術(shù)的突破完全解決。推動(dòng)大模型健康發(fā)展,應(yīng)從數(shù)據(jù)源頭安全、模型訓(xùn)練規(guī)范、動(dòng)態(tài)風(fēng)險(xiǎn)評(píng)估、應(yīng)用治理閉環(huán)四個(gè)方面著手,健全法規(guī)標(biāo)準(zhǔn)與敏捷治理體系,構(gòu)建貫穿大模型全生命周期的立體化、多層次、自適應(yīng)的綜合治理框架。

【關(guān)鍵詞】大模型 網(wǎng)絡(luò)空間 安全風(fēng)險(xiǎn) 安全治理

【中圖分類號(hào)】TP18 【文獻(xiàn)標(biāo)識(shí)碼】A

近年來,大模型憑借其卓越的語(yǔ)言理解與生成能力,正在重塑自然語(yǔ)言處理的研究范式,并成為人工智能領(lǐng)域最前沿方向之一。然而,隨著大模型在科研、商業(yè)和公共服務(wù)等場(chǎng)景的廣泛應(yīng)用,其對(duì)個(gè)人、社會(huì)乃至國(guó)家治理帶來潛在安全風(fēng)險(xiǎn)。大模型所引發(fā)的安全問題,不是來源于單一維度的技術(shù)挑戰(zhàn),而是深嵌于“數(shù)據(jù)—訓(xùn)練—評(píng)估—應(yīng)用”的全鏈路、多層次的系統(tǒng)性風(fēng)險(xiǎn),貫穿于大模型從開發(fā)到落地的全過程。

數(shù)據(jù)污染:偏見、虛假與隱私泄露的系統(tǒng)性源頭

數(shù)據(jù)風(fēng)險(xiǎn)是大模型最根本的安全挑戰(zhàn)。大模型的生成能力,來源于對(duì)海量文本數(shù)據(jù)的深度學(xué)習(xí)和模式抽取,其內(nèi)容并非憑空“生成”,而是建立在對(duì)既有數(shù)據(jù)的系統(tǒng)性模仿與歸納之上。為提升語(yǔ)言理解與生成效果,模型訓(xùn)練廣泛依賴互聯(lián)網(wǎng)公開語(yǔ)料。然而,由于互聯(lián)網(wǎng)內(nèi)容生產(chǎn)門檻低、規(guī)范性較差,訓(xùn)練數(shù)據(jù)中不可避免地混入偏見、虛假以及敏感信息,埋下諸多風(fēng)險(xiǎn)隱患。首先,由于互聯(lián)網(wǎng)文本生產(chǎn)門檻低、內(nèi)容缺乏統(tǒng)一審核標(biāo)準(zhǔn),訓(xùn)練數(shù)據(jù)中存在較多偏見信息。這些偏見可能在訓(xùn)練過程中被模型捕捉并固化,導(dǎo)致生成內(nèi)容出現(xiàn)有害言論,損害社會(huì)公正,甚至激化社會(huì)矛盾。其次,訓(xùn)練數(shù)據(jù)中混雜著大量偽科學(xué)觀點(diǎn)、誤導(dǎo)性說法等虛假或未經(jīng)驗(yàn)證的信息,易導(dǎo)致模型生成包含錯(cuò)誤信息的內(nèi)容,影響用戶判斷,干擾正常的信息傳播環(huán)境。再次,訓(xùn)練數(shù)據(jù)中可能包含未脫敏的個(gè)人信息、企業(yè)資料甚至涉密內(nèi)容,若被模型“記憶”并輸出,容易造成隱私泄露或信息外泄等問題①。敏感信息的“記憶”和泄露,不僅嚴(yán)重威脅個(gè)人隱私安全,觸及法律和倫理底線,而且可能損害企業(yè)競(jìng)爭(zhēng)力與國(guó)家利益,甚至引發(fā)更廣泛的安全風(fēng)險(xiǎn)。

當(dāng)前,降低大模型的數(shù)據(jù)風(fēng)險(xiǎn),主要通過兩種方式:在數(shù)據(jù)層面,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行清理和篩選;在模型輸出層面,引導(dǎo)其輸出更符合人類價(jià)值觀和社會(huì)規(guī)范的內(nèi)容。數(shù)據(jù)清理是大模型訓(xùn)練中最基礎(chǔ)且常用的治理手段,旨在訓(xùn)練前剔除帶有偏見、虛假、敏感或低質(zhì)量的樣本,從源頭上提升模型輸出的安全性與可靠性。常用的方法包括基于規(guī)則的清理手段,如模板匹配和正則表達(dá)式,自動(dòng)剔除身份證號(hào)、家庭住址等隱私信息;基于統(tǒng)計(jì)特征的方法,如利用關(guān)鍵詞共現(xiàn)頻率,識(shí)別帶有刻板印象的表達(dá);應(yīng)用訓(xùn)練好的分類模型,過濾謠言、煽動(dòng)性言論等內(nèi)容。然而,語(yǔ)言是高度復(fù)雜和動(dòng)態(tài)演化的,不良內(nèi)容和仇恨言論的表達(dá)形式也在持續(xù)演進(jìn),現(xiàn)有的數(shù)據(jù)清洗方法顯得較為“脆弱”。如果采用過于嚴(yán)格的清洗規(guī)則,極易造成過度過濾,可能會(huì)剔除部分正常討論、有價(jià)值的異見言論、特定社群的獨(dú)特表達(dá)方式等。這不僅會(huì)削弱訓(xùn)練數(shù)據(jù)的多樣性與代表性,損害模型在不同文化與語(yǔ)境下的泛化能力,而且可能引入新的偏見,形成“二次傷害”?;跀?shù)據(jù)清洗的治理策略本質(zhì)上是一種基于“負(fù)面清單”的被動(dòng)防御,它并不能主動(dòng)教會(huì)模型何為“善”或何為“正當(dāng)表達(dá)”,只能通過排除已知的“惡”來進(jìn)行消極規(guī)避。

數(shù)據(jù)層面固有的安全風(fēng)險(xiǎn),難以完全通過傳統(tǒng)清洗手段消除,需借助對(duì)齊技術(shù)(Alignment)進(jìn)一步強(qiáng)化風(fēng)險(xiǎn)緩解能力。其核心在于規(guī)范與約束大模型的輸出行為,確保模型生成內(nèi)容符合人類價(jià)值觀、社會(huì)規(guī)范以及實(shí)際應(yīng)用的安全與倫理要求。目前,業(yè)界普遍采用人類反饋強(qiáng)化學(xué)習(xí)(RLHF)作為主流對(duì)齊技術(shù)。該方法通過收集并利用人類的偏好反饋,訓(xùn)練模型模仿人類的價(jià)值判斷,從而有效規(guī)范大模型的輸出行為,促使其生成更符合安全與倫理標(biāo)準(zhǔn)的內(nèi)容。這一對(duì)齊機(jī)制雖能從行為層面緩解因訓(xùn)練數(shù)據(jù)引發(fā)的安全風(fēng)險(xiǎn),提升模型輸出的整體安全性和可靠性,但其本質(zhì)仍為一種表層引導(dǎo),僅實(shí)現(xiàn)淺層對(duì)齊。用戶一旦使用更加隱蔽、迂回或具有欺騙性的方式重新表述同一請(qǐng)求,可能會(huì)繞過模型表層的安全防線,使其輸出內(nèi)部尚未清除的有害知識(shí)與敏感信息。

訓(xùn)練范式缺陷:統(tǒng)計(jì)預(yù)測(cè)范式下的認(rèn)知盲區(qū)

大模型的安全風(fēng)險(xiǎn)不僅來自數(shù)據(jù)本身,而且與其訓(xùn)練方式有關(guān)。它的訓(xùn)練目標(biāo)是學(xué)會(huì)根據(jù)已有的前文,預(yù)測(cè)下一個(gè)最有可能出現(xiàn)的詞或字。換句話說,模型并不能真正理解句子的含義或知識(shí),而是通過統(tǒng)計(jì)大量文本中詞語(yǔ)出現(xiàn)的規(guī)律,選擇最符合上下文的詞語(yǔ),拼湊出看起來流暢自然的句子。這種缺陷可能導(dǎo)致模型生成看似流暢合理、言之鑿鑿,但實(shí)際上完全錯(cuò)誤或憑空捏造的信息,也就是所謂的“幻覺”問題②。“幻覺”具有多種表現(xiàn)形式,如捏造不存在的人物、事件、論文,“張冠李戴”等。香港科技大學(xué)的一項(xiàng)研究顯示,無論是開源還是商用大模型,普遍存在幻覺風(fēng)險(xiǎn),平均幻覺率高達(dá)59%③。“幻覺”問題不僅會(huì)影響模型輸出的可靠性,而且可能造成一系列安全風(fēng)險(xiǎn),誤導(dǎo)用戶決策、傳播虛假信息,甚至被部署在現(xiàn)實(shí)系統(tǒng)中引發(fā)鏈?zhǔn)斤L(fēng)險(xiǎn)。

檢索增強(qiáng)生成方法(RAG)是當(dāng)前應(yīng)對(duì)大模型“幻覺”問題的主要技術(shù)手段。其核心理念是將“純粹基于模型生成”的語(yǔ)言模型,轉(zhuǎn)變?yōu)?ldquo;由外部知識(shí)輔助”的生成框架,使模型依賴可溯源的知識(shí)來回答問題,而非僅憑訓(xùn)練記憶中的統(tǒng)計(jì)模式。具體做法是利用外部知識(shí)檢索器,將大模型的生成過程與事實(shí)性信息源(如知識(shí)圖譜、數(shù)據(jù)庫(kù))結(jié)合,從而提升輸出內(nèi)容的真實(shí)性和可驗(yàn)證性,減少虛假信息的產(chǎn)生。集成RAG的模型在生成回答前,會(huì)先對(duì)用戶問題進(jìn)行檢索,從外部知識(shí)庫(kù)中提取若干相關(guān)文本片段,作為輔助信息與原始問題一同輸入模型,指導(dǎo)其生成更貼近事實(shí)、可追溯的答案。目前,騰訊、字節(jié)跳動(dòng)、深度求索等多家大模型廠商已在系統(tǒng)中集成“聯(lián)網(wǎng)搜索”或“實(shí)時(shí)檢索”功能,以緩解“幻覺”問題,提高輸出準(zhǔn)確性和可追溯性。盡管檢索增強(qiáng)生成方法在減輕“幻覺”現(xiàn)象上已取得一定成效,但仍存在顯著局限性。其效果高度依賴檢索模塊的質(zhì)量,而現(xiàn)有檢索系統(tǒng)常面臨召回不全、語(yǔ)義偏移、信息冗余等問題,導(dǎo)致模型可能基于無關(guān)或片面信息生成回答。哈爾濱工業(yè)大學(xué)的一項(xiàng)研究發(fā)現(xiàn),當(dāng)檢索模塊返回?zé)o關(guān)文檔時(shí),模型容易偏離問題核心,輸出事實(shí)錯(cuò)誤的內(nèi)容④。此外,由于大模型生成過程缺乏明確的可解釋機(jī)制,用戶難以判斷回答是否真實(shí)依據(jù)檢索信息。

評(píng)估方法失焦:自動(dòng)化評(píng)估不全面與人工評(píng)估不高效的雙重困局

科學(xué)、客觀、全面的評(píng)估是識(shí)別模型風(fēng)險(xiǎn)、指導(dǎo)技術(shù)優(yōu)化、建立社會(huì)信任、支撐有效監(jiān)管的基石。傳統(tǒng)生成結(jié)果的評(píng)估方法多基于構(gòu)建靜態(tài)評(píng)估數(shù)據(jù)集,通過BLEU、ROUGE等傳統(tǒng)的自然語(yǔ)言處理評(píng)價(jià)指標(biāo),計(jì)算模型生成結(jié)果與人類撰寫的“黃金標(biāo)準(zhǔn)”參考答案之間的匹配度。這種方式不以降低生成文本中的有害信息為目標(biāo),導(dǎo)致與用戶對(duì)模型有用性、安全性的真實(shí)感知之間存在偏差。例如,經(jīng)過指令微調(diào)和“人類反饋強(qiáng)化學(xué)習(xí)”對(duì)齊后的聊天模型(如Vicuna),盡管在真實(shí)對(duì)話中遠(yuǎn)比其原始基礎(chǔ)模型(如LLaMA)更受用戶青睞,但在傳統(tǒng)基準(zhǔn)測(cè)試上的得分卻并未相應(yīng)提高。有時(shí)甚至?xí)驗(yàn)榛卮鸶?jiǎn)潔、更注重安全而導(dǎo)致匹配度下降,分?jǐn)?shù)反而更低。這種評(píng)估與現(xiàn)實(shí)的偏差,導(dǎo)致開發(fā)者可能會(huì)過度優(yōu)化模型在這些傳統(tǒng)基準(zhǔn)上的分?jǐn)?shù),而忽視模型在真實(shí)世界中的安全性和實(shí)用性。

目前,學(xué)術(shù)界提出一種名為“LLM-as-a-Judge”的新評(píng)估范式,即使用一個(gè)強(qiáng)大的語(yǔ)言模型(如GPT-4)作為“代理裁判”,自動(dòng)化評(píng)估其他模型的輸出質(zhì)量。相較于傳統(tǒng)的自動(dòng)化評(píng)估指標(biāo)(如BLEU),大模型能夠更有效地捕捉文本中的隱含語(yǔ)義與價(jià)值傾向,進(jìn)而在模擬人類評(píng)估行為、識(shí)別生成內(nèi)容中的安全隱患方面,表現(xiàn)出更高的靈活性和一致性。然而,使用一個(gè)模型去評(píng)判另一個(gè)模型,其結(jié)果在很大程度上只是衡量被測(cè)模型與“裁判”模型的觀點(diǎn)、風(fēng)格和價(jià)值觀的“相似度”,而非一個(gè)絕對(duì)的“質(zhì)量”或“安全”分?jǐn)?shù)⑤。這種方式可能促使大語(yǔ)言模型的研究盲目追求與巨頭模型價(jià)值觀的“對(duì)齊”,固化為整個(gè)行業(yè)的優(yōu)化目標(biāo),最終導(dǎo)致“評(píng)估霸權(quán)”,扼殺技術(shù)路線和價(jià)值取向的多樣性,威脅整個(gè)領(lǐng)域的健康。

為彌補(bǔ)自動(dòng)評(píng)估方式不足,業(yè)內(nèi)通常采用人工評(píng)估,包括眾包評(píng)估和紅隊(duì)測(cè)試。眾包評(píng)估是指開發(fā)者通過眾包平臺(tái)招募評(píng)估員,從主觀維度評(píng)估模型輸出的有用性、無害性與誠(chéng)實(shí)性。但該方法普遍存在兩類問題:一是評(píng)估員專業(yè)能力不足,導(dǎo)致判斷失準(zhǔn);二是不同評(píng)估者難以達(dá)成高一致性,評(píng)估結(jié)果缺乏可重復(fù)性。紅隊(duì)測(cè)試方法是指模型開發(fā)方聯(lián)合語(yǔ)言學(xué)、網(wǎng)絡(luò)安全等領(lǐng)域的外部專家,組建多元背景的紅隊(duì)團(tuán)隊(duì),對(duì)模型在提示注入、工具濫用、隱私泄露等高風(fēng)險(xiǎn)場(chǎng)景下的表現(xiàn)進(jìn)行系統(tǒng)化驗(yàn)證。該方法在識(shí)別已知風(fēng)險(xiǎn)方面具有一定效果,已成為主流大模型服務(wù)商(如OpenAI)的重要補(bǔ)充機(jī)制。但紅隊(duì)測(cè)試本質(zhì)上仍是一種人工主導(dǎo)、非窮盡性的評(píng)估方式,僅能驗(yàn)證預(yù)設(shè)漏洞是否存在,難以覆蓋開放環(huán)境中不斷演化的新型風(fēng)險(xiǎn)。在面對(duì)快速變化的攻擊方式時(shí),存在響應(yīng)滯后與覆蓋盲區(qū)等問題,難以形成前瞻性、動(dòng)態(tài)性的風(fēng)險(xiǎn)識(shí)別體系。此外,無論是眾包評(píng)估還是紅隊(duì)測(cè)試,人工評(píng)估始終難以規(guī)?;?,無法高效地評(píng)估大模型在實(shí)際領(lǐng)域大規(guī)模應(yīng)用后持續(xù)動(dòng)態(tài)暴露的新問題。

應(yīng)用風(fēng)險(xiǎn)升級(jí):從生成模型向智能體的應(yīng)用安全管理

大模型的應(yīng)用風(fēng)險(xiǎn)管理,構(gòu)成了一道關(guān)鍵屏障,用于約束大模型運(yùn)行時(shí)的行為,防止其輸出違法、有害或誤導(dǎo)性信息,確保大模型在實(shí)際應(yīng)用中的安全性、合規(guī)性與責(zé)任可追溯性。目前,備案制已成為多國(guó)監(jiān)管大模型應(yīng)用安全的主流手段,通過對(duì)大模型進(jìn)行合規(guī)審查、備案登記,結(jié)合生成內(nèi)容的數(shù)字水印和溯源技術(shù),實(shí)現(xiàn)對(duì)模型及其輸出文本的監(jiān)督和管理。例如,相關(guān)部門要求大模型服務(wù)提供者提交模型信息備案,確保上線模型滿足安全合規(guī)要求,并鼓勵(lì)在生成內(nèi)容中嵌入水印或標(biāo)簽,便于追蹤內(nèi)容來源和責(zé)任歸屬。2023年以來,美國(guó)、英國(guó)、澳大利亞等國(guó)家均發(fā)布人工智能內(nèi)容治理相關(guān)規(guī)范。我國(guó)也出臺(tái)《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》《人工智能生成合成內(nèi)容標(biāo)識(shí)辦法》等政策文件,建立起以模型備案和內(nèi)容可追溯為核心的“雙重機(jī)制”,為治理生成內(nèi)容風(fēng)險(xiǎn)提供了重要抓手。然而,備案制主要依賴于服務(wù)提供者的主動(dòng)申報(bào),是一種自我聲明和事后處置技術(shù),存在規(guī)則“空轉(zhuǎn)”與無法落地的風(fēng)險(xiǎn),難以形成治理閉環(huán)。

此外,大模型正在快速轉(zhuǎn)型為具備感知、規(guī)劃和執(zhí)行能力的智能體(Agent),其風(fēng)險(xiǎn)遠(yuǎn)超單純內(nèi)容生成模型。Agent不僅能夠生成文本,而且能調(diào)用外部工具、自動(dòng)執(zhí)行復(fù)雜任務(wù),如郵件發(fā)送、數(shù)據(jù)庫(kù)操作、云服務(wù)調(diào)度,甚至能實(shí)現(xiàn)任務(wù)拆解和自主協(xié)同,深度介入物聯(lián)網(wǎng)等關(guān)鍵系統(tǒng),帶來了越權(quán)執(zhí)行、數(shù)據(jù)泄露、遠(yuǎn)程控制等新型安全威脅,導(dǎo)致關(guān)鍵服務(wù)中斷、隱私泄露乃至物理設(shè)備損害等嚴(yán)重后果。近年來,Agent被非法使用的事件頻發(fā),暴露出審查機(jī)制的滯后問題。不法分子繞過模型內(nèi)置安全機(jī)制,利用未經(jīng)審查的模型(如Ollama)生成釣魚郵件,甚至通過WormGPT、FraudGPT等專用于網(wǎng)絡(luò)犯罪的大模型,編寫惡意軟件、實(shí)施攻擊、竊取數(shù)據(jù)。這類工具已在暗網(wǎng)中流通,形成完整產(chǎn)業(yè)鏈,推動(dòng)網(wǎng)絡(luò)犯罪向自動(dòng)化、工業(yè)化加速演進(jìn),嚴(yán)重威脅信息安全和社會(huì)秩序。因此,傳統(tǒng)以生成內(nèi)容審查為核心的風(fēng)險(xiǎn)管理模式已難以覆蓋Agent“行為能力”帶來的系統(tǒng)性風(fēng)險(xiǎn)。Agent的自主性、動(dòng)態(tài)執(zhí)行和鏈?zhǔn)讲僮魈攸c(diǎn),使監(jiān)管對(duì)象不再是單條文本,而是復(fù)雜的任務(wù)執(zhí)行鏈及其與外部系統(tǒng)的深度交互。這對(duì)安全風(fēng)險(xiǎn)管理提出更高要求。

構(gòu)建貫穿大模型全生命周期的綜合治理框架

推動(dòng)大模型健康發(fā)展,必須高度警惕貫穿大模型“數(shù)據(jù)—訓(xùn)練—評(píng)估—應(yīng)用”全生命周期的安全風(fēng)險(xiǎn),加強(qiáng)技術(shù)發(fā)展與政策構(gòu)建的深度協(xié)同,從數(shù)據(jù)源頭治理、模型訓(xùn)練規(guī)范、動(dòng)態(tài)風(fēng)險(xiǎn)度量、應(yīng)用治理閉環(huán)四個(gè)方面著手,構(gòu)建立體化、多層次、自適應(yīng)的綜合治理框架。

在數(shù)據(jù)環(huán)節(jié),堅(jiān)持從末端管控向源頭治理轉(zhuǎn)型,避免過度依賴訓(xùn)練數(shù)據(jù)清理和表層行為限制等被動(dòng)式風(fēng)險(xiǎn)遏制手段,將監(jiān)管資源與政策重點(diǎn)前移,貫穿數(shù)據(jù)的采集、加工、流通與管理各環(huán)節(jié),著力構(gòu)建安全、合規(guī)、高質(zhì)量的可信數(shù)據(jù)基礎(chǔ)??紤]到大模型預(yù)訓(xùn)練語(yǔ)料廣泛來源于互聯(lián)網(wǎng),根本之策在于加強(qiáng)網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理。一方面,落實(shí)平臺(tái)主體責(zé)任,建立健全覆蓋內(nèi)容審核、應(yīng)急處置、正向引導(dǎo)等方面的監(jiān)管機(jī)制,形成全鏈條、閉環(huán)式管理體系。另一方面,針對(duì)數(shù)據(jù)提供商出售的數(shù)據(jù),以及大模型廠商所使用訓(xùn)練數(shù)據(jù),實(shí)施常態(tài)化隨機(jī)抽檢與質(zhì)量評(píng)估機(jī)制,由主管部門牽頭,統(tǒng)籌技術(shù)專家、行業(yè)組織和科研機(jī)構(gòu)等多方力量,定期發(fā)布不符合法律法規(guī)及標(biāo)準(zhǔn)要求的數(shù)據(jù)源“黑名單”,并制定明確的指導(dǎo)原則,引導(dǎo)企業(yè)優(yōu)先采用高價(jià)值、強(qiáng)合規(guī)的訓(xùn)練數(shù)據(jù)。推行數(shù)據(jù)血緣追溯體系,協(xié)助大模型廠商構(gòu)建可追溯、可審查的數(shù)據(jù)溯源鏈,滿足法律法規(guī)和行業(yè)標(biāo)準(zhǔn)的審查要求,確保數(shù)據(jù)來源可查、質(zhì)量全程可控、責(zé)任清晰可溯。

在模型訓(xùn)練環(huán)節(jié),正視當(dāng)前生成式人工智能的技術(shù)局限性,從技術(shù)研發(fā)與訓(xùn)練過程規(guī)范化兩方面著手,推動(dòng)技術(shù)創(chuàng)新與制度保障有機(jī)融合。在技術(shù)研發(fā)方面,應(yīng)加強(qiáng)對(duì)前沿訓(xùn)練范式的戰(zhàn)略引導(dǎo)和必要投入,重點(diǎn)突破現(xiàn)有生成式人工智能訓(xùn)練范式可信度低等關(guān)鍵技術(shù)瓶頸,引導(dǎo)模型由“黑箱生成”向“透明決策”轉(zhuǎn)變,為國(guó)家重大技術(shù)創(chuàng)新和下一代可信人工智能的構(gòu)建提供支撐。在訓(xùn)練過程規(guī)范化方面,由政府推動(dòng)標(biāo)準(zhǔn)制定,引導(dǎo)行業(yè)制定覆蓋全流程的訓(xùn)練規(guī)范體系,對(duì)關(guān)鍵訓(xùn)練環(huán)節(jié)提出明確要求,使大模型研發(fā)過程安全可控。同步建立訓(xùn)練過程信息披露制度,明確發(fā)布模型前必須公開關(guān)鍵訓(xùn)練指標(biāo)和安全評(píng)估結(jié)果,強(qiáng)化外部監(jiān)督與行業(yè)約束,推動(dòng)大模型訓(xùn)練活動(dòng)在安全可靠的軌道上規(guī)范運(yùn)行。

在模型評(píng)估環(huán)節(jié),為應(yīng)對(duì)現(xiàn)有自動(dòng)化評(píng)估覆蓋不全、人工評(píng)估效率不高的問題,應(yīng)廣泛聯(lián)合學(xué)術(shù)界以及產(chǎn)業(yè)界力量,建立全方位的自動(dòng)評(píng)估框架,實(shí)現(xiàn)對(duì)大規(guī)模新興應(yīng)用風(fēng)險(xiǎn)度量的動(dòng)態(tài)適應(yīng)性,提升模型安全評(píng)估的全面性與有效性。為此,應(yīng)構(gòu)建并維護(hù)“動(dòng)態(tài)風(fēng)險(xiǎn)評(píng)測(cè)基準(zhǔn)庫(kù)”,建立機(jī)制鼓勵(lì)社會(huì)各界結(jié)合最新社會(huì)動(dòng)態(tài)持續(xù)更新測(cè)試樣本。引入第三方機(jī)構(gòu)開展大模型的獨(dú)立、客觀安全評(píng)估與合規(guī)性驗(yàn)證。評(píng)估過程要保留可溯源、可復(fù)現(xiàn)、可驗(yàn)證的完整交互記錄,為后續(xù)審查、追責(zé)及模型持續(xù)改進(jìn)提供依據(jù)。建立分級(jí)分類評(píng)估體系,針對(duì)不同風(fēng)險(xiǎn)等級(jí)和應(yīng)用領(lǐng)域,設(shè)計(jì)并實(shí)施差異化的評(píng)估標(biāo)準(zhǔn)和審查流程,確保評(píng)估資源精準(zhǔn)配置,風(fēng)險(xiǎn)管理有效實(shí)施。

在應(yīng)用風(fēng)險(xiǎn)管理環(huán)節(jié),應(yīng)突破現(xiàn)有僅依賴自我聲明的備案技術(shù),建立“模型備案—行為追蹤—風(fēng)險(xiǎn)干預(yù)”的全流程閉環(huán)治理框架。在模型備案方面,鼓勵(lì)推廣“監(jiān)管沙盒”,提供一個(gè)官方的、隔離的環(huán)境進(jìn)行充分的第三方測(cè)試。在行為追蹤方面,推動(dòng)發(fā)展“風(fēng)險(xiǎn)內(nèi)容識(shí)別+生成模型溯源”的行為追蹤技術(shù),精準(zhǔn)檢測(cè)網(wǎng)絡(luò)空間中的風(fēng)險(xiǎn)內(nèi)容以及易感人群,通過大模型溯源快速定位風(fēng)險(xiǎn)來源,為后續(xù)干預(yù)提供靶向目標(biāo)。在風(fēng)險(xiǎn)干預(yù)方面,針對(duì)網(wǎng)絡(luò)風(fēng)險(xiǎn)的潛在影響,通過大模型生成風(fēng)險(xiǎn)對(duì)抗內(nèi)容,主動(dòng)降低風(fēng)險(xiǎn)危害影響等級(jí)。此外,重點(diǎn)關(guān)注智能體在網(wǎng)絡(luò)空間中的行為風(fēng)險(xiǎn),建立統(tǒng)一的模型行為日志與調(diào)用記錄標(biāo)準(zhǔn),確保工具調(diào)用、外部交互及決策鏈條全流程留痕、可溯源、可追責(zé),增強(qiáng)智能體系統(tǒng)的透明度與可監(jiān)管性。

【注釋】

①杜夢(mèng)瑤、李清明、張淼等:《面向隱私保護(hù)的用戶評(píng)論基準(zhǔn)數(shù)據(jù)集構(gòu)建與大模型推理能力評(píng)估》,《計(jì)算機(jī)學(xué)報(bào)》,2025年第7期。

②劉澤垣、王鵬江、宋曉斌等:《大語(yǔ)言模型的幻覺問題研究綜述》,《軟件學(xué)報(bào)》,2025年第3期。

③Bang Y, Ji Z, Schelten A, et al. HalluLens: LLM Hallucination Benchmark[C]//Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics, 2025: 24128-24156.

④Li M, Li X, Chen Y, et al. Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models[C]//Findings of the Association for Computational Linguistics ACL 2024. 2024: 4833-4850.

⑤Xu W, Zhu G, Zhao X, et al. Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement[C]//Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics. 2024: 15474-15492.

責(zé)編/銀冰瑤 美編/王夢(mèng)雅

聲明:本文為人民論壇雜志社原創(chuàng)內(nèi)容,任何單位或個(gè)人轉(zhuǎn)載請(qǐng)回復(fù)本微信號(hào)獲得授權(quán),轉(zhuǎn)載時(shí)務(wù)必標(biāo)明來源及作者,否則追究法律責(zé)任。

[責(zé)任編輯:周小梨]