生成式人工智能(AIGC)的迅速普及推动了社会进步,但也衍生出数据污染风险。AIGC拥有比传统人工智能更强大的信息分析与人机交互能力,其可以独立生成内容,拥有自感知、自决策、自执行、自适应、自学习等特征。但由涌现效应所诱致的负面影响越发显著,致使AIGC的输出结果具有高度的不确定性,从而可能存在严重的失真、不端或缺维现象,导致数据污染问题成为无法忽视的挑战。同时,技术源头治理困难、风险预防理念遇阻、责任归属原则失灵构成数据污染治理的核心困境,为平衡技术进步与社会安全,应坚持审慎原则,采用渐进式技术治理策略,并引入全过程风险管理理念;坚持发展原则,明确归责的基本要件和例外情形,建立合理的责任剥离机制;坚持生态原则,引入多元综合治理模式,及时出台相应的规范解释或政策机制,并建立数据污染联动治理机制。
一、人工智能大语言模型引发的
数据污染风险
人工智能大语言模型以海量数据信息为基础,结合卓越的理解和生成能力,在产生高度拟人化互动交流过程中,其所生成的内容开始变得愈发不可预测和难以治理,主要表现为人工智能大语言模型所引发的数据污染风险。
(一)数据流动引发的数据主权风险
在人工智能时代,人工智能大语言模型引发的数据污染风险深刻影响国家数据安全。首先,数据跨境流动引发数据主权风险。由于全球各国发展的情况复杂和多样性,对数据跨境流动的治理就天然存在极大困难,无论各国数据保护水平如何,当海量数据流向立法不足、保护技术或管理能力有限的地区时,就存在侵犯个人隐私和泄露国家机密的风险。其次,数据霸权会引发意识形态风险。在数字时代,人工智能作为一种“权力的媒介”,涉及意识形态的引领和传播权力的分配。掌握生成式人工智能领域核心技术的西方国家有意在全球进行技术霸权和数据霸权,在霸权的操纵下以及人工智能塑造的“信息茧房”影响下,将引发国家意识形态领域被撕裂风险,数据污染风险也将随着意识形态的操纵、渗透而加重。
(二)数据污染攻击引发军事安全风险
人工智能作为一种具有重大战略价值的新兴技术,各国积极探索技术应用于军事领域的潜力以获得竞争的优势。例如,美国军方已开始利用生成式人工智能撰写国防咨询报告,并在五角大楼成立Lima工作组评估、整合和使用该技术。对手的技术快速发展和应用会在军事领域对我造成重大的安全风险挑战,对手可能会利用技术霸权或数据霸权将数据污染攻击扩散到军事应用中,并将生成式人工智能技术应用于情报战与信息战,甚至是无人机、自动制导或其他战略决策性武器之中。更可以利用人工智能大语言模型可以生成模拟攻击模型策略,对国家基础设施、军事设施等特定目标生成网络攻击代码,严重危及被攻击国军事安全。
(三)数据污染导致的社会问题激化
源于强大的内容创生能力和不断迭代升级的模型技术,人工智能大语言模型解放人力的同时,也在优化和提升信息生产与传播的方式及效率,人们的生活模式甚至整个社会的运作模式都将因此面临深刻变革。但是引发的安全风险也需要高度警惕。一是伦理道德风险。数据被污染导致的真实数据缺失,同时虚假的数据源与机械化的数据训练机制会使得输出的数据可靠性更低,会引发教育、艺术创作等领域的伦理道德风险。二是煽动社会矛盾。某些人违背开发者最初设定的道德和法律底线,有意通过“训练”和数据污染,诱使人工智能生成虚假或违法信息,严重危害社会公众利益,误导影响社会舆论,煽动暴力、犯罪等。三是个人决策影响。随着生成式人工智能技术的普及,会使得人们对大语言模型生成内容的数据依赖,加重了数据污染风险对个人的影响。尤其是在专业领域的错误数据会误导用户做出错误决策甚至造成不良影响。
二、数据污染风险的治理困境
生成式人工智能技术应用引发的数据污染风险面临着技术底层桎梏、规制局限两方面的挑战,使得针对数据污染的防治面临重重困境。
(一)大语言模型的底层技术桎梏
一是算法黑箱提升风险识别难度。数据污染是对数据真实性、完整性的破坏;数据污染风险既可能来自被污染的数据本身,也可能发生于数据处理过程中。前者属于内在风险,依赖于大语言模型及算法的审核过滤机制,将有害数据从学习素材中排除;后者则属于外在风险,依赖于对算法黑箱问题的积极应对,以抑制数据污染风险的扩散。二者共同之处在于对数据污染风险的识别。而算法黑箱化及其迭代升级正不断增加风险识别难度,数据污染风险的治理困境愈发严峻。在人工智能大语言模型生成内容之时,若所依赖的深层技术或算法不公开、不透明,一系列包括信息不对称、算法霸权、算法歧视、信息茧房等数据问题随之产生。
二是算法依赖弱化污染数据识别能力。利用算法和大数据驱动,大语言模型能灵活、低调且高效地助推个人实现预设目标,并个性化定制个人的选择环境,极大提高人机交互过程中主体对算法的信任水平。这又促使个人持续、广泛地服从大数据制定的策略,进而放弃自己拥有的大部分实际主体性。当人工智能大语言模型越智能和越自主、应用越广泛,大语言模型迭代升级的周期越短。同时主体性的下降导致的识别能力降低,虚假、伪造数据甚至带有歧视和偏见的数据信息便得以在信息网络上肆虐而难以被合理识别和过滤,加剧污染数据的传播、扩散。
(二)数据污染规制的现实局限
一是数据污染法律规制薄弱。当前关于数据污染的相关管理办法受制于技术发展的不确定性,相关概念和操作规范缺位,以及相关行政法规不甚明确、具体,诸多相应规范在实践中的可操作性不强。同时,相关服务提供者或司法人员自身对人工智能领域中的新兴风险感到陌生,或将直接导致数据污染风险规制的过程及结果缺乏合理性甚至合法性。
二是责任主体界限模糊。人工智能大语言模型技术的发展正在模糊法律责任主体的界限,数据污染治理时责任承担存在不公平性与不确定性。人工智能大语言模型生成的数据或信息存在于数据收集、数据处理、数据输出等多个阶段,因而人工智能大语言模型所涉及的主体除服务提供者和用户外,实际上还包括数据提供者、技术支持者、系统监督者等相关主体。导致责任主体的界限在技术实际运行中逐渐模糊,这在一定程度上限制了对数据污染的规制。
三、人工智能大语言模型数据污染风险的
规制路径
(一)技术层面
由于人工智能大语言模型的预训练模型、算法、算力存在内在固有缺陷,人工智能时代下算法黑箱的更新迭代已成为必然趋势,技术规制应重点着眼于数据污染风险的防控。首先应以风险防控为重点,建立应对数据污染风险的多方位防控机制。一方面,建立透明可信的训练数据源及算法模型。为确保模型及其训练数据的透明度和可信度,可以要求大模型开发者在构建生态圈时一并研发增进人工智能可信性的治理工具。另一方面,建立数据审核过滤及隐私泄露防控机制。在语料库构建和数据储存、传输过程中建立数据审核过滤机制。其次,强调技术发展的以人为本。避免人工智能客体性式微对人类主体性的侵蚀,进而防止人类在面对新一代人工智能所内生的“技术依赖”“信息茧房”“数字鸿沟”等问题是人工智能数据污染风险治理的目标与方向所在。需要明晰人类“算法”与机器算法的合理分工,充分发挥人的主体性作用,尽可能规避技术系统可能带来的机械化偏差。
(二)制度层面
以数据安全为重点,实现数据保护与数据使用的平衡,以制度为抓手,完善生成式人工智能领域的规范管理已迫在眉睫。一是完善生成式人工智能领域的法律规范。针对人工智能大语言模型在应用过程中引发的数据污染风险等诸多具体风险,及时出台相应的规范解释或政策机制,实现精准治理,以适应不断迭代升级的人工智能算法和算力。二是政府引导为主、企业自治为辅,加快生成式人工智能领域数据安全治理行业技术标准的制定和完善。三是明确各方参与主体的法律义务与责任,确保人工智能大语言模型健康有序发展以及数据有效保护和合理使用。
免责声明:本文转自启元洞见。文章内容系原作者个人观点,本公众号编译/转载仅为分享、传达不同观点,如有任何异议,欢迎联系我们!
研究所简介
国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。
地址:北京市海淀区小南庄20号楼A座
电话:010-82635522
客服热线:










