专家解读|构建面向AI时代的数据治理新生态

来源:华体会全站官网登录入口
发布时间:2024-02-02 21:03:39

...

  生成式人工智能技术作为具有文本、图片、音频、视频等内容生成能力的模型及有关技术,正在全球范围内推动掀起一轮AI发展的新高潮。一方面,生成式人工智能带来新的发展机遇,包括新的技术上的支持、新的业务类型和新的应用内容;另一方面,生成式人工智能也伴生来源更为多样、程度更为深刻的安全风险,涵盖各类技术要素风险和数字内容风险等。如何充分的发挥生成式人工智能的价值潜能并有效实现其规范治理,已是各国共同关注的时代命题。

  2023年7月13日,国家网信办联合国家发展改革委、教育部、科技部、工业与信息化部、公安部和广电总局公布《生成式人工智能服务管理暂行办法》(以下称《办法》),自2023年8月15日起施行。《办法》作为全球第一部关于生成式人工智能治理的专门法律规范,具有重大意义。

  《办法》的谋篇布局坚持发展和安全并重的立法精神,规则的字里行间突出高水平质量的发展新阶段语境下综合治理的生态理念,是促进生成式人工智能技术健康发展和规范应用的有力举措。

  一方面,《办法》的条文设计在数据治理、算法设计、内容管理、虚假信息防范以及权益保护等多个层面,围绕生成式人工智能服务划定了全方位的合规要求;另一方面,《办法》强调与《网络安全法》《数据安全法》《个人隐私信息保护法》《科学技术进步法》等上位法律,以及《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》等现行规范构成的治理框架紧密衔接,形成关于生成式人工智能服务的立体规则体系。

  从系统治理论的角度,可以认为生成式人工智能的三大核心要素包括数据、算力和算法:海量数据被认为是生成式人工智能的基石,充沛算力是生成式人工智能的基础能力支撑,先进算法是生成式人工智能的基本实现途径。应当指出的是,《办法》的各项制度规范深刻洞察生成式人工智能的技术原理及其运行逻辑,尤其是在《网络安全法》《数据安全法》《个人隐私信息保护法》等法律、行政法规的基础上,着眼生成式人工智能服务语境下的数据治理,引入了多项专门规范,对于构建面向AI时代的数据治理新生态具备极其重大的制度指引意义:

  其一,《办法》明确了生成式人工智能服务中的数据治理要求。《办法》规定提供和使用生成式人工智能服务,应当遵守法律、行政法规,尊重社会公德和伦理道德,明确了新技术场景下数据新治理的价值底蕴。同时,《办法》要求在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取比较有效措施防止民族、信仰、国别、地域、性别、年龄、职业、健康等歧视,强调在数据治理中防止偏见和歧视,并为生成式人工智能服务的可持续发展提供价值保障。

  其二,《办法》强调了生成式人工智能服务中数据处理的特别要求。一方面,《办法》就相关数据处理活动规定了明晰的行为规则,生成式人工智能服务提供者在依法开展预训练、优化训练等训练数据处理活动中,一是应当使用具有合法来源的数据和基础模型;二是涉及个人隐私信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;三是采取比较有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性。

  另一方面,《办法》就有关数据标注活动设定了专门的业务规则,规定在生成式人工智能研发技术过程中进行数据标注的,提供者应当制定符合办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员做必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。《办法》关于标注规则、质量评估和人员培训的组合要求有益于数据资源的理解与利用,进而提高相关数据处理的准确性及其效能。

  其三,《办法》突出了生成式人工智能服务中数据生态的多方协同。《办法》一是强调支持行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等在生成式人工智能技术创新、数据资源建设、转化应用、风险防范等方面开展协作,旨在最大限度激发各方主体的积极性和参与度,提升共建共治共享的数据生态水平。二是强调推动生成式人工智能基础设施和公共训练数据资源平台建设,促进算力资源协同共享,提升算力资源利用效能,推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源,鼓励采用安全可信的芯片、软件、工具、算力和数据资源。从基础设施到平台建设,从算力资源到公共数据,《办法》的规范设计有利于形成多方参与、安全可信的高质量数据生态。(作者:吴沈括北京师范大学法学院博士生导师、中国互联网协会研究中心副主任)