高质量数据集作为数据要素价值释放的核心载体,已成为国家数字经济战略的重要支撑。我国已构建起以法律为基础、行政法规为骨干、部门规章为支撑、政策文件为指引的多层次制度体系,全面规范和推动高质量数据集建设与应用。
一、核心法律体系(基础保障)
二、行政法规与部门规章(细化规范)
1. 网络数据安全管理条例(国务院令第 790 号)
实施时间:2024 年 10 月 1 日
核心内容:细化《数据安全法》《个人信息保护法》要求,明确数据处理者安全义务,规范数据共享、交易、跨境流动等行为
数据集相关:对数据集的完整性、保密性、可用性提出具体要求,建立数据安全风险评估机制
2. 高质量数据集建设指引(国数发〔2025〕18 号)
发布单位:国家数据局(2025 年 9 月)
核心定位:我国首部专门针对高质量数据集建设的综合性指引,明确高质量数据集定义为 "数据要素合规流通、价值变现的基础载体"
关键内容:
提出 "合规性、完整性、准确性、一致性、时效性、可用性、安全性" 七大质量维度
构建 "数据采集 - 清洗 - 标注 - 存储 - 治理 - 流通 - 应用" 全流程建设规范
建立数据集质量评测方法与工具集,推动标准化建设
3. 关于促进数据标注产业高质量发展的实施意见(发改数据〔2024〕1822 号)
发布单位:国家发改委等部门(2024 年 12 月)
核心目标:到 2027 年,数据标注产业年均复合增长率超 20%,形成完善产业生态
数据集相关:强调数据标注是高质量数据集建设的关键环节,推动从 "以人为主" 向 "人机协同、专家深度参与" 模式转变,规范标注流程与质量标准
三、国家顶层设计政策(战略引领)
1. 中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见(2022 年 12 月)
核心定位:数据要素市场化配置改革的 "顶层设计" 文件
数据集相关:明确 "强化高质量数据要素供给",建立公共数据、企业数据、个人数据分类分级确权授权制度,推动数据产权结构性分置与有序流通
2. 中共中央办公厅 国务院办公厅关于加快公共数据资源开发利用的意见(2024 年 10 月)
核心突破:首次系统部署公共数据开发利用,提出共享、开放、授权运营三种模式
数据集相关:建立公共数据资源登记制度,编制公共数据资源目录,提高公共数据可用性,为公共领域高质量数据集建设提供制度保障
3. "数据要素 ×" 三年行动计划(2024—2026 年)(17 部门联合印发)
核心目标:到 2026 年底,打造超 300 个示范性应用场景,数据产业年均增速超 20%
数据集相关:明确提出 "推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集",重点支持工业、农业、金融、医疗等领域高质量数据集开发
4. 关于促进数据产业高质量发展的指导意见(发改数据〔2024〕1836 号)
发布单位:国家发改委(2024 年 12 月)
数据集相关:推进 "一数一源",加强公共数据治理,加大共享开放力度,鼓励行业龙头企业开放数据,支持高质量数据集开发利用

四、标准规范体系(技术支撑)
1. 高质量数据集系列国家标准
正在制定:《高质量数据集 数据标注要求》(计划号 20256911-t-907)
核心内容:规范数据标注流程、质量要求、评估方法,为标注环节提供技术标准
2. 数据管理能力成熟度国家标准(DCMM)
核心作用:推动各部门各行业完善元数据管理、数据脱敏、数据质量、价值评估等标准体系,提升数据集治理水平
3. 人工智能高质量数据集建设指南(中国信通院,2025 年 7 月)
核心价值:提供 AI 领域高质量数据集建设的技术路径与最佳实践,聚焦数据采集、清洗、标注、验证等关键环节
五、政策协同与实施路径
多层次协同机制:形成国家数据局统筹、多部门协同、央地联动的工作格局,推动政策落地实施
重点领域突破:
人工智能领域:聚焦大模型训练数据集,提升数据集规模与质量
公共数据领域:推进政务数据共享开放,打造公共服务高质量数据集
行业应用领域:支持工业、医疗、金融等行业建设专业化高质量数据集
3.保障措施:
建立高质量数据集供需对接机制和平台,促进资源流通共享
探索跨域合作新模式,依托可信数据空间推动多领域数据集安全流通
加强人才培养,打造数据标注、数据治理等专业人才队伍

总结
我国高质量数据集相关政策法规呈现全面覆盖、重点突出、协同推进的特点,从法律层面确立安全底线,行政法规细化管理要求,政策文件明确发展方向,标准规范提供技术支撑。随着《高质量数据集建设指引》等文件的实施和系列国家标准的制定,我国高质量数据集建设将进入规范化、体系化发展新阶段,为数字经济高质量发展提供坚实数据基础。