《高质量数据集建设指引》(国数发〔2025〕18 号)于 2025 年 8 月 28 日在 2025 中国国际大数据产业博览会正式发布,由国家数据局指导,中国信息通信研究院、国家数据发展研究院等单位联合编制。本指引提出 "1+1" 核心参考路径 (一套建设方法 + 一套运营体系),构建覆盖全流程、贯通各环节的高质量数据集建设格局,旨在解决数据采集、处理、标注和应用中的无序状态,推动数据资源从 "能用" 向 "好用" 转变。

一、建设背景:战略定位与发展必然性
1. 战略背景:数据成为核心生产要素
国家战略高度重视:习近平总书记指出 "人工智能作为引领新一轮科技革命和产业变革的战略性技术,深刻改变人类生产生活方式",强调 "我国数据资源丰富,产业体系完备,应用场景广阔,市场空间巨大"
政策密集支持:"十五五" 规划纲要提出 "深化数据资源开发利用",《国务院关于深入实施 "人工智能 +" 行动的意见》明确 "加强数据供给创新,以应用为导向持续加强人工智能高质量数据集建设"
技术发展迫切需求:生成式 AI 快速发展使高质量数据集成为核心稀缺要素,基础模型训练与行业应用落地均依赖大规模、高质量、多样化数据支撑
2. 概念内涵与分类
高质量数据集定义:具备高价值、大规模、多样性特征,可直接或间接用于人工智能模型训练、优化和验证,符合合规性、安全性要求的数据集合,是数据要素合规流通、价值变现的基础载体。
3. 建设现状与挑战
全球现状:通识数据集建设以美国、欧盟为主导,行业数据集在自动驾驶、医疗健康等领域快速发展
我国现状:
区域建设:北京、上海、广东等地区率先布局,形成数据要素市场试点
行业建设:金融、医疗、制造等领域数据资源丰富,但存在 "数据孤岛" 现象
核心挑战:
数据质量参差不齐,准确性、完整性、一致性难以保障
标准体系缺失,跨部门、跨行业数据难以互通共享
合规风险突出,数据安全、隐私保护与流通利用平衡难度大
建设成本高,数据采集、标注、治理投入产出比不均衡
二、应用需求:分层分类的精准数据供给
1. 基础认知层数据集需求
应用目标:建立全面的基础认知框架,支撑模型形成世界基本认知能力
数据内容:海量、多源、异构数据,覆盖文本、图像、音频、视频等多种形态,强调数据规模与多样性
质量要求:基础质量指标(准确性、完整性、一致性)达标,覆盖广度优先,支持模型学习通用概念与规律
典型应用:通用大模型预训练,奠定模型基础能力,如语言理解、图像识别等
2. 场景理解层数据集需求
应用目标:实现复杂场景结构解析与深层理解,掌握场景中实体关系、语义逻辑和事件过程
数据内容:精细化标注数据,包含实体属性、状态、相互关系等语义信息,支持模型进行复杂推理
质量要求:语义完整性与逻辑一致性优先,标注精确性要求高,能区分相似但不同的概念、动作或关系
典型应用:自动驾驶场景理解、医疗影像诊断、智能客服意图识别等复杂理解任务
3. 行动规划层数据集需求
应用目标:掌握完整的推理决策链条,支持模型规划执行具体行动,实现价值对齐
数据内容:包含完整推理过程、决策依据、行动步骤的数据,强调数据的时序性与因果关系
质量要求:推理严密性与价值对齐优先,确保模型决策符合伦理规范与业务规则
典型应用:工业机器人路径规划、智能城市交通调度、金融投资决策系统等智能决策场景
三、建设方法论:全流程标准化建设路径
1. "1+1" 核心参考路径
指引提出高质量数据集建设的核心路径为一套建设方法 + 一套运营体系,通过标准化流程降低数据集应用门槛,实现从 "数据资源" 到 "数据资产" 的转变。
2. 两种典型建设模式
3. 六大核心建设环节(全生命周期管理)
(1)数据需求:明确建设目标与边界
需求调研:识别业务场景、用户群体、应用目标,明确数据范围、内容、可用性与质量模型
需求分析:将业务需求转化为数据需求,建立需求优先级排序,形成需求规格说明书
需求确认:与业务方、技术方、数据方三方确认,确保需求无歧义、可实现
(2)数据规划:设计数据架构与实施路径
数据架构设计:确定数据模型、存储结构、访问方式,考虑数据扩展性与兼容性
实施计划制定:明确时间节点、责任主体、资源需求,制定风险应对预案
标准规范制定:统一数据格式、编码规则、元数据标准,确保数据一致性
(3)数据采集:多源数据整合与获取
采集方式选择:复用现有数据、生成合成数据、新采集数据(传感器、爬虫、API 等)
采集质量控制:测试优化采集方法,设置采集频率、数据量阈值,确保数据时效性与完整性
合规性保障:遵循数据安全法、个人信息保护法,获得数据授权,确保数据来源合法合规
(4)数据预处理:提升数据可用性
数据转换:统一数据格式、编码方式,实现跨系统数据兼容
数据验证:检查数据正确性、合规性,识别异常值、缺失值
数据清洗:修正错误数据、填补缺失值、去除重复数据,提升数据准确性
数据聚合:合并多源数据集,建立数据关联关系,形成完整数据视图
(5)数据标注:为 AI 模型提供监督信号
标注规范制定:明确标注任务范围、标注标准、标注示例,确保标注一致性
标注资源配置:选择合适标注人员(内部团队、专业机构、众包平台),配置标注工具
标注质量管理:建立标注审核机制,采用 "标注 - 审核 - 抽检" 流程,确保标注质量
标注效率提升:引入自动化标注工具、预标注技术,降低人工成本
(6)模型验证:评估数据集应用效果
模型训练:将数据集用于目标模型训练,记录训练过程与参数设置
性能评估:使用测试集评估模型准确率、召回率、F1 值等指标,判断数据集有效性
迭代优化:未达预期时,分析数据质量问题,返回数据采集、预处理或标注环节优化
效果验证:在真实场景中测试模型应用效果,确保数据集满足实际业务需求
4. 五大核心技术支撑
5. 质量评价体系:数据质量的保障机制
(1)质量评价核心指标
(2)质量评价实施流程
评价准备:明确评价目标、范围、指标权重,制定评价方案
数据采样:选取代表性样本,确保样本覆盖所有数据类型与场景
指标计算:按照评价方案计算各项质量指标,生成质量报告
问题分析:识别数据质量问题根源,提出针对性改进措施
优化迭代:实施改进措施,重新评价,形成闭环管理
四、运营体系:构建数据集可持续发展机制
1. 体系规划:战略蓝图与顶层设计
核心目标:建立 "需求响应及时、成本精准可控、质量安全可信、生态价值共创" 的运营体系
关键任务:
目标定位:明确数据集战略定位、应用场景与价值目标,与业务战略对齐
组织架构:建立跨部门数据治理委员会,明确数据所有者、管理者、使用者职责分工
标准体系:制定数据采集、处理、标注、存储、共享等全流程标准规范
制度保障:建立数据安全、隐私保护、质量管控、价值分配等制度流程
2. 工程建设:基础设施与能力支撑
核心任务:
数据工厂建设:搭建数据采集、处理、标注、存储一体化平台,实现自动化、规模化数据生产
工具链建设:配置数据质量检测工具、标注工具、版本管理工具、安全审计工具等
算力支撑:提供充足算力资源,满足大规模数据处理与模型训练需求
安全保障:构建数据安全防护体系,包括数据加密、访问控制、安全审计、隐私计算等
3. 运营管理:全生命周期精细化运营
(1)需求响应管理:以用促建
建立需求反馈机制,实时收集用户需求,快速响应业务变化
定期开展数据集应用评估,根据用户反馈优化数据集内容与质量
建立数据集版本迭代机制,支持用户按需选择不同版本数据
(2)成本精细化管理:降本增效
建立成本核算体系,量化数据采集、处理、标注、存储等各环节成本
优化资源配置,优先投入高价值数据建设,降低低价值数据成本
引入自动化工具,提高数据处理效率,降低人工成本
(3)质量与安全维护:长效保障
建立数据质量监控系统,实时检测数据异常,及时预警并处理
定期开展数据质量评估,形成质量报告,持续优化数据质量
加强数据安全管理,定期进行安全审计,防范数据泄露风险
建立数据备份与恢复机制,确保数据可用性与完整性
(4)生态协同发展:价值共创
制定分级共享策略,基础数据集通过数据交易所或开源社区开放,专有数据集通过可信数据空间共享
建立数据价值分配机制,明确数据提供者、处理者、使用者权益,实现多方共赢
推动行业标准制定,促进跨行业数据流通与应用,构建数据生态系统
五、推进思路:体系化、设施化、生态化发展路径
1. 体系化布局高质量数据集建设
统筹规划:结合国家战略与行业需求,制定高质量数据集建设总体规划,避免重复建设
分类推进:针对不同行业、不同场景,采用差异化建设策略,优先发展关键领域数据集
标准引领:加快高质量数据集标准体系建设,推动数据标准统一,提升数据互通性
2. 设施化推进高质量数据集应用
数据基础设施建设:建设数据中心、数据交易所、可信数据空间等基础设施,支撑数据流通利用
数据服务平台建设:搭建数据集目录、数据服务接口、数据质量评估等平台,降低数据应用门槛
数据安全保障设施:部署数据安全防护、隐私计算、安全审计等设施,保障数据安全合规
3. 生态化赋能高质量数据集发展
政策支持:出台财政、税收、人才等支持政策,鼓励企业参与高质量数据集建设
人才培养:建立数据工程师、数据标注师、数据治理专家等人才培养体系,提升专业能力
产业协同:推动数据供给方、技术服务商、应用需求方协同合作,构建数据产业生态
国际合作:积极参与全球数据治理,推动数据标准互认,促进跨境数据安全流通

六、核心价值与实践意义
筑牢 AI 发展根基:为人工智能模型训练提供高质量数据支撑,提升模型性能与可靠性
释放数据要素价值:推动数据资源从 "沉睡" 到 "活化",促进数据要素市场化配置
支撑产业数字化转型:为各行业智能化升级提供数据底座,提升产业竞争力
保障数据安全合规:建立全流程质量与安全管控体系,平衡数据利用与安全保护
《高质量数据集建设指引》的发布标志着我国数据要素建设进入标准化、体系化发展新阶段,为政府、企业、科研机构开展高质量数据集建设提供了权威指导,将有力推动我国人工智能与实体经济深度融合,为数字经济高质量发展注入新动力。
原文链接
欢迎访问 小易撩挨踢