易君召
易君召
发布于 2026-06-08 / 3 阅读
0
0

🧠 国家数据局重磅出手:行业高质量数据集建设实施方案全解读

国数科基〔2026〕25 号 · 2026 年 6 月 8 日发布 · 六大专项行动 · 24 个重点领域 · 2028 年全覆盖

🔥 一、政策背景:数据——AI 时代的"新石油"

2026 年 6 月 3 日,国家数据局正式签发 《关于推进行业高质量数据集建设行动的实施方案》(国数科基〔2026〕25号),6 月 8 日面向全社会公开发布。这是继 5 月 19 日《2026 年数字经济发展工作要点》之后,国家数据局在"数据要素价值释放年"打出的第二张王牌

三个关键定位

  1. "十五五"规划落地 —— 作为"十五五"开局之年的核心数据政策

  2. "AI+"行动深化 —— 将《数字经济发展工作要点》中的"6 大专项行动"具体化、可执行化

  3. 数据要素价值释放 —— 从"数据能做什么"进入"数据如何变现"的新阶段

政策发布链条

2026.2 ── 72 家链主企业签署任务书 ──→ 确立行业数据建设主力军
2026.5.19 ── 2026 年数字经济发展工作要点 ──→ 提出 6 大专项行动框架
2026.5.19 ── 广州高质量数据集建设现场会 ──→ 刘烈宏现场部署
2026.6.8 ── 本实施方案正式发布 ──→ 6 大行动细节落地

🔑 一句话定位: 这是中国首份针对"行业高质量数据集建设"的完整实施方案,相当于给 AI 时代的"新石油"——数据,制定了从勘探开采到加工提炼再到流通变现的全链条标准。

📊 二、当前家底:116,000+ 数据集,960+ PB

在实施方案发布的同时,国家数据局披露了一组惊人的数据:

指标

数值

已建成高质量数据集

116,000+ 个

总数据量

960+ PB

日均 Token 调用量

140 万亿+

覆盖行业

19 个关键领域 + 5 个创新领域

链主企业

72 家(2026 年 2 月签约)

也就是说,在方案出台前,中国已经建成了近 12 万个高质量数据集。这份方案的核心不是"从零开始",而是标准化、体系化、市场化——把这 12 万个数据集从"能用"推向"好用"和"用得值"。

🎯 三、六大专项行动:从数据到价值的完整闭环

行动 1️⃣ 强基扩容 —— 铺摊子

覆盖 24 个重点领域:

关键领域(19 个)

创新领域(5 个)

科学研究、工业制造、农业农村

低空经济 🚁

智慧能源、交通运输、金融服务

具身智能 🤖

医疗卫生、教育教学、电子商务

智能驾驶 🚗

人力资源、文化旅游、应急管理

智慧海洋 🌊

气象服务、绿色低碳、公共安全

生物制造 🧬

城市治理、住房建设、自然资源、社会信用


数据模态全覆盖:文本、代码、图像、音频、视频、点云、时序、科学数据,以及知识图谱、本体等结构化知识形态。

🔑 核心机制:链主企业带动模式——72 家链主企业签署任务书,形成"联合体"驱动整条产业链的数据建设,并鼓励向链上中小企业开放数据和服务。

行动 2️⃣ 标注攻坚 —— 破瓶颈

这是 6 大行动中最受关注的一项。 数据标注中国大模型发展的关键瓶颈,方案提出的改革方向是:

转变方向

传统模式

新模式

标注方式

纯人工标注

人机协作(模型预标注+人工校准)

标注效率

慢、贵、一致性差

模型预标注 + 模型验证的智能标注

人才体系

无专业认证

大学开设标注课程 + 职业技能认证

产业布局

分散无序

7 个试点城市 + 分层标注创新试验区


7 个标注试点城市继续深化发展,并培育一批标注领域的领军企业、独角兽、瞪羚企业

行动 3️⃣ 提质增效 —— 定标准

核心创新: 建立 AI-Ready 数据集质量评估标准

维度

评估要求

结构完备性

数据格式统一、字段完整

内容多样性

覆盖足够多的场景和边缘案例

标注准确性

标注错误率低于行业阈值

模型适配性

能直接用于模型训练和微调

🔑 政策含金量最高的一句话: "一次测评、全国互认"——一个数据集只要通过国家规定的测评,在全国范围内都认可,避免了重复评估的麻烦。

同时提到合成数据技术作为解决真实数据稀缺和高成本问题的重要补充手段。

行动 4️⃣ 应用赋能 —— 促闭环

核心概念:数据飞轮

场景驱动数据 → 数据驱动模型 → 模型赋能应用 → 应用创造价值 → 回到场景

方案提出建设数据赋能工厂——集数据处理、流通、模型训练支持于一体的新型基础设施,并打造一批数据赋能 AI Agent 的标杆案例。

还提到通过 "政产学研用金" 平台、供需对接会、创新竞赛等方式,构建产业生态。

行动 5️⃣ 管理服务 —— 建平台

核心工程:国家数据集管理服务系统

管理架构设计为 "物理分散、逻辑集中" ——数据保留在各行业各机构,但通过统一的管理服务系统实现统筹管理。

关键支撑技术:

  • 隐私计算

  • 区块链存证

  • 数据全生命周期管理(采集→清洗→标注→质检→评估→迭代→审计)


数据权属方面,明确落实数据持有权、使用权、经营权"三权分置",并研究合成数据、版权数据用于训练的授权机制。

行动 6️⃣ 价值释放 —— 变现

这是六项行动中最具市场想象力的一项。

变现方式

说明

数据交易所挂牌

在各地数据交易所上架交易

商业模式创新

订阅制、商城制、定制化——从卖数据集到卖 API 调用

Token 交易 🏆

探索以 Token 作为可量化、可定价的价值单元

数据资产化

数据质押融资、作价入股、资产证券化、数据信托、数据保险

按需付费共识

政府/国企/模型企业带头,将数据采购纳入预算

🔥 最值得关注: "Token 经济"正式进入国家政策文本——数据正在从"一锤子买卖"变成"按量计费"的新型资产,这是中国数据要素市场的重大突破。

🏢 四、参与主体:27 个部委 + 72 家链主 + 9 大试点

中央层面

角色

机构

⭐ 牵头

国家数据局

协同

国务院国资委、国家发改委、工信部、教育部、央行、公安部等 27 个部委

企业层面

类型

角色

72 家链主企业

带头建设行业数据集、带动产业链

模型企业

需求方——"数据消费者"

高校/科研院所

供给方——专业数据生产

数据服务商

加工方——标注、质检、流通

地方层面

  • 7 个数据标注试点城市继续深化

  • 分层标注创新试验区(逐步推广)

  • 各省级数据管理部门承担落地责任

⏰ 五、时间表:2028 年建成完整体系

节点

目标

2026 年 Q1(已完成)

116,000+ 数据集、960+ PB 基础基线

2026 年 Q2(本方案发布)

建立标准框架,启动标杠试点

2027 年

全面推进六大行动,培育标杆案例

2028 年底

数据供给到价值释放的体系基本形成,数据产业与 AI 深度融合

🌍 六、行业影响分析

对不同行业的直接冲击

行业

政策影响

🤖 AI 大模型公司

高质量训练数据供给增加,标注成本降低,最大受益方

🏭 制造业

工业数据集标准化,智能质检、预测性维护加速落地

🚗 智能驾驶

列为 5 大创新领域之一,点云、时序数据建设加速

🚁 低空经济

首次纳入国家级数据建设体系

💰 金融业

金融风控数据标准化,数据资产质押融资成为可能

🏥 医疗健康

医疗数据集标准统一,AI 辅助诊断数据壁垒降低

🗺️ 数据交易机构

Token 交易模式打开新市场空间

对企业的影响

如果你是...

机会

数据标注公司

7 个试点城市 + 智能标注改革,产业升级窗口

企业 IT 部门

链主企业开放数据,中小企业接入门槛降低

数据科学家

AI-Ready 标准统一,跨行业数据可复用性大幅提升

投资机构

数据资产质押融资、数据信托等新型金融工具出现

📌 七、总结

《关于推进行业高质量数据集建设行动的实施方案》 是中国数据要素市场建设的一座里程碑。它以 6 大专项行动 为框架、24 个重点领域 为范围、2028 年 为时间节点,试图解决中国 AI 产业发展中"算力够用、算法不缺、数据不够好"的核心矛盾。

三个最大亮点

  1. 🏆 Token 经济首次入策——数据从"卖资产"走向"按量计费"

  2. 🏆 一次测评、全国互认——消除数据流转的制度壁垒

  3. 🏆 标注攻坚上升为国策——7 个试点城市 + 人机协作标注革命

一句话总结

这是中国 AI 产业从"拼算力"转向"拼数据质量"的标志性政策文件。当 116,000 个数据集完成 AI-Ready 标准化改造,中国大模型的训练效率将迎来质的飞跃。


原文链接 https://www.yijunzhao.cn/archives/national-data-administration-high-quality-dataset-construction-plan

欢迎访问 小易撩挨踢

https://www.yijunzhao.cn/


评论