国数科基〔2026〕25 号 · 2026 年 6 月 8 日发布 · 六大专项行动 · 24 个重点领域 · 2028 年全覆盖
🔥 一、政策背景:数据——AI 时代的"新石油"
2026 年 6 月 3 日,国家数据局正式签发 《关于推进行业高质量数据集建设行动的实施方案》(国数科基〔2026〕25号),6 月 8 日面向全社会公开发布。这是继 5 月 19 日《2026 年数字经济发展工作要点》之后,国家数据局在"数据要素价值释放年"打出的第二张王牌。
三个关键定位
"十五五"规划落地 —— 作为"十五五"开局之年的核心数据政策
"AI+"行动深化 —— 将《数字经济发展工作要点》中的"6 大专项行动"具体化、可执行化
数据要素价值释放 —— 从"数据能做什么"进入"数据如何变现"的新阶段
政策发布链条
2026.2 ── 72 家链主企业签署任务书 ──→ 确立行业数据建设主力军
2026.5.19 ── 2026 年数字经济发展工作要点 ──→ 提出 6 大专项行动框架
2026.5.19 ── 广州高质量数据集建设现场会 ──→ 刘烈宏现场部署
2026.6.8 ── 本实施方案正式发布 ──→ 6 大行动细节落地🔑 一句话定位: 这是中国首份针对"行业高质量数据集建设"的完整实施方案,相当于给 AI 时代的"新石油"——数据,制定了从勘探开采到加工提炼再到流通变现的全链条标准。
📊 二、当前家底:116,000+ 数据集,960+ PB
在实施方案发布的同时,国家数据局披露了一组惊人的数据:
也就是说,在方案出台前,中国已经建成了近 12 万个高质量数据集。这份方案的核心不是"从零开始",而是标准化、体系化、市场化——把这 12 万个数据集从"能用"推向"好用"和"用得值"。

🎯 三、六大专项行动:从数据到价值的完整闭环
行动 1️⃣ 强基扩容 —— 铺摊子
覆盖 24 个重点领域:
数据模态全覆盖:文本、代码、图像、音频、视频、点云、时序、科学数据,以及知识图谱、本体等结构化知识形态。
🔑 核心机制:链主企业带动模式——72 家链主企业签署任务书,形成"联合体"驱动整条产业链的数据建设,并鼓励向链上中小企业开放数据和服务。
行动 2️⃣ 标注攻坚 —— 破瓶颈
这是 6 大行动中最受关注的一项。 数据标注中国大模型发展的关键瓶颈,方案提出的改革方向是:
7 个标注试点城市继续深化发展,并培育一批标注领域的领军企业、独角兽、瞪羚企业。
行动 3️⃣ 提质增效 —— 定标准
核心创新: 建立 AI-Ready 数据集质量评估标准。
🔑 政策含金量最高的一句话: "一次测评、全国互认"——一个数据集只要通过国家规定的测评,在全国范围内都认可,避免了重复评估的麻烦。
同时提到合成数据技术作为解决真实数据稀缺和高成本问题的重要补充手段。
行动 4️⃣ 应用赋能 —— 促闭环
核心概念:数据飞轮
场景驱动数据 → 数据驱动模型 → 模型赋能应用 → 应用创造价值 → 回到场景方案提出建设数据赋能工厂——集数据处理、流通、模型训练支持于一体的新型基础设施,并打造一批数据赋能 AI Agent 的标杆案例。
还提到通过 "政产学研用金" 平台、供需对接会、创新竞赛等方式,构建产业生态。
行动 5️⃣ 管理服务 —— 建平台
核心工程:国家数据集管理服务系统
管理架构设计为 "物理分散、逻辑集中" ——数据保留在各行业各机构,但通过统一的管理服务系统实现统筹管理。
关键支撑技术:
隐私计算
区块链存证
数据全生命周期管理(采集→清洗→标注→质检→评估→迭代→审计)
数据权属方面,明确落实数据持有权、使用权、经营权"三权分置",并研究合成数据、版权数据用于训练的授权机制。
行动 6️⃣ 价值释放 —— 变现
这是六项行动中最具市场想象力的一项。
🔥 最值得关注: "Token 经济"正式进入国家政策文本——数据正在从"一锤子买卖"变成"按量计费"的新型资产,这是中国数据要素市场的重大突破。
🏢 四、参与主体:27 个部委 + 72 家链主 + 9 大试点
中央层面
企业层面
地方层面
7 个数据标注试点城市继续深化
分层标注创新试验区(逐步推广)
各省级数据管理部门承担落地责任
⏰ 五、时间表:2028 年建成完整体系
🌍 六、行业影响分析
对不同行业的直接冲击
对企业的影响

📌 七、总结
《关于推进行业高质量数据集建设行动的实施方案》 是中国数据要素市场建设的一座里程碑。它以 6 大专项行动 为框架、24 个重点领域 为范围、2028 年 为时间节点,试图解决中国 AI 产业发展中"算力够用、算法不缺、数据不够好"的核心矛盾。
三个最大亮点
🏆 Token 经济首次入策——数据从"卖资产"走向"按量计费"
🏆 一次测评、全国互认——消除数据流转的制度壁垒
🏆 标注攻坚上升为国策——7 个试点城市 + 人机协作标注革命
一句话总结
这是中国 AI 产业从"拼算力"转向"拼数据质量"的标志性政策文件。当 116,000 个数据集完成 AI-Ready 标准化改造,中国大模型的训练效率将迎来质的飞跃。
欢迎访问 小易撩挨踢