AI训练数据的供给与流通,正在成为中国人工智能产业最核心的基础设施课题。2026年6月,国家数据局正式发布行业高质量数据集建设方案,标志着数据要素市场从顶层设计步入系统性落地阶段。与此同时,中国联通亿元注码医疗AI数据、视觉中国赴港IPO转型数据供应商、合成数据质量危机浮出水面——多个信号交汇,指向同一个方向:AI训练数据的价值正在被重新定义。本期新闻资讯围绕政策、产业、资本、技术四条线,梳理这一轮变革的关键节点。
一、国家数据局发布行业高质量数据集建设方案
6月15日,国家数据局正式发布《关于推进行业高质量数据集建设行动的实施方案》,这是国家层面首次对数据赋能人工智能发展作出系统性部署。方案围绕数据扩容、标注提质、标准建设、场景应用、全生命周期管理、数据资产化部署了六项重点行动,覆盖金融、医疗、教育、制造等20多个重点领域以及具身智能、智能驾驶、低空经济等创新领域。方案首次提出探索以词元(Token)为基础的新型交易模式,并明确鼓励数据集在数据交易所挂牌交易,发展订阅模式、商场模式、定制模式等多元服务形态。
关键数据解读:
- 截至2026年一季度,全国已建成高质量数据集超过11.6万个,总量超过960PB——相当于国家图书馆数字资源总量的336倍。这一数字说明中国已经是全球最大的AI训练数据资源国之一,但数据孤岛、标准化不足等问题仍然突出,此次方案正是在这一背景下推出。
- 已建成7个国家级数据标注基地,累计形成524个行业高质量数据集,赋能163款国产大模型研发。数据标注从”低端劳动密集型”向”人机协同、专家深度参与”转型的政策导向已经明确。
- 中国日均词元调用量已突破140万亿,两年增长超千倍。摩根大通预测2025-2030年中国Token消耗量年复合增长率达330%,国产词元定价约为海外的十分之一。
二、中国联通亿元投向医疗AI数据赛道
中国联通设立超亿元医疗领域高质量数据集专项支持资金,面向医疗机构和生态伙伴,旨在打造行业高质量数据集、促成亿级医疗数据交易、孵化优质医疗AI应用与生态。目前基地已面向10余个专科专病领域打造行业高质量数据集超150TB,达成数据交易规模超千万元,服务医药研发管线30余项。
这一事件的产业信号远不止联通一家公司的投资行为。运营商级资本进入AI训练数据领域,意味着三件事:一是医疗数据作为高价值垂类的商业化路径正在加速成熟;二是”国家队”资本正在主动卡位AI基础设施的关键环节;三是数据交易的规模化正在从政策鼓励走向实质性落地。对于典枢等数据交易平台而言,这是一个明确的产业扩张信号。
三、视觉中国赴港IPO——传统版权商转型AI数据供应商
近日,视觉中国(000681)向港交所递交H股上市申请。这家以图片版权起家的公司,正经历一场深刻的业务转型。招股书显示其增值服务项下已出现向微软、阿里、腾讯、MiniMax等AI大厂提供训练数据的业务,募资首要用途也已变为”提升AI能力”。
视觉中国的转型具有标志性意义:它拥有超过7亿项版权清晰的内容资产,2025年内容授权业务收入虽同比下滑14.1%,但AI训练数据等增值服务已成为新增长点。其核心策略是将版权内容拆解为结构化数据,按次或按量卖给大模型厂商。这本质上是内容资产的”二次变现”——传统的内容授权模式走到了天花板,但AI训练数据需求为其打开了全新的估值空间。对于拥有版权内容资产的平台而言,视觉中国的路径值得深度关注。
来源:21世纪经济报道
四、合成数据产业面临质量危机与监管博弈
6月中旬,多起事件密集爆发,将合成数据推到聚光灯下:
- Hugging Face与Scale AI删除4000万行训练数据——起因是”不可逆的合成数据污染”,工程师担忧污染数据集中存在后门执行路径。这一事件动摇了业界对”以合成数据无限扩展训练规模”的信心。
- Burke发布FAR框架评估合成数据质量,测试结论令人警醒:80%准确率的LLM合成面板在约60%的商业场景中得出错误结论。这意味着当前合成数据的主流方案在商业关键场景中仍不可靠。
- 俄Sber的GigaChat训练数据中40%来自合成数据,但”模型崩溃”风险持续存在——研究显示仅5%的合成数据在训练流中即可显著降低模型准确率。
- 与此同时,世界未来科技发展峰会(伦敦)发布”可信AI语料发展与治理全球倡议”,由UCL、国际人工智能协会等联合署名,提出可验证来源、合法完整授权、事实准确性、伦理对齐、统一标准化、动态更新六大核心标准。合规工程平台FluxFormAI(方圆AI)同期发布。
合成数据正处于”技术潜力巨大但信任基础脆弱”的矛盾阶段。一方面不可否认其对数据稀缺场景的解决能力,另一方面质量失控的风险正在倒逼行业建立标准与监管框架。
来源:GitConnected、The AI Journal、新华财经
五、数据标注产业从劳动密集型向专家驱动转型
国家数据局在方案中明确推动标注从”以人为主”向”人机协同、专家深度参与”转变,推动首批7个数据标注先行先试城市,培育一批数据标注龙头企业、独角兽企业和瞪羚企业。国际方面,DataAnnotation强化专家驱动型数据标注模式,重点招募金融和技术领域专业人才,专家级标注员时薪达$50-$100+。行业正从低技能、大批量标注向高复杂度、高质量评估任务转型,这对数据服务的定价逻辑和质量标准都将产生深远影响。
六、数据资产化创新模式密集涌现
政策层面明确鼓励探索数据集质押融资、作价入股、资产证券化、数据信托、数据保险等多元资产化创新模式。最高法审判委员会专职委员刘贵祥同期表态,”十五五”时期将研究制定涉人工智能、数据产权的司法保护规范性文件,完善数据权属、数据交易、AI生成等方面的裁判规则。当数据可以质押、可以入股、可以保险,其资产属性就从理论走向了实操——这是数据要素市场成熟度提升的关键标志。
七、国际动态:DataMasque融资与HBR公平补偿框架
新西兰DataMasque完成US$400万融资(Wavemaker Ventures领投),其数据脱敏与合成数据平台自2023年以来实现6倍ARR增长,客户涵盖New York Life、ADP、Best Western等。这反映出在银行、保险、医疗等受监管行业中,使用合成数据解决隐私合规问题正成为刚需。
哈佛商业评论(HBR)同期发表训练数据公平补偿框架,利用数据混合权重与Scaling Laws估算数据占模型预训练价值的20%-50%,提出类ASCAP/BMI的集体管理组织(CMO)方案以管理数据补偿支付。这是主流商业学术期刊首次系统性地为训练数据定价提供理论依据,对数据交易行业的估值模型具有重要参考价值。
来源:Asia Tech Daily、Harvard Business Review
八、学术前沿:合成数据法律定位与StateGen平台
广东外语外贸大学苏杭在《比较法研究》发表论文,指出合成数据作为大模型训练数据的生产性来源在合规基础、内容质量与产业生态上具有功能优势,但法律定性与确权规则尚付阙如,建议明确合成数据作为独立数据类型的法律地位。
arXiv同日发布StateGen多智能体合成数据生成平台,通过强制执行”后端即真理”(backend-is-truth invariant)消除工具调用幻觉,在约65,000条对话测试中达到9.66/10的幻觉评分。学术与法律的双线推进,正在为合成数据从”可用”走向”可信”奠定基础。
总体来看,AI数据行业正经历政策密集出台、合成数据信任危机与资产化创新加速的三重叠加。对于产业链上的各方而言,合规能力、数据质量把控和资产化运营将成为未来竞争的核心维度。
数据星球·新闻资讯 – 典枢数据旗下AI数据行业栏目