2026年6月,AI数据行业正在经历一场从”资源”到”基础设施”的深层转变。”数据工厂”概念首次进入政策视野——全国28个省市将其列为年度工作重点;AI推理数据量首次超越训练数据量,标志着AI从”建设期”进入”运营期”;杭州高端数据标注基地开园、蚂蚁集团入股合成数据公司光轮智能——产业资本正在加速卡位。与此同时,全球AI数据市场白皮书揭示了一个被低估的数字:广义AI数据市场规模已达100-160亿美元。本文围绕数据基础设施、产业资本与市场格局三条线,梳理最新动态。
一、”数据工厂”写入28省市年度计划:AI数据进入工业化生产时代
北京航空航天大学张向宏教授在《人民日报》发表文章指出,全国已有28个省、市将数据工厂建设列为2026年工作重点。这一概念的提出,标志着AI训练数据的供给方式正在发生根本性转变——从”手工作坊式”的零散采集,走向”工业化”的规模化生产。
数据工厂有四种主要建设模式:一是数据标注企业向上游升级,将标注能力产品化为标准化数据产出;二是算力工厂向数据侧延伸,利用计算资源生成合成数据;三是AI企业将内部数据业务剥离为独立的数据工厂,对外输出数据能力;四是由技术创新型企业从零搭建数据工厂。四种模式的核心共同点在于:数据生产正在从”项目制”(按需采集、一次性交付)转变为”产品制”(持续生产、标准化交付)。
这一转变对数据交易平台的意义在于:当数据供给进入工业化时代,数据的标准化程度和可交易性将大幅提升。过去”数据非标品难以规模化交易”的痛点,可能在数据工厂模式下找到解决方案。
来源:人民日报
二、历史性转折:AI推理数据量首次超越训练数据量
张向宏在文章中还披露了一组关键数据:2025年国内AI推理数据量达101.34EB,首次超越训练数据量(98.14EB)。这一数字看似技术细节,实则是AI产业进入新阶段的标志性信号。
过去几年,AI行业的重心始终在”训练”——更大的模型、更多的参数、更海量的训练数据。但2025年的这个转折点意味着:AI的消耗结构正在从”建设期”切换为”运营期”。推理数据的增长说明模型已经大规模投入使用,每一次用户交互、每一次API调用都在产生新的数据。这些推理数据如果被有效回收和利用,又可以反哺模型优化——这就是业界所说的”数据飞轮”。对于数据交易平台而言,推理数据的回收、清洗和再交易是一个待开发的增量市场。
来源:人民日报
三、杭州高端数据标注基地开园:火山引擎入局AI基础设施
AI产业”两基地一平台”正式落地杭州上城区,涵盖高端数据标注基地、AI人才实训基地和算力服务平台。火山引擎作为核心参与方,将自身的AI能力和算力资源注入这一基础设施。这是继长沙、广州、重庆之后,又一个重要城市将数据标注基地建设纳入城市数字经济战略。
杭州的加入意味着数据标注基地的全国布局正在从”政策试点”走向”市场化运营”。杭州的优势在于:作为电商之都和数字经济的先行者,杭州拥有丰富的数据应用场景(电商、金融、支付、物流等),这些场景的AI需求直接转化为对高质量标注数据的采购需求。火山引擎作为平台方入局,也说明互联网大厂正在将数据标注视为AI基础设施的关键拼图,而非简单的外包服务。
来源:新华网
四、蚂蚁集团入股光轮智能:合成数据赛道资本升温
蚂蚁集团全资子公司上海云玚企业管理咨询有限公司入股光轮智能,这家成立于2023年的合成数据公司专注于为自动驾驶和具身智能提供物理精确可控的合成数据。蚂蚁的入局,是继此前美团、腾讯、高瓴等机构密集投资具身智能后,互联网巨头在AI数据基础设施领域的又一重要布局。
光轮智能的技术路线代表了一条与Scale AI等”人工标注派”不同的路径:通过仿真引擎和生成式AI自动生成带有精确标注的训练数据,大幅降低对人工标注的依赖。在自动驾驶和具身智能领域,真实数据的采集成本极高(需要真车上路、真人穿戴遥操作设备),合成数据几乎是唯一能在成本和规模之间取得平衡的方案。蚂蚁选择在此时入局,看中的是合成数据赛道即将进入爆发期——据艺恩《2026全球大模型数据市场白皮书》,合成数据市场2025年规模已达32亿美元,2030年预计达到171亿美元(CAGR 35.3%),是AI数据赛道中增长最快的细分领域。
来源:财联社
五、Scale AI的”中立性困境”:数据服务商的生存法则
2025年6月,Meta以143亿美元收购Scale AI 49%股份,估值飙升至290亿美元,创始人Alexandr Wang离职加入Meta。这本应是Scale AI的高光时刻——全球最大AI数据公司、年化收入接近10亿美元、客户囊括OpenAI和Anthropic。
但事情正在起变化。Meta入股后,由于数据机密性的顾虑,Google、OpenAI等客户开始削减与Scale AI的合作。竞争格局的洗牌正在发生:Surge AI估值升至250亿美元、Mercor估值突破100亿美元,这些竞争对手以”中立第三方”的姿态抢走了原本属于Scale AI的订单。Scale AI的困境揭示了一个重要规律:在AI数据服务行业,中立性比规模更重要。当你的数据标注供应商同时是你竞争对手的股东时,训练数据的安全和机密性就难以保障。这对于中国AI数据服务商同样具有警示意义——在处理客户数据时,独立的第三方身份可能比大厂背景更具竞争力。
来源:xix.ai
六、全球AI数据市场白皮书:一个被低估的百亿级赛道
艺恩发布的《2026全球大模型数据市场白皮书》给出了一个被大多数人低估的数字:广义AI训练数据市场规模(含采集标注、RLHF、合成数据)2024年已达60-90亿美元,2025年增长至100-160亿美元,年均复合增速20%-35%。这与通常引用的”仅30亿美元”的狭义口径(仅计算数据集交易)形成了鲜明对比。
白皮书的核心判断值得关注:公开人类文本语料预计在2026-2032年耗尽(中位预测为2028年),行业重心将从”堆砌数据规模”转向”深耕数据质量、垂直专业度与多模态数据”;2030年合成数据使用规模将超越真实数据;合规正在成为行业核心护城河——全球AI版权诉讼已超50起,欧盟AI法案将于2026年8月全面适用。这组数据为AI数据行业的长期投资价值提供了量化的支撑:一个百亿美元级别的市场,正在以20%以上的年增速扩张,且距离天花板还有相当远的距离。
来源:艺恩/搜狐
七、韩国Skai Worldwide获融资:工业机器人合成数据需求爆发
韩国Skai Worldwide Intelligence获得DS Investment Partners的Series A轮融资。这家公司基于数字孪生技术为工业机器人生成合成训练数据,覆盖制造、物流和自动化场景。Gartner预测到2029年,物理环境AI代理生成的数据将是所有数字AI应用的10倍。
Skai的案例反映了合成数据赛道的一个新趋势:从”为AI模型生成训练数据”扩展为”为物理世界的AI代理(机器人、自动驾驶、IoT设备)生成运行数据”。当机器人开始大规模部署时,它们需要的不仅是训练数据,还有持续的运行数据来优化实时决策。工业场景的合成数据需求,可能成为比大模型训练数据更具规模的市场。
来源:朝鲜商业
数据星球·新闻资讯 – 典枢数据旗下AI数据行业栏目