大模型撞上”数据墙”：AI数据行业全景回顾

2026-06-16
14:45

阅读量： 99

当互联网上几乎所有公开文本都被爬取一空，大模型训练撞上了一堵看不见的墙——”数据墙”。这是中国信息通信研究院在2026年中给出的判断。与此同时，最高人民法院宣布完善数据权属裁判规则、网信部门将AI数据投毒列为重点整治对象、湖南大数据交易所落地亿元级标注订单——政策、司法、监管、产业四个层面同步发力，勾勒出中国AI数据行业正在经历的结构性重塑。本期新闻资讯从”数据墙”这一核心矛盾出发，梳理各方的回应与行动。

一、信通院：大模型撞上”数据墙”，合成数据成破局关键

中国信息通信研究院总工程师何宝宏在2026证券市场年会上指出，互联网公域数据已被消耗殆尽，模型预训练撞上”数据墙”。这不是一个远期预判，而是正在发生的现实——高质量文本数据的增速远赶不上模型参数规模的膨胀速度。

何宝宏提出三条破局路径：一是从公域走向私域，深度开发行业数据，这意味着拥有行业数据的机构（医院、银行、工厂）将成为AI产业链的关键节点；二是发展合成数据，通过传统算法与AI算法生成训练数据，但需控量使用以规避模型崩溃风险；三是提升数据质量，以先进数据工程优化已有数据品质，而非盲目追求规模。这三点判断与此后国家数据局的政策方向高度一致。

来源：证券日报

二、最高法宣布完善数据权属与AI生成物裁判规则

5月27日，最高人民法院在国新办发布会上宣布，将研究制定涉人工智能、数据产权的司法保护规范性文件，完善数据权属、数据交易、AI生成物等方面的裁判规则。这意味着数据要素的司法保障框架正在加速成型。

长期以来，”数据到底归谁”一直是数据交易的最大制度障碍。最高法的明确表态将推动数据确权从学术讨论走向司法实践。对于数据交易平台而言，更清晰的权属规则意味着更低的交易摩擦和更高的流通效率。

来源：新华社、中国新闻网、澎湃新闻

三、AI数据投毒被列为重点整治对象

网信部门宣布将重点整治AI相关乱象，其中包括大模型训练语料安全问题、AI数据投毒、生成合成内容标识落实不到位、滥用AI换脸拟声与数字虚拟人盗用形象等。

“数据投毒”是指攻击者通过篡改训练语料、伪造权威数据等手段，使模型在特定输入下产生恶意输出。随着大模型在金融、医疗等关键领域的应用深入，数据投毒正从技术攻击手段演变为系统性安全风险。将数据投毒纳入专项治理，说明监管层已认识到：AI安全不仅取决于算法本身，更取决于训练数据的完整性与可信度。

来源：新华社

四、湖南”模数共振”大会：亿元数据标注订单落地

5月13日，湖南大数据交易所举办全省高质量数据集供需对接大会。这是一场值得高度关注的活动——它代表了数据要素市场从政策文件走向真实交易的关键一步。

大会核心数据：现场达成意向合作6107万元，集中发布近1亿元数据标注订单，释放2012个AI数据人才席位。大会发布了全省首批25个高质量数据集先行先试名单，覆盖文旅、交通、医疗、农业、工业、能源等领域。长沙作为国家数据标注基地，带动相关产业产值已突破120亿元。湖南的模式可以看作中国数据要素市场化的一个缩影——以数据交易所为枢纽，以标注基地为支撑，以供需对接为驱动力。

来源：红网

五、广州天河：全省首个数据产业集聚区赋能中心成立

5月20日，全省首个”国家数据产业集聚区建设试点（广州天河）赋能中心”正式成立。该中心由天河区牵头，联合广州数据交易所、广东省交易控股集团等七方共建，构建企业培育、生态构建、要素流通、金融创新等九大核心能力。广州数据交易所提供产权登记与全周期合规保障，推动数据资产入表、评估、质押融资。

如果将湖南的模式理解为”交易驱动”，广州天河的模式则更像”服务驱动”——通过赋能中心为数据企业提供从登记到融资的全链条服务。两种模式各有侧重，但都指向同一趋势：数据要素市场正在从零散交易走向生态化运营。

来源：新黄河

六、江苏启动中小企业数据托管平台

5月19日，江苏省数据交易所启动”中小企业数据托管公共服务平台”，提供”托管+治理+服务+增值”一体化能力。同期清华大学发布《数据标注产业发展趋势与商业模式研究》报告，”数据智能联合创新实验室”揭牌成立。

数据基础设施正在从面向大企业向中小企业普惠化延伸，这是一个值得关注的信号——当数据要素市场的”长尾”需求被激活，市场规模的想象力将大幅提升。

来源：江苏省数据局

七、AI训练数据市场规模持续高增长

5月多份权威市场报告集中发布，为AI数据行业的规模提供了量化锚点：全球AI训练数据集市场规模2025年达到31.9亿美元，预计2033年增至163.2亿美元（CAGR 22.6%）；合成数据生成市场2025年约2.91亿美元，预计2032年增至39亿美元（CAGR 45%）；NASSCOM预测到2028年约80%的AI训练数据将来自合成数据。

这些数字背后有几个值得关注的驱动因素：一是多模态大模型对数据的需求量呈指数级增长；二是全球隐私合规压力（GDPR、CCPA、EU AI Act）迫使企业寻求合成数据等替代方案；三是自动驾驶、医疗影像等垂直场景对标注数据的需求持续井喷。

来源：GlobeNewswire、Research and Markets

八、合成数据学术研究突破：FLock.io论文入选ACL 2026

FLock.io关于合成数据生成的两篇论文分别入选ACL 2026主会议和Findings，研究解决合成数据生成中的多样性与准确性权衡难题，对医疗诊断、天气预测等数据稀缺领域具有重要意义。

同期arXiv发表《合成数据市场的经济学》论文，首次从微观经济学角度量化”模型崩溃”速率与最优数据溯源补贴机制——即当模型过度依赖合成数据训练时性能下降的速度有多快，以及如何通过追溯数据来源和补贴机制来维持数据生态健康。这一理论框架为合成数据产业提供了科学定价基础，标志着合成数据研究从”工程技术问题”走向”经济制度设计”。

来源：arXiv、KuCoin

数据星球·新闻资讯 – 典枢数据旗下AI数据行业栏目

发表评论取消回复

要发表评论，您必须先登录。

大模型撞上”数据墙”：AI数据行业全景回顾

一、信通院：大模型撞上”数据墙”，合成数据成破局关键

二、最高法宣布完善数据权属与AI生成物裁判规则

三、AI数据投毒被列为重点整治对象

四、湖南”模数共振”大会：亿元数据标注订单落地

五、广州天河：全省首个数据产业集聚区赋能中心成立

六、江苏启动中小企业数据托管平台

七、AI训练数据市场规模持续高增长

八、合成数据学术研究突破：FLock.io论文入选ACL 2026

相关文章

MIT教会AI看图表碾压GPT-4o、港中大七模态数据集刺破VLM泡沫：7月数据集的”质量革命”

NVIDIA开源10T tokens、跨维智能发布跨源机器人数据集：AI数据进入开源爆发期

训练数据市场五年翻倍、Suno再遭版权诉讼：AI数据产业进入合规化拐点

28省市布局数据工厂、AI推理数据首超训练数据：AI数据进入”工业化”时代

合成数据市场爆发：2032年剑指39亿美元，CAGR达45%

AI数据投毒首次入刑整治：训练数据合规时代来临

欧盟剑指数据垄断：全球AI训练数据监管格局生变

Token经济来了：国家数据局探索新型数据交易模式

亿元订单落地长沙：数据标注产业加速崛起

发表评论取消回复

关于典枢

下载与支持

服务协议

关于我们

官方公众号

技术交流群

大模型撞上”数据墙”：AI数据行业全景回顾

一、信通院：大模型撞上”数据墙”，合成数据成破局关键

二、最高法宣布完善数据权属与AI生成物裁判规则

三、AI数据投毒被列为重点整治对象

四、湖南”模数共振”大会：亿元数据标注订单落地

五、广州天河：全省首个数据产业集聚区赋能中心成立

六、江苏启动中小企业数据托管平台

七、AI训练数据市场规模持续高增长

八、合成数据学术研究突破：FLock.io论文入选ACL 2026

相关文章

发表评论 取消回复

发表评论取消回复