当互联网上几乎所有公开文本都被爬取一空,大模型训练撞上了一堵看不见的墙——”数据墙”。这是中国信息通信研究院在2026年中给出的判断。与此同时,最高人民法院宣布完善数据权属裁判规则、网信部门将AI数据投毒列为重点整治对象、湖南大数据交易所落地亿元级标注订单——政策、司法、监管、产业四个层面同步发力,勾勒出中国AI数据行业正在经历的结构性重塑。本期新闻资讯从”数据墙”这一核心矛盾出发,梳理各方的回应与行动。
一、信通院:大模型撞上”数据墙”,合成数据成破局关键
中国信息通信研究院总工程师何宝宏在2026证券市场年会上指出,互联网公域数据已被消耗殆尽,模型预训练撞上”数据墙”。这不是一个远期预判,而是正在发生的现实——高质量文本数据的增速远赶不上模型参数规模的膨胀速度。
何宝宏提出三条破局路径:一是从公域走向私域,深度开发行业数据,这意味着拥有行业数据的机构(医院、银行、工厂)将成为AI产业链的关键节点;二是发展合成数据,通过传统算法与AI算法生成训练数据,但需控量使用以规避模型崩溃风险;三是提升数据质量,以先进数据工程优化已有数据品质,而非盲目追求规模。这三点判断与此后国家数据局的政策方向高度一致。
来源:证券日报
二、最高法宣布完善数据权属与AI生成物裁判规则
5月27日,最高人民法院在国新办发布会上宣布,将研究制定涉人工智能、数据产权的司法保护规范性文件,完善数据权属、数据交易、AI生成物等方面的裁判规则。这意味着数据要素的司法保障框架正在加速成型。
长期以来,”数据到底归谁”一直是数据交易的最大制度障碍。最高法的明确表态将推动数据确权从学术讨论走向司法实践。对于数据交易平台而言,更清晰的权属规则意味着更低的交易摩擦和更高的流通效率。
三、AI数据投毒被列为重点整治对象
网信部门宣布将重点整治AI相关乱象,其中包括大模型训练语料安全问题、AI数据投毒、生成合成内容标识落实不到位、滥用AI换脸拟声与数字虚拟人盗用形象等。
“数据投毒”是指攻击者通过篡改训练语料、伪造权威数据等手段,使模型在特定输入下产生恶意输出。随着大模型在金融、医疗等关键领域的应用深入,数据投毒正从技术攻击手段演变为系统性安全风险。将数据投毒纳入专项治理,说明监管层已认识到:AI安全不仅取决于算法本身,更取决于训练数据的完整性与可信度。
来源:新华社
四、湖南”模数共振”大会:亿元数据标注订单落地
5月13日,湖南大数据交易所举办全省高质量数据集供需对接大会。这是一场值得高度关注的活动——它代表了数据要素市场从政策文件走向真实交易的关键一步。
大会核心数据:现场达成意向合作6107万元,集中发布近1亿元数据标注订单,释放2012个AI数据人才席位。大会发布了全省首批25个高质量数据集先行先试名单,覆盖文旅、交通、医疗、农业、工业、能源等领域。长沙作为国家数据标注基地,带动相关产业产值已突破120亿元。湖南的模式可以看作中国数据要素市场化的一个缩影——以数据交易所为枢纽,以标注基地为支撑,以供需对接为驱动力。
来源:红网
五、广州天河:全省首个数据产业集聚区赋能中心成立
5月20日,全省首个”国家数据产业集聚区建设试点(广州天河)赋能中心”正式成立。该中心由天河区牵头,联合广州数据交易所、广东省交易控股集团等七方共建,构建企业培育、生态构建、要素流通、金融创新等九大核心能力。广州数据交易所提供产权登记与全周期合规保障,推动数据资产入表、评估、质押融资。
如果将湖南的模式理解为”交易驱动”,广州天河的模式则更像”服务驱动”——通过赋能中心为数据企业提供从登记到融资的全链条服务。两种模式各有侧重,但都指向同一趋势:数据要素市场正在从零散交易走向生态化运营。
来源:新黄河
六、江苏启动中小企业数据托管平台
5月19日,江苏省数据交易所启动”中小企业数据托管公共服务平台”,提供”托管+治理+服务+增值”一体化能力。同期清华大学发布《数据标注产业发展趋势与商业模式研究》报告,”数据智能联合创新实验室”揭牌成立。
数据基础设施正在从面向大企业向中小企业普惠化延伸,这是一个值得关注的信号——当数据要素市场的”长尾”需求被激活,市场规模的想象力将大幅提升。
来源:江苏省数据局
七、AI训练数据市场规模持续高增长
5月多份权威市场报告集中发布,为AI数据行业的规模提供了量化锚点:全球AI训练数据集市场规模2025年达到31.9亿美元,预计2033年增至163.2亿美元(CAGR 22.6%);合成数据生成市场2025年约2.91亿美元,预计2032年增至39亿美元(CAGR 45%);NASSCOM预测到2028年约80%的AI训练数据将来自合成数据。
这些数字背后有几个值得关注的驱动因素:一是多模态大模型对数据的需求量呈指数级增长;二是全球隐私合规压力(GDPR、CCPA、EU AI Act)迫使企业寻求合成数据等替代方案;三是自动驾驶、医疗影像等垂直场景对标注数据的需求持续井喷。
来源:GlobeNewswire、Research and Markets
八、合成数据学术研究突破:FLock.io论文入选ACL 2026
FLock.io关于合成数据生成的两篇论文分别入选ACL 2026主会议和Findings,研究解决合成数据生成中的多样性与准确性权衡难题,对医疗诊断、天气预测等数据稀缺领域具有重要意义。
同期arXiv发表《合成数据市场的经济学》论文,首次从微观经济学角度量化”模型崩溃”速率与最优数据溯源补贴机制——即当模型过度依赖合成数据训练时性能下降的速度有多快,以及如何通过追溯数据来源和补贴机制来维持数据生态健康。这一理论框架为合成数据产业提供了科学定价基础,标志着合成数据研究从”工程技术问题”走向”经济制度设计”。
数据星球·新闻资讯 – 典枢数据旗下AI数据行业栏目