欧盟剑指数据垄断：全球AI训练数据监管格局生变

2026-06-16
14:50

阅读量： 79

AI训练数据的监管，正在从各国的国内议题演变为全球博弈。2026年4月，欧盟祭出重拳——拟强制Google共享搜索数据以打破AI竞争壁垒；英国政府承诺制定训练数据透明度指引；美国学界对”数据护城河”理论提出系统性挑战。与此同时，开放语料库因AI爬虫过载而承压，数字公地治理提上议程。三条线索交织成一幅图景：训练数据不再只是技术和商业问题，它正在成为地缘政治、反垄断和公共治理的核心议题。本期新闻资讯从全球视角梳理这些变化。

一、欧盟拟强制Google共享搜索数据，打破AI竞争壁垒

欧盟委员会对Alphabet启动正式程序，拟强制要求Google将其搜索数据与竞争AI开发者共享，将搜索数据视为具有公共服务特性的资源。同时要求Google向竞争AI服务开放Android核心功能接口。若违反，罚款最高可达全球年营业额的10%（约307亿美元）。

这一事件的核心争议在于：搜索引擎的点击数据、查询数据、用户行为数据是否构成了Google Gemini等AI模型的”数据护城河”？欧盟的答案是肯定的。但这一逻辑也面临尖锐质疑——搜索数据中包含了大量用户隐私信息，强制共享将如何保护用户权益？这套做法的示范效应可能远超个案：如果搜索数据可以强制共享，社交数据（Meta）、电商数据（Amazon）是否也在共享之列？

来源：钛媒体

二、英国政府承诺制定AI训练数据透明度指引

英国议会议员提出书面质询，要求政府考虑对生成式AI开发者施加训练数据来源公开义务。英国政府于4月28日回应称，当前透明度实践水平参差不齐，将推进一项工作计划，帮助权利方控制和许可其作品的使用，包括依据《数据（使用和获取）法案2025》制定输入透明度的最佳实践指南。

英国的路径与欧盟不同——不是通过强制性法规，而是通过最佳实践指南来推动训练数据透明化。这种”软法”方式虽然在约束力上不如欧盟强硬，但可能更易于被行业接受，从而更快形成事实标准。

来源：英国议会

三、数据护城河理论遭遇挑战

美国竞争政策研究平台Truth on the Market发表深度分析，质疑AI反垄断中”数据护城河”理论的有效性。文章核心论点有三：其一，数据并非同质化资源，质量、上下文和领域特异性远比数量重要；其二，闭源与开源模型的性能差距已从2024年1月的8.04%缩小至2025年2月的1.70%，这表明高质量数据并非不可逾越的壁垒；其三，推理成本在两年内下降了280倍以上，使得后来者更容易弥补数据差距。

这场辩论对数据交易行业有直接启示：如果数据并非不可逾越的护城河，那么数据交易的价值主张就需要从”独占数据优势”转向”获取更高质量、更相关数据的能力提升”。

来源：Truth on the Market

四、AI团队开始将训练数据视为”资本资产”

InformationWeek报道，AI团队正越来越多地将训练数据视为资本资产——从法律风险、质量、生命周期价值和长期期权性四个维度进行评估。将数据视为”低成本输入”的时代正在终结。

这种思维转变的驱动力来自三个方面：一是版权诉讼风险加剧，未经授权使用训练数据的法律成本越来越高；二是高质量数据的获取成本在上升，互联网上的免费数据正在枯竭；三是数据质量直接决定模型性能天花板，劣质数据的边际成本远超想象。当训练数据被视为资本资产，企业的数据采购决策就会从”哪里便宜买哪里”转向”哪个来源的长期价值最高”——这对数据交易平台是结构性的利好。

来源：InformationWeek

五、开放语料库承压：数字公地治理提上议程

一项全景研究揭示，AI训练数据的需求正对开放策展馆藏造成巨大压力。自动化爬虫的访问量有时已超过人类访问量，导致服务器不堪重负；现有的反爬措施又经常被绕开。报告呼吁建立基于公地治理和互惠规范的治理模式，而非单纯依赖法律或技术手段解决开放数据可持续性问题。

这个问题在中国语境下同样存在——学术界、图书馆、博物馆等公共数据机构的资源被AI公司大量爬取，既给机构带来运维压力，也可能稀释公共数据的公益价值。如何平衡AI公司的数据需求与公共数据的可持续运营，是一个全球性的治理难题。

来源：Zenodo/Invest in Open Infrastructure

数据星球·新闻资讯 – 典枢数据旗下AI数据行业栏目

发表评论取消回复

要发表评论，您必须先登录。

欧盟剑指数据垄断：全球AI训练数据监管格局生变

一、欧盟拟强制Google共享搜索数据，打破AI竞争壁垒

二、英国政府承诺制定AI训练数据透明度指引

三、数据护城河理论遭遇挑战

四、AI团队开始将训练数据视为”资本资产”

五、开放语料库承压：数字公地治理提上议程

相关文章

MIT教会AI看图表碾压GPT-4o、港中大七模态数据集刺破VLM泡沫：7月数据集的”质量革命”

NVIDIA开源10T tokens、跨维智能发布跨源机器人数据集：AI数据进入开源爆发期

训练数据市场五年翻倍、Suno再遭版权诉讼：AI数据产业进入合规化拐点

28省市布局数据工厂、AI推理数据首超训练数据：AI数据进入”工业化”时代

合成数据市场爆发：2032年剑指39亿美元，CAGR达45%

AI数据投毒首次入刑整治：训练数据合规时代来临

Token经济来了：国家数据局探索新型数据交易模式

亿元订单落地长沙：数据标注产业加速崛起

大模型撞上”数据墙”：AI数据行业全景回顾

发表评论取消回复

关于典枢

下载与支持

服务协议

关于我们

官方公众号

技术交流群

欧盟剑指数据垄断：全球AI训练数据监管格局生变

一、欧盟拟强制Google共享搜索数据，打破AI竞争壁垒

二、英国政府承诺制定AI训练数据透明度指引

三、数据护城河理论遭遇挑战

四、AI团队开始将训练数据视为”资本资产”

五、开放语料库承压：数字公地治理提上议程

相关文章

发表评论 取消回复

发表评论取消回复