欧盟剑指数据垄断:全球AI训练数据监管格局生变

AI训练数据的监管,正在从各国的国内议题演变为全球博弈。2026年4月,欧盟祭出重拳——拟强制Google共享搜索数据以打破AI竞争壁垒;英国政府承诺制定训练数据透明度指引;美国学界对”数据护城河”理论提出系统性挑战。与此同时,开放语料库因AI爬虫过载而承压,数字公地治理提上议程。三条线索交织成一幅图景:训练数据不再只是技术和商业问题,它正在成为地缘政治、反垄断和公共治理的核心议题。本期新闻资讯从全球视角梳理这些变化。

一、欧盟拟强制Google共享搜索数据,打破AI竞争壁垒

欧盟委员会对Alphabet启动正式程序,拟强制要求Google将其搜索数据与竞争AI开发者共享,将搜索数据视为具有公共服务特性的资源。同时要求Google向竞争AI服务开放Android核心功能接口。若违反,罚款最高可达全球年营业额的10%(约307亿美元)。

这一事件的核心争议在于:搜索引擎的点击数据、查询数据、用户行为数据是否构成了Google Gemini等AI模型的”数据护城河”?欧盟的答案是肯定的。但这一逻辑也面临尖锐质疑——搜索数据中包含了大量用户隐私信息,强制共享将如何保护用户权益?这套做法的示范效应可能远超个案:如果搜索数据可以强制共享,社交数据(Meta)、电商数据(Amazon)是否也在共享之列?

来源:钛媒体

二、英国政府承诺制定AI训练数据透明度指引

英国议会议员提出书面质询,要求政府考虑对生成式AI开发者施加训练数据来源公开义务。英国政府于4月28日回应称,当前透明度实践水平参差不齐,将推进一项工作计划,帮助权利方控制和许可其作品的使用,包括依据《数据(使用和获取)法案2025》制定输入透明度的最佳实践指南。

英国的路径与欧盟不同——不是通过强制性法规,而是通过最佳实践指南来推动训练数据透明化。这种”软法”方式虽然在约束力上不如欧盟强硬,但可能更易于被行业接受,从而更快形成事实标准。

来源:英国议会

三、数据护城河理论遭遇挑战

美国竞争政策研究平台Truth on the Market发表深度分析,质疑AI反垄断中”数据护城河”理论的有效性。文章核心论点有三:其一,数据并非同质化资源,质量、上下文和领域特异性远比数量重要;其二,闭源与开源模型的性能差距已从2024年1月的8.04%缩小至2025年2月的1.70%,这表明高质量数据并非不可逾越的壁垒;其三,推理成本在两年内下降了280倍以上,使得后来者更容易弥补数据差距。

这场辩论对数据交易行业有直接启示:如果数据并非不可逾越的护城河,那么数据交易的价值主张就需要从”独占数据优势”转向”获取更高质量、更相关数据的能力提升”。

来源:Truth on the Market

四、AI团队开始将训练数据视为”资本资产”

InformationWeek报道,AI团队正越来越多地将训练数据视为资本资产——从法律风险、质量、生命周期价值和长期期权性四个维度进行评估。将数据视为”低成本输入”的时代正在终结。

这种思维转变的驱动力来自三个方面:一是版权诉讼风险加剧,未经授权使用训练数据的法律成本越来越高;二是高质量数据的获取成本在上升,互联网上的免费数据正在枯竭;三是数据质量直接决定模型性能天花板,劣质数据的边际成本远超想象。当训练数据被视为资本资产,企业的数据采购决策就会从”哪里便宜买哪里”转向”哪个来源的长期价值最高”——这对数据交易平台是结构性的利好。

来源:InformationWeek

五、开放语料库承压:数字公地治理提上议程

一项全景研究揭示,AI训练数据的需求正对开放策展馆藏造成巨大压力。自动化爬虫的访问量有时已超过人类访问量,导致服务器不堪重负;现有的反爬措施又经常被绕开。报告呼吁建立基于公地治理和互惠规范的治理模式,而非单纯依赖法律或技术手段解决开放数据可持续性问题。

这个问题在中国语境下同样存在——学术界、图书馆、博物馆等公共数据机构的资源被AI公司大量爬取,既给机构带来运维压力,也可能稀释公共数据的公益价值。如何平衡AI公司的数据需求与公共数据的可持续运营,是一个全球性的治理难题。

来源:Zenodo/Invest in Open Infrastructure


数据星球·新闻资讯 – 典枢数据旗下AI数据行业栏目

相关文章

发表评论

滚动至顶部