全球新闻网封锁OpenAI和谷歌AI爬虫

微云疏影 2024-02-27 849

描述

　　据2月27日路透社研究所报告显示，至2023年底，全球有十国近半（48%）主流新闻网站选择阻止OpenAI爬虫，另约四分之一（24%）如法炮制封锁了谷歌人工智能爬虫。

　　该研究团队从德国、印度、西班牙、英国及美国共计十五家综合性质网络新闻来源的robots.txt文件着手分析，涵盖包括《纽约时报》等传统印刷媒体、电视广播公司及数字原生媒体等多类形式。

　　分析结果显示，至2023年底，超半数（57%）的传统印刷媒体如《纽约时报》等已关闭OpenAI爬虫，反之电视广播以及数字原生媒体相应地分别为48%和31%。而对于谷歌人工智能爬虫，32%的印刷媒体采取相同措施，电视广播和数字原生媒体的比率分别为19%和17%。

　　近期康奈尔大学研究发现，部分新型人工智能模型仅仅依赖前代模型训练，非依靠人类输入数据，引发“模型崩溃”甚至退化，从而导致生成内容出现更多错误性和误导性的讯息。

　　网站爬虫具有多种用途，其中Google的Googlebot主要用于抓取发布商网站并纳入搜索查找，OpenAI的GPTBot则负责全网搜集训练数据以支持旗下的大规模语言模型ChatGPT等，此类AI工具产出的精准度与实时性受到很大保障，这也是新闻发布商频频发布此类内容的原因所在：大语言模型给予优质出版商内容的重视程度远高于其他来源。

　　研究进一步揭示，全球北方（以北美、欧洲为主，涵盖其他高收入地区）的新闻机构较全球南方（包含非洲、拉美，亚太地区以及发展中的亚洲国家）有较大偏向性地提出屏蔽人工智能爬虫要求。以美国为例，高达79%的热门在线新闻网站对OpenAI爬虫设限，而在墨西哥与波兰，这一比例仅为20%类似的情况出现在德国（有60%的新闻网站对谷歌爬虫采取限制）与波兰和西班牙仅占7%的对比之中。

　　令人瞩目的是，几乎所有封锁谷歌爬虫的网站同时也禁止了OpenAI（达到了夸张的97%）。尽管该研究并未给出具体的解释，唯一可信的推测可能在于OpenAI爬虫相较谷歌更早推出的缘故。

打开APP阅读更多精彩内容