全球新闻网封锁OpenAI和谷歌AI爬虫

描述

  据2月27日路透社研究所报告显示,至2023年底,全球有十国近半(48%)主流新闻网站选择阻止OpenAI爬虫,另约四分之一(24%)如法炮制封锁了谷歌人工智能爬虫。

  该研究团队从德国、印度、西班牙、英国及美国共计十五家综合性质网络新闻来源的robots.txt文件着手分析,涵盖包括《纽约时报》等传统印刷媒体、电视广播公司及数字原生媒体等多类形式。

  分析结果显示,至2023年底,超半数(57%)的传统印刷媒体如《纽约时报》等已关闭OpenAI爬虫,反之电视广播以及数字原生媒体相应地分别为48%和31%。而对于谷歌人工智能爬虫,32%的印刷媒体采取相同措施,电视广播和数字原生媒体的比率分别为19%和17%。

  近期康奈尔大学研究发现,部分新型人工智能模型仅仅依赖前代模型训练,非依靠人类输入数据,引发“模型崩溃”甚至退化,从而导致生成内容出现更多错误性和误导性的讯息。

  网站爬虫具有多种用途,其中Google的Googlebot主要用于抓取发布商网站并纳入搜索查找,OpenAI的GPTBot则负责全网搜集训练数据以支持旗下的大规模语言模型ChatGPT等,此类AI工具产出的精准度与实时性受到很大保障,这也是新闻发布商频频发布此类内容的原因所在:大语言模型给予优质出版商内容的重视程度远高于其他来源。

  研究进一步揭示,全球北方(以北美、欧洲为主,涵盖其他高收入地区)的新闻机构较全球南方(包含非洲、拉美,亚太地区以及发展中的亚洲国家)有较大偏向性地提出屏蔽人工智能爬虫要求。以美国为例,高达79%的热门在线新闻网站对OpenAI爬虫设限,而在墨西哥与波兰,这一比例仅为20%类似的情况出现在德国(有60%的新闻网站对谷歌爬虫采取限制)与波兰和西班牙仅占7%的对比之中。

  令人瞩目的是,几乎所有封锁谷歌爬虫的网站同时也禁止了OpenAI(达到了夸张的97%)。尽管该研究并未给出具体的解释,唯一可信的推测可能在于OpenAI爬虫相较谷歌更早推出的缘故。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分