新火种AI | 谷歌Gemini“抄袭”百度文心一言？AI训练数据陷难题

新火种 2023-12-20 510

描述

作者：一号

编辑：小迪

谷歌过于心急，Gemini推出不到半月，就遭遇两次“危机”。

美东时间12月6日，谷歌推出了迄今为止规模最大，能力最强的大模型Gemini。其原生多模态的能力，通过一条约6分钟的演示视频，展现得淋漓尽致，让人不得不感慨它的强大，就连马斯克都评论说，“（Gemini）令人印象深刻”。

谷歌在AI领域的成就有目共睹，尽管之前推出的Bard表现不尽人意，让谷歌市值一夜蒸发了1000亿美元。但经过一年沉淀，加上和DeepMind联合研发，所以Gemini（双子星）可是被寄予了厚望。

但是，Gemini发布后仅一天，就有人指控谷歌“造假”。除了在数据对比上没有使用相同条件，演示视频效果也是经过剪辑的。逼得谷歌不得不给出文档承认视频是经过加工的。

12月14日，视频“造假”事件还没降温，谷歌就宣布对外免费开放Gemini Pro的API。让不少人高兴得奔走相告。因为相较于GPT-4收费版才能拥有的视觉模型，Gemini Pro可以直接给平民AI玩家体验AI视觉能力的机会。

但就在API开放后不久，就有用户发现，在Poe上使用Gemini Pro时，如果用简体中文连续询问“你好”和“你是谁”这两个问题时，Gemini Pro会直接说出“我是百度文心大模型”这样的回答，给网友都看“呆”了。

谷歌Gemini被百度文心一眼“夺舍”了？

微博大V阑夕就发博展示了这样的效果，就连进一步询问“你的创始人是谁”时，它也很干脆地回答：李彦宏。

文心一言

难道Gemini被百度“夺舍”了？不少人怀疑这是因为博主在对话前面设置了提示词，让Gemini扮演文心一言，但这位博主强调，没有任何前置对话。

文心一言

本着求真的态度，我们也去Poe上试用了一下，结果真的可以复现。

文心一言

会不会是Poe平台上的接口用错了？不过Poe平台可不是什么野鸡套壳网站，它是美版知乎Quora推出的AI聊天机器人平台，你所熟知的ChatGPT、Claude等知名AI都可以在上面使用。而且如果你使用英文提问Gemini，它就会立刻恢复正常。并且单就从“作案动机”上来讲，Poe也没有必要这么做。

除此之外，还有用户在谷歌自己的Vertex AI平台上，使用中文对话，也出现了这种情况。因此，Poe的接口使用出错，这个可能基本可以被排除，问题应该出在Gemini本身。

文心一言

使用AI生成的数据进行训练已不新鲜

这样看下来，要么就是谷歌使用了百度文心一言的语料进行训练，要么就是它所使用的语料已经被AI“污染”了。

其实大模型训练使用其他大模型生成的语料这件事情已经不是第一次发生，并且谷歌还是有“前科”的。在上一代Bard时，谷歌就曾被曝出使用ChatGPT的数据进行训练，并且根据The Information报道，这件事情还造成了Jacob Devlin从谷歌离职。

就在上周末，字节跳动也被OpenAI禁止使用API接口，原因也是因为说字节在使用GPT训练自己的AI，违反了使用条例。

文心一言

如果按照现在每个模型堆“训练数据量”的操作来看，互联网上的人类原生的数据很快就会用完，并且各个模型之间也将会很相似。因此，获取一些未被别人拿去训练的数据，是模型之间保持差异化的一种方法。因此，有些AI公司会向一些拥有专属数据的公司购买数据。例如OpenAI就曾表示愿意每年支付高达八位数的费用，用以获取彭博社自有的历史和持续的金融文件数据访问权限。

文心一言

另一个思路，就是选择使用AI合成的数据来进行训练。香港大学、牛津大学和字节跳动的几名研究院就曾尝试过使用高质量AI合成图片，来提升图像分类模型的性能，结果发现效果还不错，甚至比真实数据训练还要好。

AI生成的内容正在“污染”互联网

而从另一方面来看，AI生成的内容污染互联网也是一个不得不重视的问题了。尤其是生成式AI大爆发的今年。在文字、图像、视频还有音频等领域，AI生成的内容都正在“污染”互联网上数据内容。

就在上个月，一些网友发现，在谷歌搜索上输入已故夏威夷歌手Israel Kamakawiwo’ole的名字是，得到的搜索结果，前几张图片都是有AI生成的，而并非真实照片，并且这是一位以弹奏尤克里里而闻名的音乐家，但图片里的他却在弹吉他。

在文字方面也是，随着百家号等媒体平台上出现的AI帮写等功能，AI生成的文章已经开始在互联网上“蔓延”，这让普通人在互联网上筛选真实且有效的信息的效率反而降低了。可以说，AI生成内容对互联网语料的“污染”，可能会导致产生一个新的需求，那就是帮人们分辨内容是否由AI生成的AI。

毕竟，目前训练AI所需要的数据还是人类所生产的，在数据清洗过程中，需要注意清除一些由其他AI生成的内容。一旦互联网上AI生成的内容越多，越能以假乱真，那么数据筛选的难度将越大。并且在大模型出现“幻觉”以及AI如何产生“智能涌现”这两个问题没有得到彻底解决之前，我想我们都无法做到彻底信赖AI生成的内容。

毕竟一旦AI生成了错误的内容，而另一个AI拿着这个内容去训练，然后再另一个AI拿到新的错误内容......这样“滚雪球”下去，AI最终会生成什么样的逆天垃圾，我们真的无法想象。

审核编辑黄宇

打开APP阅读更多精彩内容