大模型闹“数据饥荒”，科技巨头进入灰色地带

2024-04-11 10:35

NFT 营销工场

2024-04-11 10:35

NFT 营销工场

2024-04-11 10:35

来源链接

订阅此专栏

收藏此文章

作者｜陈斯达

编辑｜邓咏仪

来源｜智能涌现

大模型对数据的胃口，像无底洞。为了“炼”出更好的大模型，科技巨头们现在八仙过海，不惜各出“阴招”。

纽约时报在 4 月 6 日发布了一篇重磅长篇调查报道，其中显示：OpenAI 此前收集了超过 100 万小时的 YouTube 视频，将其中音频转录成文本，喂给 GPT-4 进行训练。

OpenAI 用的是自家开发的音频转录工具，叫 Whisper。但在这项工作上，Whisper 多了一层含义——悄悄地转录，打枪的不要。

图源：视觉中国

别忘了，OpenAI 首席技术官 Mira Murati，在 3 月时还不能交代清楚 Sora 的训练数据来源。无论是文字转录，还是视频内容的爬取，YouTube 都明令禁止。

底线一次次被试探，还要继续忍吗？

据彭博社 4 月 5 日消息，YouTube 首席执行官 Neal Mohan 又点名 OpenAI——虽然还没证据表明，你们给 Sora 喂了油管视频，要是真这么干的，可就违规了！

但 YouTube 的遭遇，只是大模型数据之争的冰山一隅。

为了数据，一招更比一招坏

各家硅谷巨头正在寻求捷径，不惜进入灰色地带。

YouTube 敢叫板 OpenAI，但也给金主爸爸谷歌台阶下。前述采访中，Mohan 不忘补刀：我们家谷歌确实也用 YouTube 内容训练大模型 Gemini，但和你们不一样，视频博主都给了授权。

可以说谷歌“近水楼台先得月”，但补的这一刀，谷歌不一定开心。

据纽约时报，在谷歌给自己自身制定的规则，能否利用 YouTube 用户数据在视频平台之外开发商业服务（比如大模型 Gemini），并未完全解释清楚。

同样的，谷歌旗下的 APP 家族，含有数十亿英文单词的语料，取之不尽用之不竭——如公开上传的 Google 文档，用户在 Google 地图上的打卡评论。但谷歌只能干瞪眼，因为自己定的规定，限制了这些数据的使用方式。

图源：视觉中国

养了这么久的用户，谷歌早就抓心挠肝了。2023 年 7 月，谷歌修改隐私政策，扩大应用程序的数据使用范围，以便“（训练）人工智能模型以及开发类似 Google 翻译、Bard 和 Cloud AI 的功能”。但官方解释，不会“未经用户明确许可”用数据训练大模型。

所以，当谷歌员工知道 OpenAI 偷偷用 YouTube 视频训练模型，并没有选择曝光。

此时在大模型竞争稍显落后的 Meta，数据焦虑更强烈。

据纽约时报，内部员工表示，Meta 并没有太多用户帖子文本，可用于模型训练。Facebook 上，很多用户已经删掉之前的帖子，平台本身也并非定位于长内容。Meta 的 AI 团队，几乎使用了网上所有可用的英语书籍、论文、诗歌和新闻文章来训练模型。

纽约时报在报道中还介绍，2023 年 3 月到 4 月期间，Meta 高层急得每天都要开会想办法，讨论怎么搞到有版权的内容：有的法子能说，比如收购 Simon & Schuster 出版社；有的不方便说，比如冒着吃官司的风险，在网上收集有版权的文本。

科技公司们的数据需求如此旺盛，一些内容平台正因此迎来第二春。

据路透社，图像托管网站的 Photobucket 曾有 7000 万用户，近来降到只有 200 万。但现在，这家公司库存的 130 亿份照片和视频，正吸引多家科技公司前来洽谈价格，希望授权用于模型训练。

首席执行官 Ted Leonard 介绍价格区间，单张照片 5 美分到 1 美元之间格，单个视频超过 1 美元。

“数据燃料”或许昂贵，总比事后吃官司要强。2023 年 2 月，摄影社 Getty Images 起诉 AI 初创公司 Stability AI，称其 AI 创作工具 Stable Diffusion 已经窃取了超过 1200 万张受版权保护的照片，Stable Diffusion 可能要付出 1.8 万亿美元的代价。

而 Getty Images 此前已与其他 AI 创作工具达成合作，这更加聚焦了 Stability AI 未经许可、没有付费的事实。

由于 AIGC 侵权案件十分前沿，业内人士指出，案件可能会持续几年时间。

只有创作者受伤的世界，完成了？

AI 的胃口比想象的大，数据使用入不敷出。据研究机构 Epoch AI，可用于训练的高质量文本，很可能会在 2026 年耗尽。

在 Scaling Law 的游戏法则下，科技公司不进则退，害怕被甩在身后。他们努力挖掘各种机会，盘活各大平台上一切有价值的数据。但内容原创方不干了——这一矛盾自 ChatGPT、AI 文生图、AI 图生图走红后，就一直存在。

最新的争论则来自最近红遍全球的 AI 音乐生成模型Suno，让“人人都能发专辑”。4 月 2 日，200 多名国际乐坛知名音乐人如 Billie Eilish, Nicki Minaj 等，联署公开信，矛头指向大公司——不经过作者允许，就将作品喂给大模型进行训练。

音乐人还表示，“若使用时不负责任，AI 将不仅使我们难以保护自己的隐私、身份和音乐作品，也将难以维持生计。”

观察一下 AI 音乐生成模型 Suno V3，或许你会明白音乐人的怒火。据滚石杂志，Suno 的投资人 Rodriguez 很早之前就已充分了解过风险，即唱片公司和发行商可能会提起诉讼。可以说，很早就做好了打官司的准备……

图源：Suno 官网

Suno 至今也未公布模型训练使用的数据来源，不过有一个初步的姿态：不允许用户在提示中指定任何特定艺术家的风格，同时也不会使用真实艺术家的声音。但这样战术上的掩盖，很难让人满意。

在这场“人机大战”中，创作者们不应该只是机构之外的“沉默的大多数”。在美国，版权法为艺术家和音乐唱片公司提供保护，但 AI 生成的内容，并不直接挪用艺术家创作的歌词或旋律，而仅仅是“模仿（mimic）”。创作者们正在遭遇新的侵权，旧的法律无法成为他们的坚强后盾。

据 CNBC，当地时间 3 月 21 日，美国田纳西州率先通过立法，以“保护歌曲作者、表演者和音乐行业专业人士的声音免受人工智能滥用”。这部《确保相似语音和图像安全（ELVIS）法案》，将于 7 月 1 日生效。

当然，如果双方能良性共存，何乐而不为呢？3 月，OpenAI 首席执行官 Sam Altman 在访谈中曾回应模型训练时的公平性问题。他希望，为创造有价值数据的人，创造一套激励机制。他说：

如果我是艺术家，一是希望可以选择，让别人不使用我的风格来创作艺术作品。二是如果确实用了我的风格来创作，希望能有一套经济模式，确保满足我在中间的利益。

但就具体方案，Sam Altman 没说，其他 AI 公司也不知道。

合成数据是现在比较主流的可行方向：把 AI 生成的数据再喂给 AI，用合成数据（synthetic data）进行训练。

据纽约时报，OpenAI 和其他公司正在探寻的数据生成模式便是，两个不同的大模型搭配干活，一个生产数据，一个检查数据，以此保证数据质量。只要判断数据的大模型做得足够好，这个法子就能走通。

2023 年 5 月，AI 初创公司 Anthropic 介绍的“宪法 AI（Constitutional AI）”训练方法，便是这一逻辑。

图源：论文

不过，用合成数据训练的还仅限于头部的几家 AI 公司，目前还没有被广泛应用。而创作者们的斗争，也还有很长的路要走。

AIGC 大模型工场已经组织了非常精准的「AI 大模型垂直社群」，覆盖超 1000 位 AIGC 圈，百度大模型业务负责人，京东大模型业务负责人，腾讯大模型业务人，阿里云大模型技术负责人，科大讯飞大模型公关，商汤大模型业务，阅文大模型公关，360 大模型公关负责人都在群里啦，欢迎大模型业务负责人加入。请加微信 fqq2000nian，注明真实身份。