作者|陈斯达
编辑|邓咏仪
来源|智能涌现
大模型对数据的胃口,像无底洞。为了“炼”出更好的大模型,科技巨头们现在八仙过海,不惜各出“阴招”。
纽约时报在 4 月 6 日发布了一篇重磅长篇调查报道,其中显示:OpenAI 此前收集了超过 100 万小时的 YouTube 视频,将其中音频转录成文本,喂给 GPT-4 进行训练。
OpenAI 用的是自家开发的音频转录工具,叫 Whisper。但在这项工作上,Whisper 多了一层含义——悄悄地转录,打枪的不要。
图源:视觉中国
别忘了,OpenAI 首席技术官 Mira Murati,在 3 月时还不能交代清楚 Sora 的训练数据来源。无论是文字转录,还是视频内容的爬取,YouTube 都明令禁止。
底线一次次被试探,还要继续忍吗?
据彭博社 4 月 5 日消息,YouTube 首席执行官 Neal Mohan 又点名 OpenAI——虽然还没证据表明,你们给 Sora 喂了油管视频,要是真这么干的,可就违规了!
但 YouTube 的遭遇,只是大模型数据之争的冰山一隅。
各家硅谷巨头正在寻求捷径,不惜进入灰色地带。
YouTube 敢叫板 OpenAI,但也给金主爸爸谷歌台阶下。前述采访中,Mohan 不忘补刀:我们家谷歌确实也用 YouTube 内容训练大模型 Gemini,但和你们不一样,视频博主都给了授权。
可以说谷歌“近水楼台先得月”,但补的这一刀,谷歌不一定开心。
据纽约时报,在谷歌给自己自身制定的规则,能否利用 YouTube 用户数据在视频平台之外开发商业服务(比如大模型 Gemini),并未完全解释清楚。
同样的,谷歌旗下的 APP 家族,含有数十亿英文单词的语料,取之不尽用之不竭——如公开上传的 Google 文档,用户在 Google 地图上的打卡评论。但谷歌只能干瞪眼,因为自己定的规定,限制了这些数据的使用方式。
图源:视觉中国
养了这么久的用户,谷歌早就抓心挠肝了。2023 年 7 月,谷歌修改隐私政策,扩大应用程序的数据使用范围,以便“(训练)人工智能模型以及开发类似 Google 翻译、Bard 和 Cloud AI 的功能”。但官方解释,不会“未经用户明确许可”用数据训练大模型。
所以,当谷歌员工知道 OpenAI 偷偷用 YouTube 视频训练模型,并没有选择曝光。
此时在大模型竞争稍显落后的 Meta,数据焦虑更强烈。
据纽约时报,内部员工表示,Meta 并没有太多用户帖子文本,可用于模型训练。Facebook 上,很多用户已经删掉之前的帖子,平台本身也并非定位于长内容。Meta 的 AI 团队,几乎使用了网上所有可用的英语书籍、论文、诗歌和新闻文章来训练模型。
纽约时报在报道中还介绍,2023 年 3 月到 4 月期间,Meta 高层急得每天都要开会想办法,讨论怎么搞到有版权的内容:有的法子能说,比如收购 Simon & Schuster 出版社;有的不方便说,比如冒着吃官司的风险,在网上收集有版权的文本。
科技公司们的数据需求如此旺盛,一些内容平台正因此迎来第二春。
据路透社,图像托管网站的 Photobucket 曾有 7000 万用户,近来降到只有 200 万。但现在,这家公司库存的 130 亿份照片和视频,正吸引多家科技公司前来洽谈价格,希望授权用于模型训练。
首席执行官 Ted Leonard 介绍价格区间,单张照片 5 美分到 1 美元之间格,单个视频超过 1 美元。
“数据燃料”或许昂贵,总比事后吃官司要强。2023 年 2 月,摄影社 Getty Images 起诉 AI 初创公司 Stability AI,称其 AI 创作工具 Stable Diffusion 已经窃取了超过 1200 万张受版权保护的照片,Stable Diffusion 可能要付出 1.8 万亿美元的代价。
而 Getty Images 此前已与其他 AI 创作工具达成合作,这更加聚焦了 Stability AI 未经许可、没有付费的事实。
由于 AIGC 侵权案件十分前沿,业内人士指出,案件可能会持续几年时间。
AI 的胃口比想象的大,数据使用入不敷出。据研究机构 Epoch AI,可用于训练的高质量文本,很可能会在 2026 年耗尽。
在 Scaling Law 的游戏法则下,科技公司不进则退,害怕被甩在身后。他们努力挖掘各种机会,盘活各大平台上一切有价值的数据。但内容原创方不干了——这一矛盾自 ChatGPT、AI 文生图、AI 图生图走红后,就一直存在。
最新的争论则来自最近红遍全球的 AI 音乐生成模型Suno,让“人人都能发专辑”。4 月 2 日,200 多名国际乐坛知名音乐人如 Billie Eilish, Nicki Minaj 等,联署公开信,矛头指向大公司——不经过作者允许,就将作品喂给大模型进行训练。
音乐人还表示,“若使用时不负责任,AI 将不仅使我们难以保护自己的隐私、身份和音乐作品,也将难以维持生计。”
观察一下 AI 音乐生成模型 Suno V3,或许你会明白音乐人的怒火。据滚石杂志,Suno 的投资人 Rodriguez 很早之前就已充分了解过风险,即唱片公司和发行商可能会提起诉讼。可以说,很早就做好了打官司的准备……
图源:Suno 官网
Suno 至今也未公布模型训练使用的数据来源,不过有一个初步的姿态:不允许用户在提示中指定任何特定艺术家的风格,同时也不会使用真实艺术家的声音。但这样战术上的掩盖,很难让人满意。
在这场“人机大战”中,创作者们不应该只是机构之外的“沉默的大多数”。在美国,版权法为艺术家和音乐唱片公司提供保护,但 AI 生成的内容,并不直接挪用艺术家创作的歌词或旋律,而仅仅是“模仿(mimic)”。创作者们正在遭遇新的侵权,旧的法律无法成为他们的坚强后盾。
据 CNBC,当地时间 3 月 21 日,美国田纳西州率先通过立法,以“保护歌曲作者、表演者和音乐行业专业人士的声音免受人工智能滥用”。这部《确保相似语音和图像安全(ELVIS)法案》,将于 7 月 1 日生效。
当然,如果双方能良性共存,何乐而不为呢?3 月,OpenAI 首席执行官 Sam Altman 在访谈中曾回应模型训练时的公平性问题。他希望,为创造有价值数据的人,创造一套激励机制。他说:
如果我是艺术家,一是希望可以选择,让别人不使用我的风格来创作艺术作品。二是如果确实用了我的风格来创作,希望能有一套经济模式,确保满足我在中间的利益。
但就具体方案,Sam Altman 没说,其他 AI 公司也不知道。
合成数据是现在比较主流的可行方向:把 AI 生成的数据再喂给 AI,用合成数据(synthetic data)进行训练。
据纽约时报,OpenAI 和其他公司正在探寻的数据生成模式便是,两个不同的大模型搭配干活,一个生产数据,一个检查数据,以此保证数据质量。只要判断数据的大模型做得足够好,这个法子就能走通。
2023 年 5 月,AI 初创公司 Anthropic 介绍的“宪法 AI(Constitutional AI)”训练方法,便是这一逻辑。
图源:论文
不过,用合成数据训练的还仅限于头部的几家 AI 公司,目前还没有被广泛应用。而创作者们的斗争,也还有很长的路要走。
■ 科大讯飞星火 京东 ▍产业大模型案例
■ 商汤日日新、腾讯,昆仑万维 ▍ 金融大模型案例
■ 盘古大模型,中国电信,医联 ▍医疗大模型案例
■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例
■知乎,360 大模型,火山引擎 ▍ 教育大模型案例
■ 网易,金山办公大模型 ▍ 更多行业大模型案例
上次介绍大模型航海时代,AI 应用找寻“新大陆”
本文由大模型领域垂直媒体「AI 大模型工场」
原创出品,未经许可,请勿转载。
/
欢迎提供新的大模型商业化落地思路
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。