大模型闹“数据饥荒”,科技巨头进入灰色地带
2024-04-11 10:35
NFT 营销工场
2024-04-11 10:35
订阅此专栏
收藏此文章



作者|陈斯达

编辑|邓咏仪

来源|智能涌现


大模型对数据的胃口,像无底洞。为了“炼”出更好的大模型,科技巨头们现在八仙过海,不惜各出“阴招”。


纽约时报在 4 月 6 日发布了一篇重磅长篇调查报道,其中显示:OpenAI 此前收集了超过 100 万小时的 YouTube 视频,将其中音频转录成文本,喂给 GPT-4 进行训练。


OpenAI 用的是自家开发的音频转录工具,叫 Whisper。但在这项工作上,Whisper 多了一层含义——悄悄地转录,打枪的不要。



图源:视觉中国


别忘了,OpenAI 首席技术官 Mira Murati,在 3 月时还不能交代清楚 Sora 的训练数据来源。无论是文字转录,还是视频内容的爬取,YouTube 都明令禁止。


底线一次次被试探,还要继续忍吗?


据彭博社 4 月 5 日消息,YouTube 首席执行官 Neal Mohan 又点名 OpenAI——虽然还没证据表明,你们给 Sora 喂了油管视频,要是真这么干的,可就违规了!


但 YouTube 的遭遇,只是大模型数据之争的冰山一隅。


为了数据,一招更比一招坏


各家硅谷巨头正在寻求捷径,不惜进入灰色地带。


YouTube 敢叫板 OpenAI,但也给金主爸爸谷歌台阶下。前述采访中,Mohan 不忘补刀:我们家谷歌确实也用 YouTube 内容训练大模型 Gemini,但和你们不一样,视频博主都给了授权。


可以说谷歌“近水楼台先得月”,但补的这一刀,谷歌不一定开心。


据纽约时报,在谷歌给自己自身制定的规则,能否利用 YouTube 用户数据在视频平台之外开发商业服务(比如大模型 Gemini),并未完全解释清楚。


同样的,谷歌旗下的 APP 家族,含有数十亿英文单词的语料,取之不尽用之不竭——如公开上传的 Google 文档,用户在 Google 地图上的打卡评论。但谷歌只能干瞪眼,因为自己定的规定,限制了这些数据的使用方式。



图源:视觉中国


养了这么久的用户,谷歌早就抓心挠肝了。2023 年 7 月,谷歌修改隐私政策,扩大应用程序的数据使用范围,以便“(训练)人工智能模型以及开发类似 Google 翻译、Bard 和 Cloud AI 的功能”。但官方解释,不会“未经用户明确许可”用数据训练大模型。


所以,当谷歌员工知道 OpenAI 偷偷用 YouTube 视频训练模型,并没有选择曝光。


此时在大模型竞争稍显落后的 Meta,数据焦虑更强烈。


据纽约时报,内部员工表示,Meta 并没有太多用户帖子文本,可用于模型训练。Facebook 上,很多用户已经删掉之前的帖子,平台本身也并非定位于长内容。Meta 的 AI 团队,几乎使用了网上所有可用的英语书籍、论文、诗歌和新闻文章来训练模型。


纽约时报在报道中还介绍,2023 年 3 月到 4 月期间,Meta 高层急得每天都要开会想办法,讨论怎么搞到有版权的内容:有的法子能说,比如收购 Simon & Schuster 出版社;有的不方便说,比如冒着吃官司的风险,在网上收集有版权的文本。


科技公司们的数据需求如此旺盛,一些内容平台正因此迎来第二春。


据路透社,图像托管网站的 Photobucket 曾有 7000 万用户,近来降到只有 200 万。但现在,这家公司库存的 130 亿份照片和视频,正吸引多家科技公司前来洽谈价格,希望授权用于模型训练。


首席执行官 Ted Leonard 介绍价格区间,单张照片 5 美分到 1 美元之间格,单个视频超过 1 美元。


“数据燃料”或许昂贵,总比事后吃官司要强。2023 年 2 月,摄影社 Getty Images 起诉 AI 初创公司 Stability AI,称其 AI 创作工具 Stable Diffusion 已经窃取了超过 1200 万张受版权保护的照片,Stable Diffusion 可能要付出 1.8 万亿美元的代价。


而 Getty Images 此前已与其他 AI 创作工具达成合作,这更加聚焦了 Stability AI 未经许可、没有付费的事实。


由于 AIGC 侵权案件十分前沿,业内人士指出,案件可能会持续几年时间。


只有创作者受伤的世界,完成了?


AI 的胃口比想象的大,数据使用入不敷出。据研究机构 Epoch AI,可用于训练的高质量文本,很可能会在 2026 年耗尽。


在 Scaling Law 的游戏法则下,科技公司不进则退,害怕被甩在身后。他们努力挖掘各种机会,盘活各大平台上一切有价值的数据。但内容原创方不干了——这一矛盾自 ChatGPT、AI 文生图、AI 图生图走红后,就一直存在


最新的争论则来自最近红遍全球的 AI 音乐生成模型Suno,让“人人都能发专辑”。4 月 2 日,200 多名国际乐坛知名音乐人如 Billie Eilish, Nicki Minaj 等,联署公开信,矛头指向大公司——不经过作者允许,就将作品喂给大模型进行训练。


音乐人还表示,“若使用时不负责任,AI 将不仅使我们难以保护自己的隐私、身份和音乐作品,也将难以维持生计。”


观察一下 AI 音乐生成模型 Suno V3,或许你会明白音乐人的怒火。据滚石杂志,Suno 的投资人 Rodriguez 很早之前就已充分了解过风险,即唱片公司和发行商可能会提起诉讼。可以说,很早就做好了打官司的准备……



图源:Suno 官网


Suno 至今也未公布模型训练使用的数据来源,不过有一个初步的姿态:不允许用户在提示中指定任何特定艺术家的风格,同时也不会使用真实艺术家的声音。但这样战术上的掩盖,很难让人满意。


在这场“人机大战”中,创作者们不应该只是机构之外的“沉默的大多数”。在美国,版权法为艺术家和音乐唱片公司提供保护,但 AI 生成的内容,并不直接挪用艺术家创作的歌词或旋律,而仅仅是“模仿(mimic)”。创作者们正在遭遇新的侵权,旧的法律无法成为他们的坚强后盾。


据 CNBC,当地时间 3 月 21 日,美国田纳西州率先通过立法,以“保护歌曲作者、表演者和音乐行业专业人士的声音免受人工智能滥用”。这部《确保相似语音和图像安全(ELVIS)法案》,将于 7 月 1 日生效。


当然,如果双方能良性共存,何乐而不为呢?3 月,OpenAI 首席执行官 Sam Altman 在访谈中曾回应模型训练时的公平性问题。他希望,为创造有价值数据的人,创造一套激励机制。他说:


如果我是艺术家,一是希望可以选择,让别人不使用我的风格来创作艺术作品。二是如果确实用了我的风格来创作,希望能有一套经济模式,确保满足我在中间的利益。


但就具体方案,Sam Altman 没说,其他 AI 公司也不知道。


合成数据是现在比较主流的可行方向:把 AI 生成的数据再喂给 AI,用合成数据(synthetic data)进行训练。


据纽约时报,OpenAI 和其他公司正在探寻的数据生成模式便是,两个不同的大模型搭配干活,一个生产数据,一个检查数据,以此保证数据质量。只要判断数据的大模型做得足够好,这个法子就能走通。


2023 年 5 月,AI 初创公司 Anthropic 介绍的“宪法 AI(Constitutional AI)”训练方法,便是这一逻辑。



图源:论文


不过,用合成数据训练的还仅限于头部的几家 AI 公司,目前还没有被广泛应用。而创作者们的斗争,也还有很长的路要走。


AIGC 大模型工场已经组织了非常精准的「AI 大模型垂直社群」,覆盖超 1000 位 AIGC 圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360 大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信 fqq2000nian,注明真实身份。


数据支持天眼查,大模型独家合作账号

— END —

监制 / 刘老师
编辑 / AIGCCCCC
视觉 / 大模型
微博 / @AI 大模型工场
TG/AI  Marketing Field

  


大模型应用创业者,你怎么看

■ 百度文心一言,阿里通义千问   ▍通用大模型案例

                 ■ 科大讯飞星火 京东  ▍产业大模型案例

■ 商汤日日新、腾讯,昆仑万维   ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例

■知乎,360 大模型,火山引擎 ▍ 教育大模型案例

■  网易,金山办公大模型   ▍    更多行业大模型案例



上次介绍大模型航海时代,AI 应用找寻“新大陆”





本文由大模型领域垂直媒体「AI 大模型工场」

原创出品,未经许可,请勿转载。 

/

欢迎提供新的大模型商业化落地思路

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

NFT 营销工场
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开