作者|星奈
编辑|方奇
媒体|AI 大模型工场
很难相信, ChatGPT 推出仅一年的时间就将生成式 AI 推向主流。从谷歌到亚马逊,从百度到阿里,几乎所有科技巨头都登上了大模型发展的时代列车。
国内大模型厂商,从去年年初的激动兴奋与积极筹划布局,到年中争先发布大模型产品,再到年底开卷商业化应用。我们对大模型的探索似乎已经走向正轨,也在逐渐接受大模型所带来的种种变革。
AI 大模型工场观察到,2023 年,几乎所有大模型玩家都在以 GPT-4 作为目标进行追赶,然而,我们低估了做到 GPT-4 的难度,尽管有不少企业声称在某些方面已经超越 GPT-4,实际上无论是谷歌、Anthropic 还是国内大模型都与 GPT-4 有不小的差距。
与此同时,伴随着模型能力的持续迭代与训练成本的持续降低,新时代的摩尔定律正在显现,“多模态”或将成为今年新的主流叙事。
2024 年,将是大模型改变世界的一年。
可以预见的是,多模态将是今年大模型厂商竞争的焦点。
多模态能力实际上就是多模态输入和多模态输出与生成,它超越了文本的限制,允许用户将文本、音频、图像和视频混合生成新的内容,与传统单一模型相比,多模态模型让 AI 变得更直观和生动。
谷歌 Gemini 横空出世,打开“原生多模态”的新开端。
Midjourney 已经从 V1 版本升级到 V6 版本,几句简单的 prompt 就能生成充满艺术与想象力的神图大片。视频生成方面,Runway、Pika 走在行业前列。
国内,AI 大模型工场了解到,美图最近推出自研 AI 视觉大模型 MiracleVision(奇想智能)4.0 版本,不仅可以文生图,更是增加了文生视频、图生视频等多模态能力。
阿里通义千问基于其自研视频生成模型 Animate Anyone,推出图生视频功能,上线“全民舞王”,魔性上头的音乐和舞蹈在网上掀起一阵“模仿潮”。
2024 年,多模态成为主流叙事,后续,国内外其他大模型公司肯定也会加入多模态的探索和研究中。
如果说 2023 年是大语言模型(LLM)的高光时刻,那么 2024 年将见证小语言模型(SLM)的力量。
在通往 AGI 的道路上,LLM 凭借庞大的参数规模,专注于理解和生成人类语言,在问答、撰写等方面明显优于 SLM。但是,事物总有两面性,LLM 成功的背后是高昂的计算成本、巨大的内存需求以及能源消耗。随着模型体积的不断增大,相应的成本也将指数级上涨。
虽然 SLM 综合实力不及 LLM,但这些模型在特定场景下提供了更高效、灵活的选择。SLM 由于参数较少,训练和推理效率更高,而且更节约资源。此外相比 LLM 需要大量计算资源来训练和部署,SLM 可以在普通的硬件上进行训练和运行,未来手机端侧运行 SLM 或将成为趋势,这极大降低了相关成本。
成本效益和可持续发展的考虑正在加速小模型的爆发。
微软推出的 Phi-2、谷歌小尺寸模型“壁虎”、Microsoft 的PHI-2和Mistral 7B、阿里云开源的模型 Qwen-1.8B 都进一步凸显了小模型的潜力。这些模型虽然小,但在某些方面的能力依然能够与 GPT-3.5 相媲美。
AI 大模型工场发现,每逢大模型的相关发布会,必会出现“Agent”。Agent 概念爆火,虽然直到现在也没有看到标杆性的产品,但是几乎所有企业都认为 AI Agent 是 AIGC 发展的确定性方向。据 IDC 调研表明,50% 的企业已经在某项工作中进行了 AI Agent 的试点。
在电商、教育、协同办公等各个行业都有 AI Agent 的身影。
电商领域,智能客服是 AI Agent 的最佳试验场。例如,艾为电子基于钉钉的智能化能力搭建了“AI 智能客服”,学会了 42 大子类产品、近千款自主的知识产权的芯片专业知识,成为了艾为的 24 小时产品“专家”。
在教育领域,网易有道“子曰”教育大模型在 AI Agent 方面进行了积极的尝试。基于“子曰”2.0,网易有道推出了首位 AI 家庭教师小 P 老师及虚拟人口语私教 Hi Echo,为 AI 教育领域带来了突破性的升级。
AI Agent 是“协同办公”绕不过去的一环。近日,钉钉个人版正式上线,同时推出 AI 工具市场灵感 Store,让用户实现打造自己的专属 Agent。此外,飞书智能 AI 助手“MyAI”、搭载文心大模型的百度如流等也将 AI Agent 融入我们日常工作生活中。
面壁智能在 11 月正式推出他们的 AI Agent 产品 ChatDev,用户只需要用自然语言告诉它的诉求,ChatDev 就能在短时间内完成一个软件开发。
比尔.盖茨在最新发布的一篇长文中预测:“未来五年内,我们便有望正式迎来 AI Agent。”它将成为“下一个平台”,如今各自为政的电商、搜索引擎、广告等业务,都将归为一个整体。
目前来看闭源模型要比开源模型强很多,但是也不能低估技术开源和技术扩散的力量。开源模型的使命不是做最聪明的模型,而是承接先进模型溢出的很多能力,让大模型更普惠。
大模型是一场巨头游戏,动辄千亿的豪赌不是每个企业都能够承受。以 GPT-4 为例,在前期模型训练过程中,GPT-4 用了 2.2 万张 A100、训练了 100 天,花了接近 8000 万美元。
开源模型的出现正好可以满足哪些没有足够资金的企业和用户。
开源模型与闭源模型之间的比较非常复杂,取决于多种因素,包括开发资源、数据等。Meta 的 Llama270B、Falcon 180B 、在去年获得行业认可和追捧,其性能可与 GPT3.5、Claude 2 等模型相媲美。
国内大模型开源步伐也紧随其后,据 AI 大模型工场了解,全球最大的开源大模型社区 HuggingFace 日前公布的最新开源大模型排行榜显示,阿里云通义千问开源 720 亿参数模型 Qwen-72B,零一万物开源 340 亿两款参数模型 Yi-34B-Llama 和 Yi-34B-200K 成为前三甲。
目前通义千问共开源 18 亿、70 亿、140 亿、720 亿参数的 4 款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开源;Yi 模型则是李开复博士创办的 AI 2.0 公司零一万物的首款开源大模型,可一次处理 40 万字。
未来,开源模型和闭源模型之间的差距将缩小,甚至赶超。
2023 年,我们似乎高估了应用大爆发的速度,那么 2024 年 AI Native 应用会迎来春天吗?
经过百模大战后,2023 年的最后几个月,国内大模型厂商和创业者们猛然反应过来:中国大模型的机会在应用层,AI Native 应用或许是弯道超车的机会。
互联网巨头纷纷调转方向,从卷模型到卷应用。百度发布超 20 款 AI 原生应用“全家桶”;字节成立新团队 Flow,主攻大模型应用层;腾讯将混元大模型嵌入到小程序。
还有些创业公司蓄势待发。百川智能 CEO 王小川透露:“我们在 C 端正在研发几款关键的超级应用,预计明年(2024 年)推出,主要针对健康、娱乐、个人助理方向。”
据钉钉联合 IDC 发布的首份《2024 AIGC 应用层十大趋势白皮书》预测,到 2024 年全球将涌现出超过 5 亿个新应用,这相当于过去 40 年间出现的应用数总和。
然而不得不正视的是,就目前而言,并没有跑出一个颠覆所有场景和行业的超级应用,我们无法预测超级应用会在哪里诞生,就像乔布斯想象不到 TikTok,但可以确定的是大模型的原生超级应用会孕育在技术升级后所刺激的新需求中,比如网购和短视频,就是移动互联网技术刺激出来的增量需求。
未来已来,AI Native 应用的春天就在眼前。
■ 科大讯飞星火 京东 ▍产业大模型案例
■ 商汤日日新、腾讯,昆仑万维 ▍ 金融大模型案例
■ 盘古大模型,中国电信,医联 ▍医疗大模型案例
■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例
■知乎,360 大模型,火山引擎 ▍ 教育大模型案例
■ 网易,金山办公大模型 ▍ 更多行业大模型案例
上次介绍出门问问大模型链接
本文由大模型领域垂直媒体「AI 大模型工场」
原创出品,未经许可,请勿转载。
/
欢迎提供新的大模型商业化落地思路
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。