“数据沼泽”时代,大模型上腾讯云:以储存劈开“AIGC 红海”
2024-04-16 16:37
NFT 营销工场
2024-04-16 16:37
订阅此专栏
收藏此文章




作者|冰拿铁

编辑|方奇

媒体|AI 大模型工场



如果在数智化马拉松上半场,“无数据,不 AI”已经成为行业共识,那么在 AIGC 时代,“无储存,不数据”成为大势所趋。


随着 AIGC 引爆众多行业颠覆式创新,在带来数据量呈“指数级增长”的数据大爆炸外,也在以其训练过程中所需要的高效计算资源和存储支持,重新定义着云计算、存储的标准。


然而,在当下,传统的存储方案往往无法满足其需求,对大模型赛道的企业来说,面对日益增长的数据量时,往往处于无从下手的窘境中。从数据收集环节的冗杂庞乱,到业务处理过程的流动受阻,再到数据检索、分析的“剪不断理还乱”……在各个环节,厂商往往处于四处碰壁的“数据迷宫”中。


那么,什么样的云储存解决方案可以恰如其分地满足大模型厂商的需求,为其提供一体化的解决方案,并在 AIGC 时代领跑云储存赛道?


4 月 8 日,“腾讯云 AIGC 存储解决方案”发布,以对 AIGC 全场景的“硬控”,和对大模型厂商的量身定做的“一条龙服务”交出答卷:


作为国内首个双自研存储引擎支撑的 AIGC 存储解决方案,腾讯云此次带来了云上首发自研、支持 AIGC 全场景海量数据存储的的双引擎底座,使清洗效率提升 2~3 倍的数据加速体系等“新装备”。


“开箱吧,腾讯云”产品演示环节,腾讯云文件存储高级产品经理杨飞为观众演示了高性能并行文件存储 CFS Turbo 在大模型训练场景下的性能表现:现场对比显示,10GB 的CheckPoint基于自建的 NFS 储存需要 25 秒多才能完成,而CFS Turbo仅需 0.86 秒:性能提升了近 30 倍。这在加速大模型训练的同时,充分释放出 GPU 强大的计算能力。


“开箱吧,腾讯云”产品演示


止是训练环节,在当下,腾讯云为大模型企业构建了坚实的数据底座,并在此之上解决数据收集、清洗、训练和内容智理等多环节痛点,并基于此,在 AIGC 时代获得了企业的青睐。



AIGC 时代,

大模型企业“不能承受的数据之重”



根据 IDC 机构调研的数据显示,2023 年,中国大数据市场规模达到 194.8 亿美元,预计到 2027 年将增长至 425 亿美元。正如 IDC 中国高级分析师李浩然指出,决策者普遍预测企业未来的数据量、数据速度以及多样性会增加,以需要满足更加快速的业务决策和市场挖掘探索需求。


而在当下,管窥 AI 大模型的整个生产流程,无论是前端的数据收集与清洗,还是后端的模型训练与推理,都存在诸多痛点待解决。


在前端,需要从网络上采集原始数据,并进行数据清洗,将重复、错误、无效的数据过滤掉,从而“去伪存真”,而这个开荒过程中,数据收集的复杂性和数据来源的多样性使得企业难以有效整合和管理数据资源。


这就让“百川归海”的统一储存迫在眉睫——不仅需要存储作为采购方,手持“万能通行证”,面向多来源的数据、提供 POSIX、HDFS、对象语义多协议支持,还需要其拥有一个弹性可拓展的大仓库,随着模型和数据集的不断增长,不断扩展容量和性能。


在“历经九九八十一难”取到数据后,数据清洗过程中存在着数据质量不高、清洗效率低下的问题,往往会影响后续数据处理和分析的准确性和效率:


相较以往训练数据清洗场景 GB 级别的数据量,AI 大模型的数据是 TB 和 PB 级别的“指数级膨胀”,这对存储的吞吐要求很高,在清洗过程中,十几秒内就要把上 TB 的数据读到计算引擎中,如果用传统的方案,光“审题”就要 30 多分钟,好比给初中生做高数题。


这时候,就需要把储存“单车换摩托”,让其尽可能提供大带宽和低延迟的存储 IO 表现,以及能够保证能够连续读写能力的存储服务,避免作业中断。


而训练场景下,则需要反复地将训练数据从对象存储 COS 拉取到文件存储中,再从文件存储读取到缓存中,这就需要大量写入、创建、删除等操作,要求超高的 IOPS 和 OPS;同时,为减少计算节点的物理损坏带来的损失,需要周期性保存当前的模型,以便宕机时快速恢复。通常,上千台机器的高并发,会带来百 GB/s 的读写吞吐。


这就要求存储空间是一个具备快速反应能力的“在线文档”,不仅能够进行写作,还需要保证写的过程中流畅不卡壳,且随时保存文章进度,不会因为断电时前功尽弃。


此外,即使大模型训练成功,生成的内容同样具有不可预测性,在投入市场前,还要进行数据内容审核等操作,这又对存储提出了海量数据的快速检索和智能管理等要求……


一言以蔽之,大模型的整个生产流程亟需存储“管家”,让其解放双手。基于此,腾讯云 AIGC 存储解决方案是为 AIGC 及大模型产业量身定做的解决方案,在各个过程中帮助大模型企业“减负”,让其轻装上阵。



多管齐下,腾讯云的“减负”私教课



具体而言,腾讯云如何在各个环节为大模型产业降本增效?


首先,腾讯云对象存储 COS 配合自研数据加速器 GooseFS 打出一套组合拳,搭建“百川归海”的海量数据底座,在低成本、高性能的海岸基础上,以让“数据海水”自由流动,打破“数据孤岛”。


在数据收集过程中,腾讯云 COS 对象存储提供了支持多地域的便捷公网接入能力的海量存储池,如多个端口接入、容量无上限的数据全家桶——基于腾讯云自研的分布式对象存储引擎 YottaStore,支持单集群 1 万台服务器、单集群百 EB 级的存储,并支持通过生命周期管理的方式降本,在海量储存同时兼具性价比;


在此基础上,GooseFS 可以有效的提升上层应用访问 COS 的性能,并通过 VPC 网络打通数据流,多节点构建 TB/s 的吞吐能力,二者在数据收集、预处理阶段的进行协同作战,实现“1+1 大于 2”的效果。


而进入数据处理、训练环节,腾讯云则打出 GooseFS 数据湖三级加速体系 +CFS Turbo高性能并行文件存储的“攻速流”,为训练加速提效。


拿业内首创的 GooseFS 数据湖三层加速体系来说,基于数据加速器 GooseFS、元数据加速器和 COS 加速器,可以将训练数据加载到 GPU 内存、本地盘或者可用区全闪存储集群等不同级别的缓存中,缩短 IO 路径,提升数据访问性能。


具体而言,在传统存储中,每次调取所需的数据都需要把箱子翻个底朝天,而 GooseFS 则通过“分级存储”的思路,把需要高频或快速调用的数据先加载到“手边”,更快拿到。


相比起从对象存储 COS 中直接读取,GooseFS 可以提供亚毫秒级的数据访问延迟、百万级的 IOPS 和 Tbps 级别的吞吐能力,有效提升数据清洗和训练的效率,促进数据要素的快速流转,实现“降维打击”。



而训练过程中,为解决传统文件存储无法高速并发、读写的痛点,腾讯云自研云原生并行文件存储 CFS Turbo,提供 TiB/s 吞吐、千万级 IOPS、支持数万 GPU 并发访问,可以满足 AI 大模型训练场景中对存储的高要求,3TB CheckPoint 文件可在 10s 内写入。


CFS 是如何做到的?如果说传统的分布式存储(NFS 协议)是通往数据仓库的一条单行道,那么 CFS 则在仓库中构建了多链路同时传输、四通八达的“智能交通网”,并配备多扇大门,允许随用随取、自行搬运需要的“数据货物”,从而提高效率。


在 AIGC 这一数据车流量激增的高性能场景下,传统单链路传输往往会造成交通堵塞,而 CFS Turbo 则突破了 NFS 协议的限制,大大缩短文件读写耗时。除了并行访问外,CFS 这一数据仓库兼具“智能缓存”“分布式元数据”等优势,让使用者就近调取数据,并支持多人同时查看,进一步加速大模型训练进程。


实现高速训练后,腾讯云为大模型“负责到底”,包罗万象的数据智理——数据万象 CI,正在通过审核、预处理、分发能力切入 AIGC 客户内容生产流程,成为 AIGC 时代的“内容运营”。


在 AIGC 时代,隐私、安全问题等问题进一步提上日程,随着我国《生成式人工智能服务管理办法》出台,如何生成合规、合法的内容,不仅是对大模型的考验,更是对内容审核服务能力的挑战。


基于此,数据万象 CI 不仅能够针对各类数据进行同步或异步审核,还可以与对象存储内网打通,通过内网调用,可进一步降低审核时数据交互的耗时。同时,数据万象提供肉眼不可见的盲水印添加能力,既不会影响到 AIGC 内容的质量和观感效果,又能让 AIGC 内容拥有“隐形身份证”,大大提高了原创保护能力。


除内容审核和盲水印外,数据万象整合腾讯领先的 AI 技术,提供图片处理、媒体处理、AI 内容识别、文档服务等全品类 300 多种多媒体数据的处理能力:


如帮助 AIGC 服务商对视频、音频等多类型数据进行快速打标,便于后续为数据提供高效的检索推荐服务;立足画质增强、视频超分、视频拆条等能力,为 AIGC 服务商提供内容编辑、数据生产工具集,提升数据质量和研发效能……一言以蔽之,数据万象 CI 相当于一个种类丰富的数据处理工具箱。


——可以看到,腾讯云提供的并非针对某个具体问题的“一块砖”,而是 AIGC 时代一整套的解决方案和能力,基于此领跑行业,在 AIGC 时代不断“炸街”。



不断突破,腾讯云卷向“next level”

如今,从 GPT 问世,到 Sora 的横空出世,在瞬息万变的 AIGC 数据战场,新技术的问世、新浪潮的掀起,都在倒逼存储不断升级,以跟得上行业步伐。基于此,腾讯云立足前沿应用阵地,以快速的迭代升级适配厂商新需求。

 

如此次全新首发的智能检索 Metalnsiqht,即具备前沿的语义检索技术和丰富的元数据挖掘功能,完美适配数据大爆炸时代,不断被浮出水面的数据检索场景及需求:


在当下,“如何快速找到需要的数据及背后的数据持有者、如何挖掘数据的价值”成为 AIGC 提供商的另一大痛点。这背后是数据流动受阻问题越来越引起重视——数据使用者不知道什么数据在什么位置,在数据“沼泽”中苦苦寻觅,而数据持有者则不知道手里的数据到底有什么用,造成了伯乐与千里马不匹配、数据“各自为营”的数据孤岛,让有价值的数据无法高效率利用。


根据 IDC 机构调研的数据显示,企业认为有 60% 的业务数据是有价值的,而这些数据中仅有 56% 被实际分析;有 18% 的企业认为“缺乏高质量数据”是其在组织中使用生成式 AI 的障碍之一。


而数据万象智能检索 MetaInsight 则提供了一站式数据处理、分析、检索解决方案适配 AIGC 数据检索需求,基于多模态检索结合结构化标签的产品架构,用户可将 MetaInsight 中的数据源关联多类型 AI 元数据联合查询或进行跨模态特征匹配,实现非结构化数据内容高效检索。


同时,数据万象智能检索 MetaInsight 覆盖多行业全媒体文件类型,通过机器翻译,模型清洗,图文配对,交叉验证等处理工作,及自研检索引擎基础上的多模态特征效果验证工作,支持文搜图、图搜图、文搜视频等多种数据检索手段。在当下,MetaInsight 的应用相当于杂乱无章的 AIGC“图书馆”配置全自动化管理员。


如开箱现场,腾讯云存储解决方案总监温涛演示了 MetaInsight 的“图搜图”功能:在输入一张床上用品图片后,马上可以在右半部分获得检索的结果,并给出经过 AI 量化的相似度数值作为参考。


正是得益于高度匹配市场需求,在应用市场,腾讯云已经赋能多个行业头部企业:MiniMax、百川智能、智谱等 80% 的头部大模型企业选择腾讯云存储,并得到了坚实赋能。



依托对象存储 COS 与智能数据处理平台数据万象,MiniMaxAIGC 海量内容的处理分析业务得以被承载,其中百毫秒级的安全审核能力保障了业务的合规平稳运行,数据的预处理能力大幅提升了数据流转的效率,让业务可以更聚焦在核心场景的应用与推广。


而 MOREVFX 在渲染《流浪地球 2》的过程中,通过 CBS 云硬盘的极速快照特性,就近保存、更快加载数据,把渲染节点的开机时间从数分钟降低到数十秒,在作业高峰期“平稳着陆”,为项目加速提效。


技术领跑行业,并切实赋能市场:正因如此,在前不久沙利文联合头豹研究院发布《2023 年中国云存储解决方案市场报告》中,腾讯云存储入选“领导者”阵营,位列第一。这也符合 AIGC 时代的“技术祛魅心态”——能高效解决行业痛点、抓到耗子才是好猫。如今,一条龙式解决方案将是云储存领域大势所趋,而腾讯显然已经完成“领跑者”占位。


AIGC 大模型工场已经组织了非常精准的「AI 大模型垂直社群」,覆盖超 1000 位 AIGC 圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360 大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信 fqq2000nian,注明真实身份。


数据支持天眼查,大模型独家合作账号

— END —

监制 / 刘老师
编辑 / AIGCCCCC
视觉 / 大模型
微博 / @AI 大模型工场
TG/AI  Marketing Field

  


大模型应用创业者,你怎么看

■ 百度文心一言,阿里通义千问   ▍通用大模型案例

                 ■ 科大讯飞星火 京东  ▍产业大模型案例

■ 商汤日日新、腾讯,昆仑万维   ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例

■知乎,360 大模型,火山引擎 ▍ 教育大模型案例

■  网易,金山办公大模型   ▍    更多行业大模型案例



上次介绍大模型重塑产品时代,BAT 新老玩家“生产力比武”





本文由大模型领域垂直媒体「AI 大模型工场」

原创出品,未经许可,请勿转载。 

/

欢迎提供新的大模型商业化落地思路

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

NFT 营销工场
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开