作者|贝子
编辑|方奇
媒体|AI 大模型工场
从去年底的Kimi大模型开始,国内大模型的竞争重点,卷到了长文本。
客观来说,这并不是大模型厂商的“拍脑袋决策”,而是多数大模型用户的刚需场景——对于企业的专业人士和学术界的莘莘学子,他们面对动辄成千上万的专业文本,有些时候并不能做到逐字逐句地理解和分析,时间和精力都不允许。
但问题在于,“专业文本”存在的形态,是多样的——它可以是大学教授长达数小时的专业讲座录音、黑板板书;也可以是厚达数十页的商业合同与合作条款;同样也能是查阅资料获取的几百页专业文档。
很显然,这类更复杂场景下的“长文本”,或许才是大模型发挥作用的真正战场,而要实现这样的能力,对于大模型厂商的纵向技术积累与横向模态扩展,都提出了更高的要求。
文本、图文、语音:通用大模型的三座大山
目前市面上的通用大模型,在基本功能上是趋于一致的,对于一些日常问题和普通需求,基本都能胜任。
但在用户的实际工作场景,尤其是针对一些专业用户来说,所需分析和处理的文本量,通常在万字起步,文档数也不止一个,更不用说多数知识和“文本”,有时候会以图片和语音的形式存在。
举一个简单的例子。一场新闻发布会,通常包括现场 PPT,演讲速记,群访录音,涵盖文字、图像、语音三类不同模态的内容。即便不出于工作的需要,多数参与者也需要理解各个场景下的内容。如果没有大模型,靠人工理解 10 万字的文本量,通常需要半小时以上。即便扔给大模型,也有理解效率和容量的瓶颈。
而面对上百万甚至上千万文字,长文本大模型消耗的运算资源非常大,业界大模型往往处理一半或者更少就无法处理了,长文本功能的落地,需要解决高效处理。
也因此,一旦走到专业用户与企业用户的多场景、多模态、高文本量的刚需场景中,原本“大同小异”的通用大模型,就会被打出原型,显露出各自的短板。但从实际需求来看,用户所呼唤的,正是能“一站式覆盖”上述场景的全能大模型。
一个胜任“全知识地形”的大模型,
是怎样炼成的?
七麦数据显示,讯飞星火 APP 在安卓端的下载量已经超过 9600 万次,在国内工具类通用大模型 APP 中排名第一。
讯飞星火用户使用的最高峰不是周末,而是工作日的上午 9:30 和下午 3:30。这意味着,大部分用户用讯飞星火来解决和工作相关的刚需问题。而高效的知识获取是用户和开发者都高度关注的问题。
一个很常见的现象是,在大多数知识获取与学习的过程中,用户所能获取的资料形态,大多数时候不再是长文本形态的 word 文档,而是实体状态下的报刊书籍、学习笔记,研讨会 PPT、图像化的黑板板书,以及语音化的讲座录音等等。而在手机端,一些厂商的大模型处理能力,相较 PC 端的可支持范围,往往更窄。
如果要使用大模型充分处理这些信息,手机此处充当的,很大程度不再是一个分析终端,而是信息获取与传输终端。那么,能不能把信息获取与分析处理,在手机上“一站式解决”?
据了解,上新后的讯飞星火 V3.5“超级知识助手”,是业界首个涵盖长文本、长图文、长语音的“全地形”图文大模型。原先横在通用大模型面前的文本、图文、语音三座大山,首次出现被同时攻克的可能性。
这里同样存在技术上的难点。当文本量越来越长,达到上万或者上亿字的时候,所需消耗的算力资源可谓巨大。在算力达标之后,还涉及分析效率的问题。
在讯飞星火通用大模型底座能力基础上,通过模型的剪枝与蒸馏,科大讯飞推出 130 亿参数的大模型,参与长文本内容的处理。从直接效果来看,在效果损失仅 3% 以内的情况下,在文档的上传,以及问答响应速度上,其效率都获得了较大提升。测试显示,在保障长文本效果的情况下,无论是 10K、64K、128K token,还是更长的文本上,星火大模型的性能都做到业界最优。
面向复杂的图文场景,科大讯飞首次推出星火图文识别大模型。能够直接处理非常复杂的版面分析,目前已经覆盖 31 个典型场景,比如书刊、学术论文、专利、报纸、海报、PPT 等,针对 18 种常见版面要素,例如页眉、页脚、标题、栏目的识别,再如公式、印章、二维码、手写等较难的内容,讯飞星火也能自动识别标注出。能结合上下文语义进行文字识别分析,其结果可以做到更为精准。
具体到产品应用,星火合同助手可能是一个不错的切口。以往这些长文本合同的审核,往往需要花费较高费用聘请专业人士分析,但通过合同助手的分析,可以识别绝大多数合同中的风险点,进而保护自己的生活。
事实上,在合同使用最为频繁的招投标场景,讯飞星火 V3.5 已经实现了商业化落地。此前,科大讯飞和国家能源物资公司在企业采购场景合作了智能无人评审系统,累积评审数量 5.7 万多单,准确率为 97%。如果叠加本次升级的长文本和长图文能力,评标效果可以做到更为迅速、高效和精准。
在科大讯飞领先的语音识别领域,原先的语音大模型,也实现进一步升级——原先的超拟人对话,进一步提升了情绪表达的可感知度,对高兴、抱歉、安慰、撒娇、困惑等等这些语气表达,比原来更加的生动和高效。
从初版的一礼拜声音采集,到如今的一句话,超拟人对话的生成效率更快更高效,并且生成的效果却没有缩水。
譬如模仿家中小孩,为长辈读书读报;又或者模仿自己的声音,出差时给孩子讲故事等等。对于一些需要此类功能的用户而言,原先冷冰冰的人工智能,此刻也了温度。
知识到生产力的“最后一公里”
回顾讯飞星火的发展历程,无论是开发者、用户抑或是企业,都在为同一个目标服务:把海量的知识,通过大模型的能力,顺利转化为生产力。
如果从大模型的角度而言,生产力的顺利转化,就意味着企业在知识获取、学习与利用过程中,如何让企业级的智能体更快构建,如何“汲取”大模型的能力。
这里同样需要几个环节。其一是输入过程。大多数时候,企业流程的指令往往是一句话,但涵盖了多个不同方向的需求。也因此,智能体需要做到准确解析,并对应到相关工具,进而实现有效调用。
更高级的能力则是,这个工具需要的信息源和知识,往往不完全在企业内部,中间需要一个打通的过程,就算在内部,其信息源有时也会散落在诸如 OA、CRM 和 ERP 等各个系统中,需要做到真正打通。而中间的每个环节丝丝相扣,不能出现一点问题,企业级的智能体才能最终构建完毕。
对如今的企业而言,还需要尽可能“降本”,这里的降本不仅是管理成本。同样还有沟通和流程成本,新一代讯飞智能体的发布,只需要一句话,就能解析包含的相关任务,并链接内外部的知识和信息源,并最终汇总出准确并合适的答案。这里也涉及到原先散落在各个部门与软件里的“信息孤岛”,这是一个企业内部知识与信息的再整合,也是生产力的再整合。
但在这个过程中,作为执行者的人,仍然是关键要素,也因此,企业级智能体的最终目的,仍然不是取代人工,而是作为更智能,更高效的“超级助理”,实现更可靠和有效的人机协同。
可以看到,科大讯飞在通过技术进步,解决企业知识学习和获取的最后一公里问题。让每一个人都拥有属于自己的智能体助手,解放每个人的生产力,释放出更多精力做更有想象力、更代表未来的工作。
■ 科大讯飞星火 京东 ▍产业大模型案例
■ 商汤日日新、腾讯,昆仑万维 ▍ 金融大模型案例
■ 盘古大模型,中国电信,医联 ▍医疗大模型案例
■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例
■知乎,360 大模型,火山引擎 ▍ 教育大模型案例
■ 网易,金山办公大模型 ▍ 更多行业大模型案例
上次介绍中国 AI 大模型平台排行榜|3 月
本文由大模型领域垂直媒体「AI 大模型工场」
原创出品,未经许可,请勿转载。
/
欢迎提供新的大模型商业化落地思路
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。