- 100天后,阶跃星辰交出第二份答卷:加速奔向AGI
- 2024年07月06日来源:南方企业新闻网
提要:在生态合作方面,阶跃星辰已经在金融、网络文学、知识服务、游戏、数字人、影视等领域与合作伙伴达成了深度合作,共同探索面向C端用户的创新应用。例如,这次现场展示的“大闹天宫”AI互动体验就是阶跃星辰与上影在影视领域达成的生态合作伙伴关系的结果。全程由AI多模态大模型生成的内容生动展示了多模态大模型的基础能力。
阶跃星辰,作为国内通用大模型公司,在2024年3月的全球开发者先锋大会上,成功发布了Step系列通用大模型,包括Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型以及Step-2万亿参数MoE语言大模型预览版。这一举措不仅让阶跃星辰正式进入大众视野,还使其成功跻身国内六大大模型独角兽行列。
因此,当得知阶跃星辰也将出席WAIC时,充满了期待和好奇,希望能够探究一下阶跃星辰对当前关于AGI的各种共识和非共识问题的看法。然而,出乎意料的是,阶跃星辰在WAIC上交出了第二份答卷——发布了Step-2万亿MoE语言大模型正式版、Step-1.5V多模态大模型和Step-1X图像生成大模型。
此次产品升级距离上次发布仅过去了100天,这表明阶跃星辰在通往AGI的漫长旅途中,已经从“走路入场”转变为“跑步前进”。
3个多月前,当阶跃星辰宣布Step-2万亿参数MoE语言大模型预览版时,引起了广泛的关注和好奇。而在WAIC大会上,Step-2万亿参数MoE语言大模型正式版终于亮相。它采用当前热门的MoE(Mixture of Experts)架构,又称“混合专家”,是一种模块化的稀疏激活方法,可以在增大参数规模的同时,降低计算成本,实现高效训练。
在通往AGI的道路上,业界大多数人坚信Scaling Law定律——模型越大,性能越强。阶跃星辰也是其中之一。然而,现实问题是模型的升级迭代离不开算力的支撑,而算力的不足和匮乏显然是当前业界为数不多的共识之一。
因此,在意识到MoE可以解决这一难题时,一些大模型从业者相继推出了基于MoE架构的大模型,如国外的Mistral AI、xAI以及国内的MiniMax、元象科技、DeepSeek AI等。而阶跃星辰则是其中少有的、早早将MoE架构用在万亿参数规模大模型的玩家。
姜大昕告诉AI科技评论,阶跃星辰在完成Step系列千亿模型的训练后,就开始了万亿模型的训练。他认为,如果要将模型参数扩大到万亿级别,MoE几乎是一个必选项。因为在性能、参数量、训练成本和推理成本等维度权衡下,MoE是最佳选择。
在设计Step-2 MoE架构的过程中,阶跃星辰还进行了算法架构的创新。具体来说,当前MoE模型的训练方式主要有两种:一种是通过upcycle(向上复用)基于已有模型开始训练;另一种是从头开始训练。第一种方式的算力需求较低,训练效率较高,但容易出现专家同质化严重等问题;而第二种方式虽然训练难度较高,但能够获得更高的模型上限。
阶跃星辰选择的是完全自主研发从头开始训练的方式,通过部分专家共享参数、异构化专家设计等创新的MoE架构设计,使得Step-2中的每个“专家模型”都得到了充分的训练。结果是不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了当前市面上的大部分Dense模型。
此外,在Step-2的训练过程中,阶跃星辰系统团队还突破了6D并行、极致显存管理、完全自动化运维等关键技术,使得整体的训练过程更加高效。
据阶跃星辰透露,目前Step-2万亿参数MoE语言大模型在数理逻辑、编程、中文知识、英文知识和指令跟随等方面已经全面逼近GPT-4。
阶跃星辰在3月份推出的Step系列模型是经过将近一年的酝酿和准备的成果。而现在距离上一次发布仅过去了100天,就实现了对Step系列模型矩阵的全新升级。这表明阶跃星辰在通往AGI的漫长旅途中,已经从“走路入场”转变为“跑步前进”。
尽管业界对AGI的定义和路径进行了一次次的探讨和争论,但不可否认的是,至今尚未形成一个明确而具体的共识。每个路线上的攀登者都认为自己将会是最终达到AGI终点的选手,姜大昕也是如此。
从成立之初,阶跃星辰就明确了自身通往AGI的路线图:单模态—多模态—多模态理解和生成的统一—世界模型—AGI。换句话说,就是以实现AGI为目标,专注研发多模态基础大模型,基于自研基础大模型打造新一代“AI+”应用。
在这个过程中,姜大昕认为攀登AGI巅峰需要“万亿参数”和“多模融合”两个关键要素。一方面,多模态理解和生成的统一是通向AGI的必经之路;另一方面,模型参数量决定了模型的能力上限,因此全面进入万亿参数级别是通向AGI的核心之一。这也是为什么阶跃星辰在完成Step系列千亿模型的训练后,就马不停蹄地开始训练万亿模型的原因。
据了解,此次阶跃星辰的Step系列通用大模型获得了WAIC 2024 SAIL之星称号。SAIL奖(Super AI Leader)是WAIC的最高奖项,旨在从全球范围内发掘在人工智能领域中具有高度认可和美誉、并具有提升人类福祉意义的项目。
除了在模型上取得突破外,阶跃星辰在应用上也没有松懈。从成立之初,阶跃星辰的策略就是技术和产品“两手抓”。因为姜大昕坚信模型需要应用作为牵引和数据的补充,具体到某个应用时一定要通过模型与它深度绑定,这样应用才能做到极致。
基于Step系列大模型,阶跃星辰通过自研产品和生态合作产品逐渐形成了丰富的产业应用生态圈,并在重点行业领先落地。例如,“跃问”和“冒泡鸭”就是阶跃星辰自研产品的代表,“跃问”是一款AI聊天类应用,定位为个人效率助手;而“冒泡鸭”则是一款由剧情和角色构成的AI开放世界,可以为用户提供娱乐和社交服务。据了解,目前这两款产品都已经全面开放使用。
在生态合作方面,阶跃星辰已经在金融、网络文学、知识服务、游戏、数字人、影视等领域与合作伙伴达成了深度合作,共同探索面向C端用户的创新应用。例如,这次现场展示的“大闹天宫”AI互动体验就是阶跃星辰与上影在影视领域达成的生态合作伙伴关系的结果。全程由AI多模态大模型生成的内容生动展示了多模态大模型的基础能力。
接下来,阶跃星辰还将继续积极探索并持续扩大生态圈,结交更多的生态伙伴。
今年3月份,阶跃星辰作为一颗新星正式亮相时,凭借其在大模型领域的技术实力改变了当时的“五虎”格局,成功上位成为“六大独角兽”之一。如今,阶跃星辰的万亿参数大模型正式亮相并不断获得行业和资本市场的认可。或许在不久的将来,国内大模型的格局和位置又将迎来新的变化。