自然人机交互迈出重要步伐- 南方企业新闻网

自然人机交互迈出重要步伐
2024年05月19日来源：经济日报

提要：接入GPT-4o的ChatGPT语音助手，能和用户实时对话且从语音中分辨用户是否紧张，能通过前置摄像头观察用户的面部表情并分析其情绪变化，能当家教老师在线教孩子解数学题……能听、能看、能说，且达到人类级别的响应时间和表达能力，难怪不少网友惊呼：大模型从“呆瓜”变“真人”了！

近日，美国人工智能公司OpenAI在其春季发布会上展示了新一代旗舰生成模型GPT-4o。接入GPT-4o的ChatGPT语音助手，能和用户实时对话且从语音中分辨用户是否紧张，能通过前置摄像头观察用户的面部表情并分析其情绪变化，能当家教老师在线教孩子解数学题……能听、能看、能说，且达到人类级别的响应时间和表达能力，难怪不少网友惊呼：大模型从“呆瓜”变“真人”了！

作为人工智能大模型浪潮的领航者，OpenAI这次发布展现了人工智能大模型2个新趋势。

一方面，大模型向应用端需求进化，商业价值更加凸显。

在GPT-4o之前，用户以语音模式与ChatGPT对话，要通过音频转文本、文本处理、文本转音频3个模型来实现，平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。GPT-4o是OpenAI的首个“端到端多模态大模型”，“o”代表omni，即“全能”的意思。它用一个模型同时处理文本、视觉和音频的输入输出，所有输入和输出都由同一个神经网络完成，这让它的反应速度有了质的提升。GPT-4o可以在短至232毫秒、平均320毫秒的时间内响应音频输入，与人类在对话中的反应速度一致。这意味着高端人工智能产品更接近一个自然人，向自然人机交互迈出了重要一步。

GPT-4o在资源消耗和响应速度上进行了优化，达到了与GPT-4 Turbo相当的能力，且降低50%的推理成本，打开了商业推广的空间，更有利于在智能手机、智能电脑等个人终端上实现端侧应用。在消费终端，用户需求多样化且变化迅速，需要提升交互界面的友好性和易用性，让用户获得流畅、自然的交互体验。GPT-4o向具备情绪价值和自然交互能力的方向进化，意味着大模型在端侧的落地更进一步，有望开启下一波科技应用和商业模式的革命，出现人工智能的国民级应用。

另一方面，大模型技术迭代放缓，风险和不确定性增加。

OpenAI并没有推出万众期待的GPT-5，这让不少业内人士推测，OpenAI“用更多大数据炼更大模型”这条技术迭代路线可能已遇到瓶颈，国内底层大模型加速追赶的窗口期或许到了。人们还期待GPT-5解决当代大模型存在的最大问题——幻觉（胡编乱造），因为它影响大模型的可靠性。这个问题也没能在GPT-4o中获得解决。有些网友就在试用中发现它会认字不会写字，如果让它输出一张含有特定文字内容的手写字体图画，它会写出谁都看不懂的自造字。此外，OpenAI去年发布的GPT-4模型仅限付费用户使用，今年则宣布新模型GPT-4o用户不用注册、功能全部免费。OpenAI开始卷起了免费，可能是GPT的用户增长和收入增长都已经碰到瓶颈。

从卷参数、卷文本长度再到卷多模态，大模型的竞争一直很激烈。随着当前人工智能技术的快速发展，大模型技术路径和商业模式的多样性和不确定性增加，商业投资风险也随之增加。对国产大模型来说，风险也是机遇。比如，全球首个三模态大模型其实是2021年7月中国发布的“紫东太初”。不管大模型赛道往什么方向去，中国都有基础，也应该有信心打开更广阔的应用商业化空间。

版权及免责声明:
1. 任何单位或个人认为南方企业新闻网的内容可能涉嫌侵犯其合法权益，应及时向南方企业新闻网书面反馈，并提供相关证明材料和理由，本网站在收到上述文件并审核后，会采取相应处理措施。
2. 南方企业新闻网对于任何包含、经由链接、下载或其它途径所获得的有关本网站的任何内容、信息或广告，不声明或保证其正确性或可靠性。用户自行承担使用本网站的风险。
3. 如因版权和其它问题需要同本网联系的，请在文章刊发后30日内进行。联系电话：01083834755 邮箱：news@senn.com.cn

责任编辑：张苏婧