原本备受期待的 AI 搜索并没有成为焦点,竞争的重心突然转移到了 AI 智能助手上。
最近,OpenAI 推出了全能模型 GPT-4o,它可以处理多种输入并生成相应的输出,展示了其毫秒级响应和多模态交互的强大能力。与此谷歌在其 I/O 开发者大会上展示了其 AI 助手 Astra 和旗舰大模型 Gemini。
一些业内人士认为,OpenAI 此次并没有取得预期的突破,而只是整合了现有的技术。谷歌在 AI 搜索领域的布局和创新,以及其在智能手机操作系统上的优化努力,彰显了其在 AI 领域的深厚积累和战略布局。
竞争已进入白热化阶段,似乎已经超越了单纯的技术竞争,更关乎应用和用户体验。当影响因素变得复杂,专注投入于大模型前沿的 OpenAI 还有多大胜算?
突袭谷歌,OpenAI 率先发布 AI 个人助理
正如预期的那样,围绕 AI 搜索的战争并未打响,焦点转移到了 AI 智能助手之上。
当地时间 5 月 13 日,OpenAI 在谷歌 I/O 大会前一天召开发布会,推出了最新产品 GPT-4o,“o”即“Omni”,意为“全能”。OpenAI 官网表示,GPT-4o 是迈向更自然人机交互的一步,因为它可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。
OpenAI 首席技术官米拉·穆拉蒂在发布会上表示,GPT-4o 的速度是现有 GPT-4Turbo 的两倍,但成本仅为其一半。GPT-4o 可以实时对文本、音频和图像进行推理,响应时间几乎达到人类水平。
在长达 26 分钟的直播中,GPT-4o 展示了其一系列新能力,包括毫秒级响应、识别人类情绪进行音视频交互,以及多模态输入/输出等。GPT-4o 覆盖桌面和移动应用,且完全免费向用户提供。
而谷歌则在其 I/O 开发者大会上,展示了其全面的 AI 实力。在大会上,谷歌连续发布、更新了十多款产品,包括 AI 助手 Astra、文生图模型 Imagen3、对标 Sora 的文生视频模型 Veo,以及旗舰大模型 Gemini。
在谷歌的演示视频中,使用 AI 助手 Astra 时,只要打开手机摄像头对准任意物品,AI 就能准确说出物品的名称。Gemini 可以识别手机摄像头对准的物体,例如一个红苹果,还可以回答诸如“画面中什么东西可以发出声音”这样的问题。
谷歌表示,今年夏季将扩展 Gemini 的多模态功能,包括增加通过语音进行深入双向对话的能力,该功能被称为 Live。通过 Gemini Live,用户可以与 Gemini 交谈,并可以选择它用各种自然声音进行回应。用户甚至可以按照自己的节奏说话,或是在回答过程中打断并澄清问题,就像在任何人类对话中一样。
据媒体报道,苹果公司近期与 OpenAI 达成协议,今年将把后者的一部分技术引入 iPhone。而在本次发布会上,谷歌产品管理副总裁萨米尔·萨马特明确表示,谷歌将通过 Gemini 进一步优化安卓操作系统。
这项优化首先将在 Google 自家的手机 Pixel 上体现。
对于 OpenAI 的突然更新,业界不再是一片赞叹声。
“发布会虽然惊艳,但 Google 看完应该不会慌。”猎豹移动董事长兼 CEO、猎户星空董事长傅盛在他的个人微博上表示。
在 5 月 14 日发布的短视频中,傅盛提到“所有国内人工智能从业者都在熬夜等着大洋彼岸投放核弹,但没想到核弹没投放,反而掏出一堆摔炮”。他表示,这样的评论虽然是句玩笑话,但令人失望的是这次 OpenAI 没有发布 GPT-5.0,连 GPT-4.5 都没有见到,而是发布了 GPT-4o,“就是把一系列引擎结合在一起,比如图片、文字、声音,这样你就不需要来回切换了”。
傅盛随后也表示,“OpenAI 这次为了让更多用户使用它,可以说是拼尽全力,推出了一系列应用,API 降价,GPT 免费,我们当然希望 OpenAI 能够让这个行业发展得更好,我们也能认真地去学习,这次的发布会真正告诉我们应用大有可为,所有人应该努力”。
“GPT-4o 出来后,比以前进步了一大截,它(OpenAI)每次一升级就会‘死’一些公司,这次一些做 GPT 实时语音交互的团队,直接可以宣布解散了。”GPT-4o 发布的第二天,一位大模型行业创业者对《每日经济新闻》记者感叹。
清华大学新闻学院元宇宙文化实验室主任沈阳在 GPT-4o 发布的第二天也试用了它,并在发布的视频号中提到,在文生图方面,GPT-4o 在毛发细腻度、光影效果等细节上更加出色。
随着双方在智能助手上的对决,沈阳认为,当前的竞争格局已经更加清晰,Google 正在进一步推广其基于 Gemini 的 AI 助手,苹果公司与 OpenAI 也初步达成合作,将在苹果手机上搭载 ChatGPT。
沈阳表示,以本次发布会为转折点,ChatGPT 被改造成了灵魂伴侣,实际上就是 Siri,所以产业格局已经明晰,即苹果用内置的 ChatGPT 对抗 Google Gemini 的手机助手。Meta 也将上线基于 Llama 的手机助手。对于产业来说,AI 助手有望从 1 亿量级的用户量走向 10 亿量级。
“GPT-4o,昨天发布时它觉得很强大,但今天我觉得 Google 的最新发布也完全追上了它的成绩,我觉得 OpenAI 接下来应该会更加紧张,因为应用公司、超级大平台公司全部赶上来了,它的优势越来越少。”顺福资本创始人、行行 AI 董事长李明顺对《每日经济新闻》记者表示,从目前来看,OpenAI 的用户增长已经不太明显,技术领先和成本优势都不一定是最好的,与此强应用时代到来得越来越快,在这种背景下,Google 这次将所有应用与大模型集合在一起,形成更强的用户粘性和用户依赖度,还是更胜一筹。
在李明顺看来,下个阶段,美国的平台应用公司,包括微软、苹果、戴尔,以及中国的腾讯、字节、阿里都会陆续将自己的应用与大模型能力相结合,推出超级应用,逐步迈向综合竞争时代,靠一个大模型打江山会更难。