又是疯狂的一周,全世界都「AI 麻了」!
文章来源:极客公园
作者 | 宛辰
编辑 | 靖宇
是因为「劳动节」吗?全世界所有的公司,都选择在 5 月第三周,将最新的 AI 产品和技术,集中释放。
丧心病狂的一周!
铺垫了许久的「周一见」,OpenAI 用 GPT-4o 夺走了注意力。24 小时后的发布会上,谷歌也没有「掉链子」,Veo 视频模型、Project Astra、新版 AI 搜索都留下了惊艳的记忆点。
地表最强但风格迥异的两场发布会,只在一点上达成共识——电影《Her》一般的超强语音助手(GPT-4o 和 Project Astra),这也变相公布了 2024 年大模型赛道的竞赛点——GPT-4o 和 Astra 背后的多模态融合技术。
大洋彼岸的另一端,姗姗来迟的字节跳动发布了豆包大模型家族,腾讯终于交出了「GPTs」和大模型助手 App 的答卷。
今天看来,无论是「拖家带口」的大厂,还是「没有包袱」的创业公司,产品形态都一再扩展:从聊天机器人,到 AI 搜索、「GPTs」、多模态语音助手.... 玩得越来越花。
不知道你麻没麻,反正我们是幸福地麻了。
5 月 13 日(周一)
AI 化身/人形智能体正在快速演进:宇树发布 Unitree G1 人形机器人
¥9.9 万元起,远低于行业售价
大语言模型出圈,让可以实现具身智能的人形机器人火了。
2023 年 8 月,宇树科技发布了人形机器人 H1,预售价为 9 万美元(约合 65 万元人民币)。本周,宇树推出的新版人形机器人 Unitree G1 将价格降到 9.9 万元人民币起,便宜了超 80%。
与第一代产品相比,Unitree G1 能力显著提升:开瓶盖、砸核桃、颠锅、跑步、舞棍、自我蜷缩……在宇树科技发布的产品演示视频里,身体和双腿能旋转近 360°,Unitree G1 像人类一样用机械双臂灵活地完成一系列工作。
开源闭源并进:零一万物发布千亿参数 Yi-Large 模型
开源构建生态,闭源探索AI上限
零一万物成立一周年之际,其千亿参数 Yi-Large 闭源模型正式亮相,在斯坦福最新的 AlpacaEval 2.0 达到全球大模型 Win Rate 第一。
同时,零一万物将早先发布的 Yi-34B、Yi-9B/6B 中小尺寸开源模型版本升级为 Yi-1.5 系列,每个版本达到同尺寸中 SOTA 性能最佳。
5 月 14 日(周二)
「Her」真的来了:「GPT-4o」将语音助手带到了新高度
多模态融合模型,只是工程的进步吗?
OpenAI 发布了新一代旗舰模型 GPT-4o,它可以让人们在手机上与 ChatGPT 对话,就像他们与 Siri 和其他语音助手对话一样。不同的是,ChatGPT 语音助手的理解能力有了质的飞跃,还可以分析和讨论它所看到的图像或视频,并能识别用户说话时的不同情绪。
有了 GPT-4o 的加持,ChatGPT 可以根据你的想法引导你做数学题目、按照你的实时要求讲一个睡前故事。OpenAI 称 GPT-4o 是为了创建一个对音频、图像和文本有更深入、更自然理解的模型,这依旧是为了向 AGI 目标行进。
OpenAI 的发布,也在 AI 圈引起了广泛讨论。业界普遍认为,GPT-4o 的惊艳之处在于两点:1)将语音交互延迟缩短到 300ms;2)端到端多模态原生大模型
P.S.: 留一个观察作业:GPT-4o 会显著提升 ChatGPT 的日活和用户粘性吗?有了更高 AI 能力的智能助手,2016 年的百箱大战会席卷重来?Siri 一样的语音助手会成为入口级的必争之地?
5 月 15 日(周三)
没有一款产品没有被 AI 改造:谷歌全面进入 Gemini 时代
Sora 尚且是科技巨头的选做题,但多模态融合就是大模型公司的必做题。
提了 121 次 AI,谷歌 I/O 2024 开发者大会发布了一箩筐,从搜索到 Gmail、TPU,再到语音助手 Astra 和多模态视频模型 Veo 等。
三个产品值得关注:
- Project Astra 的多模态 AI 助手。如果说 2023 年的竞赛点是 Copilot,2024 年,赛点则进化为多模态融合的 Agent,背后是从 LLM(大语言模型)到 One-network-multimodality(一个框架下的多模态大模型)的技术路径迁移,最终迈向跟通用的人工智能。
- Veo:Veo 可以根据文本、图像和视频提示创建 AI 生成的视频,并且即将登陆 YouTube,帮助创作者快速制作更专业品质的视频。
- AI 搜索:谷歌展示了如何进一步将人工智能集成到搜索中,从而实现更复杂形式的研究和规划(例如,根据查询生成三天的素食计划)。
大模型之字节打法:没准备好就不发,否则一次发布 9 个模型
模型发得晚,应用没少做,怎么想的?
字节跳动自研大模型豆包大模型(原云雀大模型)家族带着 9 个模型,首次对外亮相。字节跳动方面称,之所以是这 9 个模型,是根据后台模型调用量和需求而来,做了最强通用模型、性价比之选、和场景优化模型。
豆包大模型的推理价格成为一大亮点,其主力模型在企业市场的定价只有 0.0008 元/千 Tokens,0.8 厘就能处理 1500 多个汉字。
值得注意的是,字节发布会没有介绍模型参数、数据和语料,甚至没有给出豆包模型的评测数据,而是直接把模型能力在场景里做了垂直细分。字节可能是在建立用户反馈、数据反馈,从而做更精准地场景和服务。根据不同的数据链反馈,决定产品或者模型的下一步动作。
过去大半年,字节跳动推出的 AI 应用几乎涵盖了所有热门赛道,「豆包」、AI 应用开发平台「扣子」、互动娱乐应用「猫箱」,以及星绘、即梦等。
大模型队伍的隐秘玩家:DeepSeek Chat 通过大模型备案
降成本!我带头!
国内拥有超过 1 万枚 GPU 的企业不超过 5 家,幻方这家千亿规模的量化基金就是其中之一。意外地提前压中大模型的入场券——囤卡,但幻方做大模型是认真的。
今年 1 月以来,幻方旗下公司的 DeepSeek 模型被频繁作为开源社区里讨论的对标对象。本月,幻方开源了第二代 MoE 模型:DeepSeek-V2,主打参数更多、能力更强、成本更低。其在能力逼近第一梯队闭源模型的前提下,推理成本降到了 1 块钱 per million token,也就是说,成本是 Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一。而且,DeepSeek v2 还有利润。
DeepSeek v2 发布后,引来了大模型价格战,智谱、面壁、字节相继宣布了模型推理价格降低。这背后是模型架构、系统、工程的一系列进步。你有没有发现,OpenAI 的价格也降低了 10 倍不止。
Anyway,现在,DeepSeek-V2 已经通过备案,你可以联网体验,隐秘玩家的隐秘实力究竟如何?
5 月 16 日(周四)
文生图、文生视频:DiT 架构正在被广泛拥抱
开源力量大
腾讯旗下的混元文生图大模型宣布对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
混元文生图大模型是中文原生的 DiT(Diffusion Models with transformer)架构文生图开源模型,这也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术,是一种基于 Transformer 架构的扩散模型。过去,视觉生成扩散模型主要基于 U-Net 架构,但随着参数量的提升,基于 Transformer 架构的扩散模型展现出了更好的扩展性,有助于进一步提升模型的生成质量及效率。
5 月 17 日(周五)
「GPTs」和大模型助手 App:大厂必备,腾讯版来了
已接入 600 多个腾讯内部业务和场景
本周,腾讯公布了大模型研发、应用产品的系列进展。
腾讯混元大模型升级,推出在质量和成本上有不同特点的三个模型版本,其内部已经有 600 多个业务接入大模型。
在工具层,发布了腾讯云大模型知识引擎、图像创作引擎、视频创作引擎三大 PaaS 工具链,简化数据接入、模型精调、应用开发流程。
值得注意的是,腾讯终于推出了自家「GPTs」——元器,用户可以使用腾讯官方的插件和知识库直接创建智能体。开发完成后,将智能体一键分发到 QQ、微信客服、腾讯云等渠道上。腾讯还将于月底推出基于混元大模型的全新助手 App「腾讯元宝」。
写在最后:
本周,与上述 AI 产品、技术发布一同进展的,还有各大 AI 公司的「水下操作」。
什么都无法阻挡 Scaling Law 的脚步:
- 主导超级对齐的 OpenAI 联合创始人兼首席科学家 Ilya Sutskever 在社交平台 X 上宣布,他将离开公司。随后,超级对齐团队负责人之一 Jan Leike 也宣布离职,并发推称,超级对齐团队在公司内部被边缘化,无法获取计算资源做研究。
- AWS CEO Adam Selipsky 离职,或由于 AWS 错失 AI 投资和研发的最佳时机。
- 微软宣布将在法国投资 40 亿欧元,大部分将集中在 AI 领域
- 马斯克的 xAI 斥资近 100 亿美元租用 Oracle 人工智能服务器
AI 应用正在拓展既有想象力:
- 企业级可用大模型的 Anthropic 从 Instagram 挖来了 CTO 做产品,或进军 ToC APP。
- Meta Platforms 正在开发的带有摄像头的人工智能耳机项目,摄像头将使耳机能够识别佩戴者周围物理世界中的物体。Sam Altman 最近也被曝和前苹果设计大师 Jony Ive 正在探索开发带有摄像头的 AI 耳机,「很快你的耳朵里也会长出眼睛」。
下周,北京时间 5 月 22 日凌晨,AI 的另一大玩家微软,即将在西雅图举办 Hybrid:Microsoft Build 大会。官方网页上大大的「How will AI shape your future?」,强调了本次大会的主题。
金钱永不眠,AI 也是。

币安网
欧易OKX
HTX
Coinbase
大门
Bitget
Bybit
K网(Kraken)
双子星(Gemini)
Upbit
泰达币
以太坊
比特币
Solana
USD Coin
瑞波币
币安币
First Digital USD
狗狗币
OFFICIAL TRUMP