数据来源:12 个 👽 subreddit、544 个 💬 Twitter账号、29 个 👾 Discord(227 频道 / 16553 条消息)、10个 Product Hunt 产品。 预计阅读时间 16 分钟,预计节约时间 1183 分钟。
今日资讯速览
- OpenAI 正式发布 GPT-5:新版本以一个自动路由的“统一系统”形式推出,包含
main、mini和nano等多个模型。其激进的定价策略和缓存折扣大幅降低了成本,旨在重新夺回智能成本的帕累托前沿。- “图表犯罪”引发争议:GPT-5 发布会的演示材料中出现了坐标轴错误、数据标注混乱的图表,被社区广泛批评为“图表犯罪”,引发了对其基准测试严谨性的质疑。OpenAI 随后修正了博客中的图表。
- 生态系统迅速集成:发布当天,Cursor、JetBrains AI Assistant、Microsoft Copilot、Notion AI 和 Perplexity 等多个主流开发工具和应用宣布已集成 GPT-5,显示了其强大的生态影响力。
- 开源社区与竞品动态:在 GPT-5 的光环下,开源模型依然活跃,Qwen 模型宣布支持 100 万 Token 的超长上下文。社区讨论认为,尽管 GPT-5 强大,但开源模型在特定任务上的表现和成本优势依然使其具有竞争力。
- 今日产品精选:SpeedVitals RUM 登上榜首,提供真实用户性能监控与分析。由 ElevenLabs 出品的高质量 AI 音乐模型 Eleven Music 位居第二。此外,开源的 LLM 网关 Bifrost 和 OpenAI 发布的开源权重模型也备受关注。
OpenAI GPT-5 发布:统一路由、定价与生态集成
核心发布内容
- 统一路由系统:GPT-5 并非单一模型,而是一个包含快速“主”模型和更深层“思考”模型的“统一系统”。系统通过实时路由器判断何时需要进行深度推理、调用工具或保持简洁回答。默认情况下,ChatGPT 中不再提供模型选择器。API 则开放了
gpt-5、gpt-5-mini和gpt-5-nano,并提供了“推理努力程度” (reasoning effort) 的控制选项。 👽 - 上下文窗口与知识截止日期:模型支持高达 400K 的上下文,最大输出为 128K。主模型的知识截止日期据称为 2024年10月1日,而 mini 和 nano 版本则为 2024年5月31日。 💬
- 激进的定价策略:GPT-5 的定价极具竞争力,主模型为每百万输入/输出 Token 1.25/10美元,
mini版本为 0.25/2美元,nano版本仅为 0.05/0.4美元。此外,还提供缓存折扣(“flex”模式下可低至 0.625/5美元)。OpenAI 多位负责人均强调了此次的成本下降和缓存经济学的重要性。 💬
生态系统快速集成
- 即时产品集成:发布当天,众多主流开发工具和应用宣布集成 GPT-5,包括:
- 编程工具:Codex CLI、Cursor(设为默认,暂时免费)、JetBrains AI Assistant。
- 生产力应用:Microsoft Copilot 的“智能模式”、Notion AI、Perplexity。
- 智能体框架:Cline、FactoryAI。 💬
---## 基准、评估与“图表犯罪”争议
- “图表犯罪”引发社区热议:OpenAI 的发布会因其演示材料中多张图表的“犯罪级别”错误而受到广泛批评。其中一张关于 SWE-Bench 性能的图表,其 Y 轴刻度不符合单调性,导致 52.8% 的位置看起来比 69.1% 更高。这一失误被社区成员戏称为“如果这是GPT-5做的图,那我可要看空了”,并迅速传播。OpenAI 后来在其博客文章中修正了这些图表。 👽
- 竞技场与代码基准表现:在发布初期,GPT-5(代号“summit”)在 LMSYS 的文本、WebDev 和视觉竞技场中均名列前茅。OpenAI 声称其在 SWE-bench Verified 上取得了 74.9% 的成绩,但研究人员指出,这仅是在一个 477 个任务的子集上运行的结果。修正后的图表显示,GPT-5 的表现在该基准上与 Claude 4.1 Sonnet/Opus 大致相当。 💬
- 长上下文与幻觉控制:GPT-5 在 Artificial Analysis 的长上下文推理基准 (AA-LCR) 中占据了第一和第二名,相较于 o3-high 取得了巨大进步。同时,多方消息称其幻觉问题大幅减少,并引入了“安全补全”机制。 💬
- ARC-AGI 基准表现:在 François Chollet 的 ARC-AGI 基准测试中,GPT-5 在 AGI-1 上得分为 65.7%,但在更难的 AGI-2 上仅为 9.9%,落后于 Grok-4 的 15.9%。 💬
---## 智能体编码与开发者工具
- GPT-5 编码初体验:早期用户反馈 GPT-5 在编码时表现出“自闭式”的精确指令遵循能力、废话更少、支持并行工具调用,并具有良好的长程持久性(如多文件编辑和可靠的 diff 生成)。Cursor 称其为“试用过的最聪明的编码模型”。 💬 同时,Nous Research AI 社区有成员报告,GPT-5 在解决逻辑谜题上表现出色,但也存在过拟合问题,即使是面对合成数据。👾
- 路由即产品:应用内模型选择器的弃用,标志着 OpenAI 将其实时路由能力作为默认的用户体验。这使得开发者的控制点从“选择哪个模型?”转向了“设定何种约束、策略、详细程度和努力程度?”。 💬
- 独立评估显示场景依赖性:有深度研究发现,在长程研究任务中,GPT-5 的表现与 Claude 4 Sonnet 大致相当,这表明其优势可能依赖于具体的使用场景和技术栈,而非全面的超越。 💬
- Qwen Code CLI 提供“氛围编程”:阿里巴巴的 Qwen 团队也发布了 Qwen Code CLI,为开发者提供每天 2000 次的免费运行额度,用于“vibe coding”(氛围编程)。 💬
---## 社区声音与行业观察
- “唯规模论”的黄昏:GPT-5 相对温和的性能提升在社区引发了关于“规模化瓶颈”的讨论。有观点认为,“你无法通过投入数十亿美元的计算资源从 LLM 中压榨出 AGI,一些根本性的东西缺失了”。这一情绪得到了广泛认同,许多人认为,无论是 OpenAI 还是其他公司,单纯依靠扩大模型规模来驱动性能增长的时代可能正在结束。 👽
- 开源模型的重要性:面对 OpenAI 订阅模式的突然变更,社区再次强调了开源模型的必要性。Reddit 上的热门帖子指出,商业公司的“封闭花园”模式可能随时为了利润而牺牲用户利益,而开源和本地部署是维持用户控制权和透明度的关键。 👽
- 品牌效应 vs. 技术实力:社区注意到,尽管 Qwen-235B 和 DeepSeek R1 等模型在技术上极具竞争力,但 OpenAI 的品牌效应使其新发布的 GPT-OSS 获得了不成比例的关注度。这引发了关于媒体报道区域偏见和 AI 领域“赢家通吃”现象的讨论。 👽
- 对 gpt-oss 模型的评价:尽管顶着 OpenAI 的光环,gpt-oss 模型因其较差的编码能力和较高的幻觉率而受到批评。不过,也有用户指出其 120B 版本在消费级硬件(如单张 RTX 3090)上能达到 25 tokens/s 的推理速度,在本地部署方面具有显著优势。 👽
- GPT-5 发布引发的猜测:在 OpenRouter 社区,用户猜测 Horizon Beta 模型可能就是 GPT-5 的早期版本,并讨论认为 Google 凭借其在 Transformer 上的先发优势和 Genie 3 等创新项目,有望在 AI 竞赛中胜出。👾
---## 产品精选 (From Product Hunt)
Yesterday’s Top Products
Top1. SpeedVitals RUM:监控真实用户性能和网站分析
- 一句话描述:一个真实用户监控(Real User Monitoring, RUM)解决方案,帮助网站所有者了解和优化访问者的实际体验。
- 详细介绍:与仅模拟测试速度的工具不同,SpeedVitals RUM 专注于收集真实用户访问网站时的数据。它可以追踪核心 Web 指标(Core Web Vitals)、识别导致性能瓶颈的 JavaScript 错误,并提供详细的用户会话分析。该工具旨在提供可操作的见解,帮助开发者和网站管理员提升网站的真实世界性能和用户满意度。
Top2. Eleven Music:最高质量的 AI 音乐模型
- 一句话描述:由知名 AI 音频公司 ElevenLabs 推出的高质量 AI 音乐生成模型。
- 详细介绍:Eleven Music 旨在为创作者提供一个强大而直观的工具来生成原创音乐。用户可以通过文本提示或输入现有旋律来指导 AI 创作。该模型以其生成音乐的高保真度、情感表现力和风格多样性而著称,可用于视频配乐、播客、游戏或任何需要原创音乐的场景,同时确保用户拥有生成内容的所有权。
Top3. Bifrost:市场上最快的 LLM 网关
- 一句话描述:一个开源的 LLM 网关,旨在通过统一的 API 接口简化对不同语言模型的访问,并提供负载均衡、回退和自动重试等强大功能。
- 详细介绍:Bifrost 解决了开发者在集成和管理多个 LLM 服务时遇到的复杂性问题。它提供了一个统一的 API 端点,后端可以连接到 OpenAI、Anthropic、Cohere、Google 等多个模型提供商。Bifrost 能够根据延迟、成本或可用性智能地路由请求,并在某个模型失败时自动切换到备用模型,从而确保应用的稳定性和性能。
Top4. OpenAI Open Models:gpt-oss-120b 和 gpt-oss-20b 开源权重语言模型
- 一句话描述:OpenAI 发布的两个开源权重的大型语言模型,旨在促进 AI 社区的研究和创新。
- 详细介绍:这是 OpenAI 在开源领域的重要举措。gpt-oss-120b 和 gpt-oss-20b 这两个模型允许研究人员和开发者在本地环境中进行实验、微调和部署,而无需依赖 OpenAI 的 API。此举旨在提高 AI 技术的透明度,并鼓励社区共同探索大型语言模型的行为和潜力。
Top5. Sequoia Health 2.0:通过按需专家提供个性化的男性性健康服务
- 一句话描述:一个专注于男性性健康的数字健康平台,结合了 AI 个性化方案和真人专家的在线咨询服务。
- 详细介绍:Sequoia Health 2.0 为男性提供了一个私密、便捷的渠道来解决性健康问题。平台通过评估用户的健康状况和生活方式,提供个性化的治疗计划和建议。用户可以随时通过平台与医生、理疗师和健康教练等专家进行沟通,获得专业的指导和支持。
Top6. Genie 3:世界模型的新前沿
- 一句话描述:由 Google DeepMind 开发的最新一代世界模型,能够从视频中学习并生成可玩的交互式虚拟环境。
- 详细介绍:Genie 3 在生成式交互环境领域取得了重大突破。它不仅能理解视频中的物理世界和行为,还能根据这些学习结果生成一个用户可以实时互动的 2D 游戏世界。这项技术为创建无限多样化的虚拟世界、训练更强大的 AI 智能体以及革新游戏和模拟领域开辟了新的可能性。
Top7. Shipper.now:通过与 AI 对话构建全栈应用
- 一句话描述:一个 AI 开发助手,让用户通过自然语言对话的方式来描述需求,并自动生成和部署全栈应用程序。
- 详细介绍:Shipper.now 旨在将应用开发过程进一步简化。用户无需编写代码,只需与 AI 助手聊天,描述他们想要的应用功能、界面和逻辑。AI 会处理从前端到后端、数据库和部署的所有技术细节,将想法迅速转化为可用的产品,极大地降低了软件开发的门槛。
Top8. Coverage Cat:你的 AI 原生保险经纪人
- 一句话描述:一个利用 AI 技术帮助初创公司和小型企业简化商业保险购买流程的智能保险经纪平台。
- 详细介绍:购买商业保险通常是一个复杂且耗时的过程。Coverage Cat 通过 AI 驱动的问答流程,帮助企业主快速了解他们需要哪些类型的保险(如责任险、财产险等),并自动从市场上匹配最合适的保险产品和报价。它旨在让保险决策变得更透明、更高效。
Top9. Source Public Beta:为 B2B 营销人员打造,AI 驱动的归因分析变得简单
- 一句话描述:一款面向 B2B 营销人员的 AI 归因分析工具,帮助他们理解营销活动如何转化为实际收入。
- 详细介绍:在 B2B 领域,客户旅程漫长而复杂,传统的归因分析难以奏效。Source 通过连接 CRM、营销自动化和广告平台的数据,利用 AI 模型来分析各个触点对最终销售的贡献。它能帮助营销团队识别最有效的渠道和活动,从而优化预算分配和营销策略。
Top10. Equip AI Interview:提出任何问题,获得自然语言回答,即时得到结果
- 一句话描述:一款 AI 驱动的自动化面试工具,允许招聘方创建自定义面试问题,并由 AI 与候选人进行自然语言对话。
- 详细介绍:Equip AI Interview 为技术和非技术岗位的初步筛选提供了一种高效的解决方案。招聘经理可以设置一系列问题,AI 会以对话的方式向候选人提问,并评估他们的回答。系统会根据预设的标准即时生成评估报告,突出候选人的优势和不足,从而节省招聘团队大量时间。
---## 公众号热门资讯延伸阅读
资讯来源:微信公众号-腾讯研究院。点击标题链接阅读原文。
生成式AI
最强编程模型Claude Opus 4.1上线:小更新加量不加价
1. Anthropic发布Claude Opus 4.1,重点提升Agent代理任务、真实世界编码和推理能力,且预告未来几周将有重大模型改进
2. 新版本在SWE-bench Verified基准测试中达到74.5%,相比Opus 4提升2个百分点,大幅领先OpenAI的GPT-4.1(54.6%)
3. Opus 4.1特别擅长多文件代码重构,输入输出价格与Opus 4保持一致(15美元/百万Token输入,75美元/百万Token输出)
OpenAI开源两个新推理模型,o4-mini水平,端侧可跑
1. OpenAI时隔多年重新开源模型,发布gpt-oss-120b和gpt-oss-20b两款推理模型,采用宽松的Apache 2.0许可证,性能与o4-mini相当
2. 两款模型分别采用117B和21B总参数,均使用交替密集和局部带状稀疏注意力模式,原生支持128k上下文长度
3. 模型采用原生MXFP4精度训练,gpt-oss-120b可在单个H100 GPU上运行,gpt-oss-20b仅需16GB内存,适用于高端笔记本甚至手机
谷歌深夜放出「创世引擎」Genie 3!一句话秒生宇宙
1. 谷歌DeepMind发布新一代通用世界模型Genie 3,能一句话生成动态可交互世界,以每秒20-24帧速度实时生成720p画面
2. Genie 3首次支持实时交互,生成内容连贯性可维持数分钟,视觉记忆最远可追溯到一分钟前
3. 模型能模拟物理世界、自然环境、创建动画奇幻世界及历史场景,并支持”提示词驱动的世界事件”功能,可作为AI智能体训练的复杂环境
谷歌Gemini推出Storybook:几句话制作10页图文书
1. 谷歌为Gemini AI聊天机器人新增”Storybook”功能,用户简单描述情节即可自动生成10页完整图文故事书
2. 该功能支持个性化定制,包括黏土动画、动漫和漫画等多种艺术风格,并支持上传孩子画作作为创作基础
3. Storybook已全球范围上线,支持桌面端和移动端,兼容Gemini所有语言版本,对中文用户友好度高
最新战报:首届AI国际象棋对战,马斯克Grok4遥遥领先
1. 谷歌发起首届Kaggle AI国际象棋竞赛,参赛模型包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2、Gemini 2.5系列、Claude Opus 4和Grok 4
2. 首日赛后,Grok 4表现最佳,显示”GM级别”战术策略与速度,已与Gemini 2.5 Pro一起挺进半决赛
3. DeepSeek R1开局强劲但输给o4-mini,Kimi K2因反复走非法棋步而”被碾压”,赛事专家认为国际象棋是检验AI”涌现能力”的理想场景
ElevenLabs 推出新的商业音乐生成服务「Eleven Music」
1. ElevenLabs发布AI音乐模型Eleven Music,宣称这是最高质量的AI音乐模型,能生成从流行嘻哈到管弦乐各种风格
2. 用户可通过文本prompt精确控制音乐底层乐器、调式、和弦和节奏,生成的音乐情感表达丰富,完全没有AI味
3. 生成的音乐可进一步编辑,包括单个部分或整首歌曲的声音和歌词,支持调整音乐结构和风格,分享或导出也便捷
前沿科技
傅利叶发布第三代人形机器人GR-3,淘汰冰冷工业风
1. 具身智能公司傅利叶发布第三代人形机器人GR-3,采用柔和淡黄配色和柔性材质,身高1.65米,外观设计弱化机械感增强亲和力
2. GR-3嵌入微表情系统,能通过眼球转动、眨眼和神态表情传达情绪,并模拟人类运动方式完成拟人步态行走等动作
3. 该机器人覆盖导览问答、儿童互动等陪伴交互场景,还试图在护理医疗领域提供服务;公司近期完成股改,并获A股上市公司润阳科技3亿元E3轮投资
鼠标的未来是手环?Meta非侵入性神经肌肉交互系统
1. Meta开发的非侵入性表面肌电图(sEMG)技术已登上Nature,通过记录放大肌肉神经信号实现实时手势解码和计算机交互
2. 实验收集数百名参与者数据,在连续手势控制任务中每秒能够互动0.66次,离散手势识别准确度达89-95%,打字速度每分钟20.9词
3. 该技术设备由数字计算胶囊和模拟手腕带构成,特别适合行动能力受限人群使用,有望成为未来人机交互的革命性技术
报告观点
LangChain CEO再聊 Agent:Ambient Agents 才是未来
1. LangChain CEO认为智能体不是”非黑即白”而是光谱,AI决策越多”智能体化程度”越高,未来会从聊天模式转向”环境化/常驻”智能体
2. 环境化智能体可主动监听事件流(如邮件、日历更新)并异步行动,但面临单体可靠性和记忆机制两大挑战
3. 多智能体系统是趋势,一个中央”总管”智能体可调用多个专业”子智能体”,有望通过循环中的评估和职责分离提高整体表现
Gamma 创始人:小团队创业是共识,关键是怎么做好
1. Gamma以30人团队服务近5000万用户,ARR超5000万美元,创始人认为AI时代组织创新比技术创新更重要
2. 公司采用”球员兼教练”管理模式,招募具有主动性、强学习意愿的”通才”而非”专才”,让每个员工用更少资源做更多事
3. 不过度融资迫使专注创造产品并实现盈利,通过口碑增长打造新的沟通标准,盈利带来掌控自己命运的选择权