AI三巨头同日亮剑：OpenAI开源GPT-OSS，谷歌发布世界模型Genie 3，Anthropic推出Claude Opus 4.1

数据来源：12 个 👽 subreddit、544 个 💬 Twitter账号、29 个 👾 Discord（227 频道 / 8121 条消息）、10个 Product Hunt 产品。 预计阅读时间 18 分钟，预计节约时间 615 分钟。

今日资讯速览

AI 行业迎来“三体”时刻：OpenAI、Anthropic 和 Google DeepMind 在同一天发布重磅模型，上演了一场前所未有的技术竞赛。OpenAI 以其开源模型 gpt-oss 引爆社区，Anthropic 推出号称“全球最佳代码模型”的 Claude Opus 4.1，而 Google DeepMind 的 Genie 3 则展示了生成可交互虚拟世界的惊人能力。

OpenAI GPT-OSS 开源模型详解：OpenAI 时隔多年再次拥抱开源，发布了 gpt-oss-120b 和 20b 两个模型。其采用的混合专家（MoE）架构、滑动窗口注意力和新颖的 MXFP4 格式成为技术焦点。然而，社区对其性能评价不一，一方面赞赏其在推理任务上的潜力，另一方面则批评其在通用性和常识方面表现不佳，且存在过度“安全”调优的问题。

Google Genie 3 定义世界模型新前沿：Google DeepMind 的 Genie 3 能够从单一文本提示或视频中，生成可实时探索和游玩的交互式虚拟环境，并保持数分钟的连贯性。这一突破被视为迈向“神经视频游戏”和更高级具身智能体训练的关键一步，引发了关于游戏引擎未来的广泛讨论。

Anthropic Claude Opus 4.1 剑指智能体编码：作为对标竞品的直接回应，Anthropic 推出了 Claude Opus 4.1，专注于提升智能体任务、真实世界编码和推理能力。该模型迅速在 Cursor 等开发工具中集成，目标是巩固其在 agentic 编码领域的领先地位。

今日产品精选：聚焦于学术研究和写作效率的“SciSpace Agent”荣登榜首，为研究人员提供自动化工具。此外，极简主义的自由写作应用“Spill”和为小型团队设计的项目管理工具“Kanbanq”也获得了社区的高度关注。

三巨头同日竞技：模型发布引爆行业

在被预期为年度最繁忙的 AI 新闻周中，三大顶级实验室在同一天相继发布了足以各自占据头条的重磅模型，将行业竞争推向了新的高潮。

OpenAI 的开源回归：GPT-OSS

重磅发布与社区整合：OpenAI CEO @sama 正式宣布发布 gpt-oss-120b 和 gpt-oss-20b，这是自 GPT-2 以来该公司首次发布的开源权重模型。官方强调，这些模型具备与 o4-mini 相媲美的顶尖推理能力，且经过优化可靠地在高端笔记本电脑上本地运行。此举旨在将 AI 的控制权赋予个体，促进创新，并推动建立一个基于民主价值观的 AI 技术栈。 💬 该发布迅速引爆社区，模型几乎立刻登顶 Hugging Face 热榜。各大平台纷纷宣布即时支持，包括微软的 Azure AI Foundry 和 Windows、LlamaIndex、Ollama 以及由 FireworksAI、Cerebras、Groq 等支持的公开演示。为鼓励社区参与，OpenAI 还联合 Hugging Face 向 500 名学生提供 50 美元的推理信用额度。 💬 同时，OpenAI 社区成员确认，gpt-oss-120b 模型在单个 80GB GPU 上即可运行，接近 o4-mini 的推理能力，而 20B 版本则能适配 16GB 显存的边缘设备。👾
全新 Harmony 聊天格式：随模型一同发布的还有名为 Harmony 的新型聊天模板格式，其规范也已开源。它在传统的 ChatML 基础上引入了“频道 (channels)”等新概念，旨在为智能体任务提供更结构化的交互方式。 👽

Anthropic 的精准打击：Claude Opus 4.1

剑指智能体与代码：紧随其后，Anthropic 发布了 Claude 4.1 Opus，这是对其旗舰模型 Opus 4 的一次重要升级，明确专注于智能体任务、真实世界编码和推理能力。 💬 官方博客和社区反馈均显示，新模型在工具使用方面表现更佳。在 LMArena 社区，用户确认 Opus 4.1 在终端智能体基准测试中占据了前十名中的九个席位，但也有人指出其在空间推理测试中依然存在不足。👾 此举被广泛解读为对 OpenAI 的直接回应，旨在巩固其在开发者和智能体编码领域的领先地位。
生态快速响应：与 gpt-oss 类似，Claude Opus 4.1 也在发布当天获得了开发者工具的快速集成，例如 Cursor 就宣布了首日支持。 💬

Google DeepMind 的未来一瞥：Genie 3

生成可交互的世界：Google DeepMind 发布了其最新的世界模型 Genie 3，展示了从单一文本提示或视频中生成可实时探索、游玩和交互的完整模拟环境的惊人能力。 💬 @DrJimFan 将其描述为“游戏引擎 2.0”，认为一个由数据驱动的权重集合将取代像虚幻引擎 5 这样复杂的传统引擎。模型生成的环境具有长达数分钟的连贯性，并能以 720p 分辨率实时渲染。 👽
上下文学习的火花：Genie 3 甚至展示了初步的上下文学习能力，能够将一段 Veo 3 生成的视频作为输入，并允许用户在生成的环境中接管控制，延续视频中的动态效果，为“神经视频游戏”和具身智能体的训练开辟了全新疆域。 💬

---## 技术深潜：GPT-OSS 架构、性能与争议

架构创新

混合专家（MoE）与参数效率：gpt-oss-120b 采用了稀疏的**混合专家（MoE）**架构，总参数量为 117B，但每次推理仅激活 5.1B 参数。20B 模型则为 21B 总参数和 3.6B 激活参数。这种设计旨在以更低的计算成本实现大模型的知识容量。 👽
先进技术融合：模型融合了滑动窗口注意力、一种特殊的 RoPE 变体以及 256k 的上下文长度。一个令人惊讶的发现是，模型中重新引入了 GPT-2 时代的偏置单元（bias units）。 💬
新颖的 MXFP4 格式：模型使用了新颖的 MXFP4 格式进行量化。在技术层面，权重被打包为 uint8，但在推理时解包为 FP4。Llama.cpp 迅速增加了对该格式的原生支持，但社区讨论指出，由于 Hopper 架构之前的 GPU 不支持原生 FP4，导致量化文件在这些硬件上因需要上采样至 bfloat16 而体积异常增大。 👾

性能表现与社区反馈

表现不一的基准测试：尽管 OpenAI 宣称模型性能强大，但社区测试结果却好坏参半。@SebastienBubeck 指出模型在 GPQA 上取得了 80 分的高分，但 @scaling01 发现其在 Aider Polyglot 编码基准上得分仅为 41.8%，远低于 Kimi-K2 和 DeepSeek-R1 等竞争对手。 💬
“刷榜”与“幻觉嘉年华”：社区普遍认为模型经过了针对特定基准的过度优化（“benchmaxxed”）。@scaling01 形容其“在数学/编码和推理上被过度优化，却缺乏品味和常识”。同时，模型表现出较高的幻觉率，被戏称为“幻觉嘉年华”，并且在简单问题上反而会失败。 💬
与中文模型的比较及技术借鉴争议：有评论认为，没有任何一个西方的开源模型能击败或追平顶尖的中文开源模型，并将 gpt-oss 与 Qwen 和 DeepSeek 的模型进行对比，认为后者更为优越。 💬
过度安全调优的批评：在 Reddit 和 Discord 社区，最集中的批评指向了模型的过度审查。用户报告称，模型会拒绝角色扮演请求，并表现出类似 Phi 系列模型的严格安全过滤，这极大地影响了其实用性，导致用户给其起了“GPT-ASS”的绰号。 👾👽

---## 开发者生态与智能体工具

智能体与编码：
- Claude Code 课程与安全功能：Andrew Ng 与 Anthropic 合作发布了一门关于 Claude Code 的课程，专注于高级智能体编码工作流。同时，Anthropic 也宣布 Claude Code 现在可以自动审查代码中的安全漏洞。 💬
- LangChain 发布 Open SWE：LangChain 推出了 Open SWE，这是一个开源的、基于云的异步编码智能体，可以连接到 GitHub 仓库自主解决 issue。 💬
基础设施与推理效率：
- Ollama 与 ggml 的性能差异：@ggerganov 指出，LMStudio 在运行 GPT-OSS 时性能远超 Ollama，原因在于前者使用了上游最新的 ggml 实现，而 Ollama 的分叉版本在 MXFP4 内核和注意力池方面的实现效率低下。 💬
- 推理服务商表现各异：尽管 vLLM 团队表示其在 Hopper GPU 上的数值计算是“可靠且经过验证的”，但用户发现不同服务商的性能差异巨大，这可能与激进的量化策略有关。其中，Groq 因其稳定和高速（在 120B 模型上超过 500 tokens/s）而受到好评。 💬
RAG 与数据处理：
- LlamaIndex 与 LlamaCloud 更新：LlamaIndex 展示了其在处理金融文档方面的智能体应用，并宣布与 Delphi 合作，使用 LlamaCloud 作为上下文层来创建“数字心智”。LlamaCloud 还新增了“平衡”解析模式，以更经济的方式分析图表等视觉元素。 💬
- 分块（Chunking）的重要性：社区专家 @femke_plantinga 强调，在优化 RAG 系统时，开发者应优先解决分块问题，因为它往往是性能不佳的根源，而非检索算法本身。 💬

---## 产品精选 (From Product Hunt)

Yesterday’s Top Products

Top1. SciSpace Agent：唯一一个能用 150+ 学术工具自动化研究的 AI 智能体

一句话描述：一个专为学术研究设计的 AI 智能体，集成了超过 150 种专业工具，能够自动化执行从文献综述到数据分析的复杂研究任务。
详细介绍：（未能找到官网链接和详细介绍）SciSpace Agent 旨在成为科研人员的得力助手。它能够理解复杂的科学问题，并自主调用各种学术数据库、数据可视化工具、统计分析软件和引用管理工具来完成研究工作流。无论是寻找相关论文、提取关键数据、生成图表还是撰写论文初稿，这个智能体都能提供强大的自动化支持，极大地提升了研究效率。

Top2. Spill：极简主义的自由写作应用

一句话描述：一个为“自由写作”设计的极简、无干扰的应用程序，帮助用户倾倒思绪，并通过语音模式进行深度反思。
详细介绍：Spill 的核心理念是消除写作过程中的一切干扰。它提供了一个干净的画布，没有复杂的格式选项或拼写检查。用户设定一个计时器，然后不间断地书写，不允许使用退格键。写作结束后，可以通过与 AI 的语音对话模式来反思所写的内容，AI 能够理解用户的文本并进行有深度的对话，帮助用户整理思绪，做出更好的决策。

Top3. Verbite：来自 AI 智能体的 SEO 就绪内容

一句话描述：一个利用 AI 智能体团队来生成经过 SEO 优化的、高质量内容的平台。
详细介绍：（未能找到官网链接和详细介绍）Verbite 采用多智能体协作的方式来创作内容。用户只需提供一个主题或关键词，平台内部的“研究员”、“作家”和“SEO 专家”等 AI 智能体就会协同工作，从研究、撰写、编辑到最终的 SEO 优化，全程自动化，旨在产出既能吸引读者又能获得良好搜索引擎排名的文章。

Top4. Kanbanq : Open alpha：为小型团队和独立开发者打造的极简项目管理工具

一句话描述：一款轻量、快速、简洁的项目管理工具，采用双看板设计，并内置 AI 助手来简化任务规划。
详细介绍：Kanbanq 针对那些被复杂项目管理软件所困扰的小型团队和独立开发者。它创新地将“冲刺看板”和“待办事项看板”分开，让团队能更专注于当前任务。其实时协作功能和内置的 AI 助手可以帮助分解复杂任务、总结冲刺进度和整理待办事项，提供了一个无干扰、高效率的规划环境。

Top5. Ghost 6.0：为创作者带来超过 1 亿美元收入的开源产品

一句话描述：流行的开源发布平台 Ghost 推出 6.0 版本，新增了社交网络集成、原生分析套件，并庆祝其平台上的创作者总收入突破 1 亿美元。
详细介绍：Ghost 6.0 将出版物与开放的社交网络（如 Bluesky, Threads, Mastodon 等）连接起来，让内容分发变得内置化。全新的原生分析套件让创作者可以从一个地方实时了解网站流量、新闻通讯和会员订阅的详细表现。作为一个专注于独立创作者的平台，Ghost 致力于提供将观众转化为业务的强大工具。

Top6. Rollups：掌控你的初创公司股权

一句话描述：一个帮助初创公司将众多利益相关者（如早期员工、天使投资人）整合到一个实体中的工具，以简化股权管理。
详细介绍：由 AngelList 提供支持，Rollups 旨在解决初创公司股权结构分散、混乱的问题。通过其 Roll Up Vehicles® (RUVs)，公司可以在融资时将多个小额投资者合并到其股权结构表的一行上。它还提供工具来整合现有的利益相关者，从而简化后续融资、并购和日常管理，节省大量的行政和法律成本。

Top7. PromptPlex：你所有 AI 提示词的指挥中心

一句话描述：一款 Chrome 浏览器扩展，作为一个中央枢纽，帮助用户管理、组织和快速访问他们在各个 AI 工具中使用的所有提示词。
详细介绍：（未能找到官网链接和详细介绍）对于重度 AI 用户来说，在不同的应用中记住和管理有效的提示词是一项挑战。PromptPlex 提供了一个统一的界面，用户可以在这里保存、分类和搜索他们所有的提示词。它旨在提升用户与多个 AI 工具交互的效率，确保最佳的提示词能够被轻松复用。

Top8. Sailhouse - Agent Control Plane：你的 AI 智能体需要一个更好的控制平面

一句话描述：一个为 AI 智能体和异步系统设计的控制平面，让开发者能以代码的方式定义动态工作流，并提供可靠的消息传递和实时监控。
详细介绍：Sailhouse 旨在解决构建和管理可扩展、事件驱动应用的复杂性。开发者可以使用他们熟悉的语言（如 Go, TypeScript, Python）来定义响应事件和数据的动态工作流。Sailhouse 的核心是一个全球部署的发布/订阅平台，确保了消息的可靠传递和系统的可用性，而无需开发者维护繁重的底层基础设施。

Top9. ClueoAPI：每个 AI 产品所缺失的个性化层

一句话描述：一个 API 服务，旨在为任何 AI 应用添加独特的、可定制的“个性”，使其交互更具吸引力和人性化。
详细介绍：（未能找到官网链接和详细介绍）ClueoAPI 认为，未来的 AI 产品竞争将围绕“个性”展开。它提供了一个 API，让开发者可以轻松地为他们的聊天机器人或 AI 助手定义和注入独特的性格、幽默感、说话风格和背景故事，从而创造出更令人难忘、更能与用户建立情感联系的用户体验。

Top10. Sellible：为创始人打造的销售健身房

一句话描述：一个让创始人可以通过与 AI 买家进行角色扮演来练习和掌握销售对话的模拟平台。
详细介绍：许多技术型创始人对销售感到恐惧。Sellible 通过提供一个“销售健身房”来解决这个问题。创始人可以上传他们的产品信息，然后选择一个 AI 生成的潜在客户进行实时的语音销售对话练习。AI 会提出真实的异议和问题，并在通话结束后立即提供详细的反馈和改进建议，帮助创始人在不烧掉真实销售线索的情况下锻炼销售肌肉。

---## 公众号热门资讯延伸阅读

资讯来源：微信公众号-腾讯研究院。点击标题链接阅读原文。

生成式AI

奥特曼首晒GPT-5实测！被曝使用超级对齐团队“遗产”

GPT-5官方实测由奥特曼亲自展示，同时他暗示即将进入”SaaS快时尚时代”
GPT-5使用了Ilya超级对齐团队留下的”通用验证器”技术，采用”证明者-验证者游戏”训练方法
有报道称GPT-5研发面临高质量训练数据不足和大规模预训练收益下降等困难

苹果组建AKI新团队，Answers, Knowledge and Information

苹果组建”Answers, Knowledge and Information”(AKI)团队，由前Siri负责人领导，研发类ChatGPT搜索引擎

2. 终端竞争新压力，扎克伯格提出”个人超级智能”概念，称AI眼镜将取代智能手机，或挑战iPhone地位

库克在全员大会上强调”iPhone仍是未来生态中心”，并表示苹果有”令人兴奋的AI计划”

腾讯一口气开源4款模型！手机就能跑，agent能力增强

腾讯开源四款混元小模型(0.5B、1.8B、4B、7B)，单卡可部署，手机可运行，已在微信读书等应用落地
Hunyuan 7B在数学能力测试中超越OpenAI o1-mini和Qwen3-8B，并增强了agent能力
模型原生上下文长度达256k(可一次读完3本《哈利波特》)，支持低功耗场景和低成本垂直领域微调

可灵《新世界加载中》全球播放1.97亿，四大行业奖项

快手可灵AI与星芒短剧联合出品的《新世界加载中》成为AI+影视新标杆，全网曝光13.7亿+，播放量超1.97亿次
Z世代创作团队借助可灵AI打破创作边界，实现多风格、多题材表达和复杂场景呈现，降低了大制作的门槛
可灵AI通过20次迭代提升细节表现力，尤其在水面效果、动态控制和口型匹配等方面展现出深刻理解影视创作的综合能力

新版「高德地图2025」，首个基于地图的AI Native应用

高德地图2025作为全球首个AI Native应用正式发布，基于空间智能架构，孵化出自主推理能力的出行生活智能体”小高老师”
通过调用多元大模型簇，小高老师具备自主推理、计划、反思和行动能力，可提供个性化最优出行方案
产品通过出行服务、生活服务和空间服务三大智能体，实现”行前-行中-行后”全旅程AI服务，包括超视距感知和AR互动体验

小米公司正式开源声音理解大模型MiDashengLM-7B

小米开源声音理解大模型MiDashengLM-7B，在22个公开评测集上刷新多模态大模型最佳成绩
该模型首Token延迟为业界先进模型的1/4，数据吞吐效率是同类模型的20倍以上，基于Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B解码器
MiDashengLM采用通用音频描述对齐范式，实现语音、环境声音和音乐的统一理解，训练数据100%来自公开数据集，已在智能家居等30多个场景落地

「兔子蹦床」播放超 5 亿！为何成为全网爆火 AI 视频

一段”兔子蹦床”AI视频在社交媒体爆火，全网播放超5亿次，大多数观众未能第一时间识别是AI生成
视频成功”欺骗”用户的原因包括：模糊夜视画质掩盖AI弱点、“@Ring”标记增强可信度、静态背景规避技术难题
现象背后反映的是新型社交媒体互动逻辑：用户并非完全被动受骗，而是”选择相信”并参与一场集体”假装相信”的游戏

前沿科技

类人灵巧操作，中科硅纪系列灵巧手，具身智能最后一厘米

中科硅纪发布四款智能灵巧手(通用智能灵巧手、高速自适应灵巧手、三指灵巧手、类人自由度灵巧手)，具备高自由度和类人操作能力
同步推出三款具身智能机器人整机产品：“无际”(工业应用轮式人形机器人)、“无畏”(高风险环境作业机器人)和”无忧”(具备”动手”能力的服务机器人)
中科硅纪通过”灵巧手+整机”双轮驱动模式，结合软硬协同能力和十余年技术积累，打通具身智能产业化”最后一厘米”

报告观点

马斯克称科学家不存在只有工程师；LeCun：大错特错

马斯克宣称”研究者、科学家不存在了，只有工程师”，称”Researcher”是学术界古董术语，并表示xAI从今起不再区分这两个角色
图灵奖得主LeCun反驳”大错特错”，详细阐述研究与工程在运作方式、方法论、开放性和评估标准四方面的本质差异
LeCun指出研究者追求发现新原理和概念简单性，评估基于智识影响；工程师则整合方法构建可用系统，评估基于产品影响力，混淆两者可能扼杀突破性创新

Ai2 科学家最新访谈：剖析 RLVR、激辩智能体与后训练

Ai2科学家Nathan Lambert在访谈中剖析RLVR(基于可验证奖励的强化学习)，希望打造”美国版DeepSeek”级别的开源推理模型
他解析三类强化学习过拟合问题，区分RLHF与RLVR，并指出并行计算的价值在于提高关键token质量而非扩展搜索
Lambert认为开源AI需从写论文升级到创造”产物”，强调未来智能体发展关键在于”技能、抽象、策略和校准”四层能力，并表示”如果更多东西是开放的，世界会变得更好”

BuilderStream

Explorer

Graph View