数据来源:12 个 👽 subreddit、544 个 💬 Twitter账号、29 个 👾 Discord(227 频道 / 8121 条消息)、10个 Product Hunt 产品。 预计阅读时间 18 分钟,预计节约时间 615 分钟。
今日资讯速览
- AI 行业迎来“三体”时刻:OpenAI、Anthropic 和 Google DeepMind 在同一天发布重磅模型,上演了一场前所未有的技术竞赛。OpenAI 以其开源模型 gpt-oss 引爆社区,Anthropic 推出号称“全球最佳代码模型”的 Claude Opus 4.1,而 Google DeepMind 的 Genie 3 则展示了生成可交互虚拟世界的惊人能力。
- OpenAI GPT-OSS 开源模型详解:OpenAI 时隔多年再次拥抱开源,发布了 gpt-oss-120b 和 20b 两个模型。其采用的混合专家(MoE)架构、滑动窗口注意力和新颖的 MXFP4 格式成为技术焦点。然而,社区对其性能评价不一,一方面赞赏其在推理任务上的潜力,另一方面则批评其在通用性和常识方面表现不佳,且存在过度“安全”调优的问题。
- Google Genie 3 定义世界模型新前沿:Google DeepMind 的 Genie 3 能够从单一文本提示或视频中,生成可实时探索和游玩的交互式虚拟环境,并保持数分钟的连贯性。这一突破被视为迈向“神经视频游戏”和更高级具身智能体训练的关键一步,引发了关于游戏引擎未来的广泛讨论。
- Anthropic Claude Opus 4.1 剑指智能体编码:作为对标竞品的直接回应,Anthropic 推出了 Claude Opus 4.1,专注于提升智能体任务、真实世界编码和推理能力。该模型迅速在 Cursor 等开发工具中集成,目标是巩固其在 agentic 编码领域的领先地位。
- 今日产品精选:聚焦于学术研究和写作效率的“SciSpace Agent”荣登榜首,为研究人员提供自动化工具。此外,极简主义的自由写作应用“Spill”和为小型团队设计的项目管理工具“Kanbanq”也获得了社区的高度关注。
三巨头同日竞技:模型发布引爆行业
在被预期为年度最繁忙的 AI 新闻周中,三大顶级实验室在同一天相继发布了足以各自占据头条的重磅模型,将行业竞争推向了新的高潮。
OpenAI 的开源回归:GPT-OSS
- 重磅发布与社区整合:OpenAI CEO @sama 正式宣布发布 gpt-oss-120b 和 gpt-oss-20b,这是自 GPT-2 以来该公司首次发布的开源权重模型。官方强调,这些模型具备与
o4-mini相媲美的顶尖推理能力,且经过优化可靠地在高端笔记本电脑上本地运行。此举旨在将 AI 的控制权赋予个体,促进创新,并推动建立一个基于民主价值观的 AI 技术栈。 💬 该发布迅速引爆社区,模型几乎立刻登顶 Hugging Face 热榜。各大平台纷纷宣布即时支持,包括微软的 Azure AI Foundry 和 Windows、LlamaIndex、Ollama 以及由 FireworksAI、Cerebras、Groq 等支持的公开演示。为鼓励社区参与,OpenAI 还联合 Hugging Face 向 500 名学生提供 50 美元的推理信用额度。 💬 同时,OpenAI 社区成员确认,gpt-oss-120b 模型在单个 80GB GPU 上即可运行,接近 o4-mini 的推理能力,而 20B 版本则能适配 16GB 显存的边缘设备。👾 - 全新 Harmony 聊天格式:随模型一同发布的还有名为 Harmony 的新型聊天模板格式,其规范也已开源。它在传统的 ChatML 基础上引入了“频道 (channels)”等新概念,旨在为智能体任务提供更结构化的交互方式。 👽
Anthropic 的精准打击:Claude Opus 4.1
- 剑指智能体与代码:紧随其后,Anthropic 发布了 Claude 4.1 Opus,这是对其旗舰模型 Opus 4 的一次重要升级,明确专注于智能体任务、真实世界编码和推理能力。 💬 官方博客和社区反馈均显示,新模型在工具使用方面表现更佳。在 LMArena 社区,用户确认 Opus 4.1 在终端智能体基准测试中占据了前十名中的九个席位,但也有人指出其在空间推理测试中依然存在不足。👾 此举被广泛解读为对 OpenAI 的直接回应,旨在巩固其在开发者和智能体编码领域的领先地位。
- 生态快速响应:与 gpt-oss 类似,Claude Opus 4.1 也在发布当天获得了开发者工具的快速集成,例如 Cursor 就宣布了首日支持。 💬
Google DeepMind 的未来一瞥:Genie 3
- 生成可交互的世界:Google DeepMind 发布了其最新的世界模型 Genie 3,展示了从单一文本提示或视频中生成可实时探索、游玩和交互的完整模拟环境的惊人能力。 💬 @DrJimFan 将其描述为“游戏引擎 2.0”,认为一个由数据驱动的权重集合将取代像虚幻引擎 5 这样复杂的传统引擎。模型生成的环境具有长达数分钟的连贯性,并能以 720p 分辨率实时渲染。 👽
- 上下文学习的火花:Genie 3 甚至展示了初步的上下文学习能力,能够将一段 Veo 3 生成的视频作为输入,并允许用户在生成的环境中接管控制,延续视频中的动态效果,为“神经视频游戏”和具身智能体的训练开辟了全新疆域。 💬
---## 技术深潜:GPT-OSS 架构、性能与争议
架构创新
- 混合专家(MoE)与参数效率:gpt-oss-120b 采用了稀疏的**混合专家(MoE)**架构,总参数量为 117B,但每次推理仅激活 5.1B 参数。20B 模型则为 21B 总参数和 3.6B 激活参数。这种设计旨在以更低的计算成本实现大模型的知识容量。 👽
- 先进技术融合:模型融合了滑动窗口注意力、一种特殊的 RoPE 变体以及 256k 的上下文长度。一个令人惊讶的发现是,模型中重新引入了 GPT-2 时代的偏置单元(bias units)。 💬
- 新颖的 MXFP4 格式:模型使用了新颖的 MXFP4 格式进行量化。在技术层面,权重被打包为 uint8,但在推理时解包为 FP4。Llama.cpp 迅速增加了对该格式的原生支持,但社区讨论指出,由于 Hopper 架构之前的 GPU 不支持原生 FP4,导致量化文件在这些硬件上因需要上采样至 bfloat16 而体积异常增大。 👾
性能表现与社区反馈
- 表现不一的基准测试:尽管 OpenAI 宣称模型性能强大,但社区测试结果却好坏参半。@SebastienBubeck 指出模型在 GPQA 上取得了 80 分的高分,但 @scaling01 发现其在 Aider Polyglot 编码基准上得分仅为 41.8%,远低于 Kimi-K2 和 DeepSeek-R1 等竞争对手。 💬
- “刷榜”与“幻觉嘉年华”:社区普遍认为模型经过了针对特定基准的过度优化(“benchmaxxed”)。@scaling01 形容其“在数学/编码和推理上被过度优化,却缺乏品味和常识”。同时,模型表现出较高的幻觉率,被戏称为“幻觉嘉年华”,并且在简单问题上反而会失败。 💬
- 与中文模型的比较及技术借鉴争议:有评论认为,没有任何一个西方的开源模型能击败或追平顶尖的中文开源模型,并将 gpt-oss 与 Qwen 和 DeepSeek 的模型进行对比,认为后者更为优越。 💬
- 过度安全调优的批评:在 Reddit 和 Discord 社区,最集中的批评指向了模型的过度审查。用户报告称,模型会拒绝角色扮演请求,并表现出类似 Phi 系列模型的严格安全过滤,这极大地影响了其实用性,导致用户给其起了“GPT-ASS”的绰号。 👾👽
---## 开发者生态与智能体工具
- 智能体与编码:
- Claude Code 课程与安全功能:Andrew Ng 与 Anthropic 合作发布了一门关于 Claude Code 的课程,专注于高级智能体编码工作流。同时,Anthropic 也宣布 Claude Code 现在可以自动审查代码中的安全漏洞。 💬
- LangChain 发布 Open SWE:LangChain 推出了 Open SWE,这是一个开源的、基于云的异步编码智能体,可以连接到 GitHub 仓库自主解决 issue。 💬
- 基础设施与推理效率:
- Ollama 与 ggml 的性能差异:@ggerganov 指出,LMStudio 在运行 GPT-OSS 时性能远超 Ollama,原因在于前者使用了上游最新的 ggml 实现,而 Ollama 的分叉版本在 MXFP4 内核和注意力池方面的实现效率低下。 💬
- 推理服务商表现各异:尽管 vLLM 团队表示其在 Hopper GPU 上的数值计算是“可靠且经过验证的”,但用户发现不同服务商的性能差异巨大,这可能与激进的量化策略有关。其中,Groq 因其稳定和高速(在 120B 模型上超过 500 tokens/s)而受到好评。 💬
- RAG 与数据处理:
- LlamaIndex 与 LlamaCloud 更新:LlamaIndex 展示了其在处理金融文档方面的智能体应用,并宣布与 Delphi 合作,使用 LlamaCloud 作为上下文层来创建“数字心智”。LlamaCloud 还新增了“平衡”解析模式,以更经济的方式分析图表等视觉元素。 💬
- 分块(Chunking)的重要性:社区专家 @femke_plantinga 强调,在优化 RAG 系统时,开发者应优先解决分块问题,因为它往往是性能不佳的根源,而非检索算法本身。 💬
---## 产品精选 (From Product Hunt)
Yesterday’s Top Products
Top1. SciSpace Agent:唯一一个能用 150+ 学术工具自动化研究的 AI 智能体
- 一句话描述:一个专为学术研究设计的 AI 智能体,集成了超过 150 种专业工具,能够自动化执行从文献综述到数据分析的复杂研究任务。
- 详细介绍:(未能找到官网链接和详细介绍)SciSpace Agent 旨在成为科研人员的得力助手。它能够理解复杂的科学问题,并自主调用各种学术数据库、数据可视化工具、统计分析软件和引用管理工具来完成研究工作流。无论是寻找相关论文、提取关键数据、生成图表还是撰写论文初稿,这个智能体都能提供强大的自动化支持,极大地提升了研究效率。
Top2. Spill:极简主义的自由写作应用
- 一句话描述:一个为“自由写作”设计的极简、无干扰的应用程序,帮助用户倾倒思绪,并通过语音模式进行深度反思。
- 详细介绍:Spill 的核心理念是消除写作过程中的一切干扰。它提供了一个干净的画布,没有复杂的格式选项或拼写检查。用户设定一个计时器,然后不间断地书写,不允许使用退格键。写作结束后,可以通过与 AI 的语音对话模式来反思所写的内容,AI 能够理解用户的文本并进行有深度的对话,帮助用户整理思绪,做出更好的决策。
Top3. Verbite:来自 AI 智能体的 SEO 就绪内容
- 一句话描述:一个利用 AI 智能体团队来生成经过 SEO 优化的、高质量内容的平台。
- 详细介绍:(未能找到官网链接和详细介绍)Verbite 采用多智能体协作的方式来创作内容。用户只需提供一个主题或关键词,平台内部的“研究员”、“作家”和“SEO 专家”等 AI 智能体就会协同工作,从研究、撰写、编辑到最终的 SEO 优化,全程自动化,旨在产出既能吸引读者又能获得良好搜索引擎排名的文章。
Top4. Kanbanq : Open alpha:为小型团队和独立开发者打造的极简项目管理工具
- 一句话描述:一款轻量、快速、简洁的项目管理工具,采用双看板设计,并内置 AI 助手来简化任务规划。
- 详细介绍:Kanbanq 针对那些被复杂项目管理软件所困扰的小型团队和独立开发者。它创新地将“冲刺看板”和“待办事项看板”分开,让团队能更专注于当前任务。其实时协作功能和内置的 AI 助手可以帮助分解复杂任务、总结冲刺进度和整理待办事项,提供了一个无干扰、高效率的规划环境。
Top5. Ghost 6.0:为创作者带来超过 1 亿美元收入的开源产品
- 一句话描述:流行的开源发布平台 Ghost 推出 6.0 版本,新增了社交网络集成、原生分析套件,并庆祝其平台上的创作者总收入突破 1 亿美元。
- 详细介绍:Ghost 6.0 将出版物与开放的社交网络(如 Bluesky, Threads, Mastodon 等)连接起来,让内容分发变得内置化。全新的原生分析套件让创作者可以从一个地方实时了解网站流量、新闻通讯和会员订阅的详细表现。作为一个专注于独立创作者的平台,Ghost 致力于提供将观众转化为业务的强大工具。
Top6. Rollups:掌控你的初创公司股权
- 一句话描述:一个帮助初创公司将众多利益相关者(如早期员工、天使投资人)整合到一个实体中的工具,以简化股权管理。
- 详细介绍:由 AngelList 提供支持,Rollups 旨在解决初创公司股权结构分散、混乱的问题。通过其 Roll Up Vehicles® (RUVs),公司可以在融资时将多个小额投资者合并到其股权结构表的一行上。它还提供工具来整合现有的利益相关者,从而简化后续融资、并购和日常管理,节省大量的行政和法律成本。
Top7. PromptPlex:你所有 AI 提示词的指挥中心
- 一句话描述:一款 Chrome 浏览器扩展,作为一个中央枢纽,帮助用户管理、组织和快速访问他们在各个 AI 工具中使用的所有提示词。
- 详细介绍:(未能找到官网链接和详细介绍)对于重度 AI 用户来说,在不同的应用中记住和管理有效的提示词是一项挑战。PromptPlex 提供了一个统一的界面,用户可以在这里保存、分类和搜索他们所有的提示词。它旨在提升用户与多个 AI 工具交互的效率,确保最佳的提示词能够被轻松复用。
Top8. Sailhouse - Agent Control Plane:你的 AI 智能体需要一个更好的控制平面
- 一句话描述:一个为 AI 智能体和异步系统设计的控制平面,让开发者能以代码的方式定义动态工作流,并提供可靠的消息传递和实时监控。
- 详细介绍:Sailhouse 旨在解决构建和管理可扩展、事件驱动应用的复杂性。开发者可以使用他们熟悉的语言(如 Go, TypeScript, Python)来定义响应事件和数据的动态工作流。Sailhouse 的核心是一个全球部署的发布/订阅平台,确保了消息的可靠传递和系统的可用性,而无需开发者维护繁重的底层基础设施。
Top9. ClueoAPI:每个 AI 产品所缺失的个性化层
- 一句话描述:一个 API 服务,旨在为任何 AI 应用添加独特的、可定制的“个性”,使其交互更具吸引力和人性化。
- 详细介绍:(未能找到官网链接和详细介绍)ClueoAPI 认为,未来的 AI 产品竞争将围绕“个性”展开。它提供了一个 API,让开发者可以轻松地为他们的聊天机器人或 AI 助手定义和注入独特的性格、幽默感、说话风格和背景故事,从而创造出更令人难忘、更能与用户建立情感联系的用户体验。
Top10. Sellible:为创始人打造的销售健身房
- 一句话描述:一个让创始人可以通过与 AI 买家进行角色扮演来练习和掌握销售对话的模拟平台。
- 详细介绍:许多技术型创始人对销售感到恐惧。Sellible 通过提供一个“销售健身房”来解决这个问题。创始人可以上传他们的产品信息,然后选择一个 AI 生成的潜在客户进行实时的语音销售对话练习。AI 会提出真实的异议和问题,并在通话结束后立即提供详细的反馈和改进建议,帮助创始人在不烧掉真实销售线索的情况下锻炼销售肌肉。
---## 公众号热门资讯延伸阅读
资讯来源:微信公众号-腾讯研究院。点击标题链接阅读原文。
生成式AI
奥特曼首晒GPT-5实测!被曝使用超级对齐团队“遗产”
-
GPT-5官方实测由奥特曼亲自展示,同时他暗示即将进入”SaaS快时尚时代”
-
GPT-5使用了Ilya超级对齐团队留下的”通用验证器”技术,采用”证明者-验证者游戏”训练方法
-
有报道称GPT-5研发面临高质量训练数据不足和大规模预训练收益下降等困难
苹果组建AKI新团队,Answers, Knowledge and Information
- 苹果组建”Answers, Knowledge and Information”(AKI)团队,由前Siri负责人领导,研发类ChatGPT搜索引擎
2. 终端竞争新压力,扎克伯格提出”个人超级智能”概念,称AI眼镜将取代智能手机,或挑战iPhone地位
- 库克在全员大会上强调”iPhone仍是未来生态中心”,并表示苹果有”令人兴奋的AI计划”
腾讯一口气开源4款模型!手机就能跑,agent能力增强
-
腾讯开源四款混元小模型(0.5B、1.8B、4B、7B),单卡可部署,手机可运行,已在微信读书等应用落地
-
Hunyuan 7B在数学能力测试中超越OpenAI o1-mini和Qwen3-8B,并增强了agent能力
-
模型原生上下文长度达256k(可一次读完3本《哈利波特》),支持低功耗场景和低成本垂直领域微调
可灵《新世界加载中》全球播放1.97亿,四大行业奖项
-
快手可灵AI与星芒短剧联合出品的《新世界加载中》成为AI+影视新标杆,全网曝光13.7亿+,播放量超1.97亿次
-
Z世代创作团队借助可灵AI打破创作边界,实现多风格、多题材表达和复杂场景呈现,降低了大制作的门槛
-
可灵AI通过20次迭代提升细节表现力,尤其在水面效果、动态控制和口型匹配等方面展现出深刻理解影视创作的综合能力
新版「高德地图2025」,首个基于地图的AI Native应用
-
高德地图2025作为全球首个AI Native应用正式发布,基于空间智能架构,孵化出自主推理能力的出行生活智能体”小高老师”
-
通过调用多元大模型簇,小高老师具备自主推理、计划、反思和行动能力,可提供个性化最优出行方案
-
产品通过出行服务、生活服务和空间服务三大智能体,实现”行前-行中-行后”全旅程AI服务,包括超视距感知和AR互动体验
小米公司正式开源声音理解大模型MiDashengLM-7B
-
小米开源声音理解大模型MiDashengLM-7B,在22个公开评测集上刷新多模态大模型最佳成绩
-
该模型首Token延迟为业界先进模型的1/4,数据吞吐效率是同类模型的20倍以上,基于Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B解码器
-
MiDashengLM采用通用音频描述对齐范式,实现语音、环境声音和音乐的统一理解,训练数据100%来自公开数据集,已在智能家居等30多个场景落地
「兔子蹦床」播放超 5 亿!为何成为全网爆火 AI 视频
-
一段”兔子蹦床”AI视频在社交媒体爆火,全网播放超5亿次,大多数观众未能第一时间识别是AI生成
-
视频成功”欺骗”用户的原因包括:模糊夜视画质掩盖AI弱点、“@Ring”标记增强可信度、静态背景规避技术难题
-
现象背后反映的是新型社交媒体互动逻辑:用户并非完全被动受骗,而是”选择相信”并参与一场集体”假装相信”的游戏
前沿科技
类人灵巧操作,中科硅纪系列灵巧手,具身智能最后一厘米
-
中科硅纪发布四款智能灵巧手(通用智能灵巧手、高速自适应灵巧手、三指灵巧手、类人自由度灵巧手),具备高自由度和类人操作能力
-
同步推出三款具身智能机器人整机产品:“无际”(工业应用轮式人形机器人)、“无畏”(高风险环境作业机器人)和”无忧”(具备”动手”能力的服务机器人)
-
中科硅纪通过”灵巧手+整机”双轮驱动模式,结合软硬协同能力和十余年技术积累,打通具身智能产业化”最后一厘米”
报告观点
马斯克称科学家不存在只有工程师;LeCun:大错特错
-
马斯克宣称”研究者、科学家不存在了,只有工程师”,称”Researcher”是学术界古董术语,并表示xAI从今起不再区分这两个角色
-
图灵奖得主LeCun反驳”大错特错”,详细阐述研究与工程在运作方式、方法论、开放性和评估标准四方面的本质差异
-
LeCun指出研究者追求发现新原理和概念简单性,评估基于智识影响;工程师则整合方法构建可用系统,评估基于产品影响力,混淆两者可能扼杀突破性创新
Ai2 科学家最新访谈:剖析 RLVR、激辩智能体与后训练
-
Ai2科学家Nathan Lambert在访谈中剖析RLVR(基于可验证奖励的强化学习),希望打造”美国版DeepSeek”级别的开源推理模型
-
他解析三类强化学习过拟合问题,区分RLHF与RLVR,并指出并行计算的价值在于提高关键token质量而非扩展搜索
-
Lambert认为开源AI需从写论文升级到创造”产物”,强调未来智能体发展关键在于”技能、抽象、策略和校准”四层能力,并表示”如果更多东西是开放的,世界会变得更好”