数据来源:12 个 👽 subreddit、544 个 💬 Twitter账号、29 个 👾 Discord(227 频道 / 8121 条消息)、10个 Product Hunt 产品。 预计阅读时间 18 分钟,预计节约时间 615 分钟。


今日资讯速览

  • AI 行业迎来“三体”时刻:OpenAI、Anthropic 和 Google DeepMind 在同一天发布重磅模型,上演了一场前所未有的技术竞赛。OpenAI 以其开源模型 gpt-oss 引爆社区,Anthropic 推出号称“全球最佳代码模型”的 Claude Opus 4.1,而 Google DeepMind 的 Genie 3 则展示了生成可交互虚拟世界的惊人能力。
  • OpenAI GPT-OSS 开源模型详解:OpenAI 时隔多年再次拥抱开源,发布了 gpt-oss-120b 和 20b 两个模型。其采用的混合专家(MoE)架构、滑动窗口注意力和新颖的 MXFP4 格式成为技术焦点。然而,社区对其性能评价不一,一方面赞赏其在推理任务上的潜力,另一方面则批评其在通用性和常识方面表现不佳,且存在过度“安全”调优的问题。
  • Google Genie 3 定义世界模型新前沿:Google DeepMind 的 Genie 3 能够从单一文本提示或视频中,生成可实时探索和游玩的交互式虚拟环境,并保持数分钟的连贯性。这一突破被视为迈向“神经视频游戏”和更高级具身智能体训练的关键一步,引发了关于游戏引擎未来的广泛讨论。
  • Anthropic Claude Opus 4.1 剑指智能体编码:作为对标竞品的直接回应,Anthropic 推出了 Claude Opus 4.1,专注于提升智能体任务、真实世界编码和推理能力。该模型迅速在 Cursor 等开发工具中集成,目标是巩固其在 agentic 编码领域的领先地位。
  • 今日产品精选:聚焦于学术研究和写作效率的“SciSpace Agent”荣登榜首,为研究人员提供自动化工具。此外,极简主义的自由写作应用“Spill”和为小型团队设计的项目管理工具“Kanbanq”也获得了社区的高度关注。

三巨头同日竞技:模型发布引爆行业

在被预期为年度最繁忙的 AI 新闻周中,三大顶级实验室在同一天相继发布了足以各自占据头条的重磅模型,将行业竞争推向了新的高潮。

OpenAI 的开源回归:GPT-OSS

  • 重磅发布与社区整合:OpenAI CEO @sama 正式宣布发布 gpt-oss-120bgpt-oss-20b,这是自 GPT-2 以来该公司首次发布的开源权重模型。官方强调,这些模型具备与 o4-mini 相媲美的顶尖推理能力,且经过优化可靠地在高端笔记本电脑上本地运行。此举旨在将 AI 的控制权赋予个体,促进创新,并推动建立一个基于民主价值观的 AI 技术栈。 💬 该发布迅速引爆社区,模型几乎立刻登顶 Hugging Face 热榜。各大平台纷纷宣布即时支持,包括微软的 Azure AI Foundry 和 WindowsLlamaIndexOllama 以及由 FireworksAI、Cerebras、Groq 等支持的公开演示。为鼓励社区参与,OpenAI 还联合 Hugging Face 向 500 名学生提供 50 美元的推理信用额度。 💬 同时,OpenAI 社区成员确认,gpt-oss-120b 模型在单个 80GB GPU 上即可运行,接近 o4-mini 的推理能力,而 20B 版本则能适配 16GB 显存的边缘设备。👾
  • 全新 Harmony 聊天格式:随模型一同发布的还有名为 Harmony 的新型聊天模板格式,其规范也已开源。它在传统的 ChatML 基础上引入了“频道 (channels)”等新概念,旨在为智能体任务提供更结构化的交互方式。 👽

Anthropic 的精准打击:Claude Opus 4.1

  • 剑指智能体与代码:紧随其后,Anthropic 发布了 Claude 4.1 Opus,这是对其旗舰模型 Opus 4 的一次重要升级,明确专注于智能体任务、真实世界编码和推理能力。 💬 官方博客和社区反馈均显示,新模型在工具使用方面表现更佳。在 LMArena 社区,用户确认 Opus 4.1 在终端智能体基准测试中占据了前十名中的九个席位,但也有人指出其在空间推理测试中依然存在不足。👾 此举被广泛解读为对 OpenAI 的直接回应,旨在巩固其在开发者和智能体编码领域的领先地位。
  • 生态快速响应:与 gpt-oss 类似,Claude Opus 4.1 也在发布当天获得了开发者工具的快速集成,例如 Cursor 就宣布了首日支持。 💬

Google DeepMind 的未来一瞥:Genie 3

---## 技术深潜:GPT-OSS 架构、性能与争议

架构创新

  • 混合专家(MoE)与参数效率:gpt-oss-120b 采用了稀疏的**混合专家(MoE)**架构,总参数量为 117B,但每次推理仅激活 5.1B 参数。20B 模型则为 21B 总参数和 3.6B 激活参数。这种设计旨在以更低的计算成本实现大模型的知识容量。 👽
  • 先进技术融合:模型融合了滑动窗口注意力、一种特殊的 RoPE 变体以及 256k 的上下文长度。一个令人惊讶的发现是,模型中重新引入了 GPT-2 时代的偏置单元(bias units)。 💬
  • 新颖的 MXFP4 格式:模型使用了新颖的 MXFP4 格式进行量化。在技术层面,权重被打包为 uint8,但在推理时解包为 FP4。Llama.cpp 迅速增加了对该格式的原生支持,但社区讨论指出,由于 Hopper 架构之前的 GPU 不支持原生 FP4,导致量化文件在这些硬件上因需要上采样至 bfloat16 而体积异常增大。 👾

性能表现与社区反馈

---## 开发者生态与智能体工具

---## 产品精选 (From Product Hunt)

Yesterday’s Top Products

Top1. SciSpace Agent:唯一一个能用 150+ 学术工具自动化研究的 AI 智能体

  • 一句话描述:一个专为学术研究设计的 AI 智能体,集成了超过 150 种专业工具,能够自动化执行从文献综述到数据分析的复杂研究任务。
  • 详细介绍:(未能找到官网链接和详细介绍)SciSpace Agent 旨在成为科研人员的得力助手。它能够理解复杂的科学问题,并自主调用各种学术数据库、数据可视化工具、统计分析软件和引用管理工具来完成研究工作流。无论是寻找相关论文、提取关键数据、生成图表还是撰写论文初稿,这个智能体都能提供强大的自动化支持,极大地提升了研究效率。

Top2. Spill:极简主义的自由写作应用

  • 一句话描述:一个为“自由写作”设计的极简、无干扰的应用程序,帮助用户倾倒思绪,并通过语音模式进行深度反思。
  • 详细介绍:Spill 的核心理念是消除写作过程中的一切干扰。它提供了一个干净的画布,没有复杂的格式选项或拼写检查。用户设定一个计时器,然后不间断地书写,不允许使用退格键。写作结束后,可以通过与 AI 的语音对话模式来反思所写的内容,AI 能够理解用户的文本并进行有深度的对话,帮助用户整理思绪,做出更好的决策。

Top3. Verbite:来自 AI 智能体的 SEO 就绪内容

  • 一句话描述:一个利用 AI 智能体团队来生成经过 SEO 优化的、高质量内容的平台。
  • 详细介绍:(未能找到官网链接和详细介绍)Verbite 采用多智能体协作的方式来创作内容。用户只需提供一个主题或关键词,平台内部的“研究员”、“作家”和“SEO 专家”等 AI 智能体就会协同工作,从研究、撰写、编辑到最终的 SEO 优化,全程自动化,旨在产出既能吸引读者又能获得良好搜索引擎排名的文章。

Top4. Kanbanq : Open alpha:为小型团队和独立开发者打造的极简项目管理工具

  • 一句话描述:一款轻量、快速、简洁的项目管理工具,采用双看板设计,并内置 AI 助手来简化任务规划。
  • 详细介绍:Kanbanq 针对那些被复杂项目管理软件所困扰的小型团队和独立开发者。它创新地将“冲刺看板”和“待办事项看板”分开,让团队能更专注于当前任务。其实时协作功能和内置的 AI 助手可以帮助分解复杂任务、总结冲刺进度和整理待办事项,提供了一个无干扰、高效率的规划环境。

Top5. Ghost 6.0:为创作者带来超过 1 亿美元收入的开源产品

  • 一句话描述:流行的开源发布平台 Ghost 推出 6.0 版本,新增了社交网络集成、原生分析套件,并庆祝其平台上的创作者总收入突破 1 亿美元。
  • 详细介绍:Ghost 6.0 将出版物与开放的社交网络(如 Bluesky, Threads, Mastodon 等)连接起来,让内容分发变得内置化。全新的原生分析套件让创作者可以从一个地方实时了解网站流量、新闻通讯和会员订阅的详细表现。作为一个专注于独立创作者的平台,Ghost 致力于提供将观众转化为业务的强大工具。

Top6. Rollups:掌控你的初创公司股权

  • 一句话描述:一个帮助初创公司将众多利益相关者(如早期员工、天使投资人)整合到一个实体中的工具,以简化股权管理。
  • 详细介绍:由 AngelList 提供支持,Rollups 旨在解决初创公司股权结构分散、混乱的问题。通过其 Roll Up Vehicles® (RUVs),公司可以在融资时将多个小额投资者合并到其股权结构表的一行上。它还提供工具来整合现有的利益相关者,从而简化后续融资、并购和日常管理,节省大量的行政和法律成本。

Top7. PromptPlex:你所有 AI 提示词的指挥中心

  • 一句话描述:一款 Chrome 浏览器扩展,作为一个中央枢纽,帮助用户管理、组织和快速访问他们在各个 AI 工具中使用的所有提示词。
  • 详细介绍:(未能找到官网链接和详细介绍)对于重度 AI 用户来说,在不同的应用中记住和管理有效的提示词是一项挑战。PromptPlex 提供了一个统一的界面,用户可以在这里保存、分类和搜索他们所有的提示词。它旨在提升用户与多个 AI 工具交互的效率,确保最佳的提示词能够被轻松复用。

Top8. Sailhouse - Agent Control Plane:你的 AI 智能体需要一个更好的控制平面

  • 一句话描述:一个为 AI 智能体和异步系统设计的控制平面,让开发者能以代码的方式定义动态工作流,并提供可靠的消息传递和实时监控。
  • 详细介绍:Sailhouse 旨在解决构建和管理可扩展、事件驱动应用的复杂性。开发者可以使用他们熟悉的语言(如 Go, TypeScript, Python)来定义响应事件和数据的动态工作流。Sailhouse 的核心是一个全球部署的发布/订阅平台,确保了消息的可靠传递和系统的可用性,而无需开发者维护繁重的底层基础设施。

Top9. ClueoAPI:每个 AI 产品所缺失的个性化层

  • 一句话描述:一个 API 服务,旨在为任何 AI 应用添加独特的、可定制的“个性”,使其交互更具吸引力和人性化。
  • 详细介绍:(未能找到官网链接和详细介绍)ClueoAPI 认为,未来的 AI 产品竞争将围绕“个性”展开。它提供了一个 API,让开发者可以轻松地为他们的聊天机器人或 AI 助手定义和注入独特的性格、幽默感、说话风格和背景故事,从而创造出更令人难忘、更能与用户建立情感联系的用户体验。

Top10. Sellible:为创始人打造的销售健身房

  • 一句话描述:一个让创始人可以通过与 AI 买家进行角色扮演来练习和掌握销售对话的模拟平台。
  • 详细介绍:许多技术型创始人对销售感到恐惧。Sellible 通过提供一个“销售健身房”来解决这个问题。创始人可以上传他们的产品信息,然后选择一个 AI 生成的潜在客户进行实时的语音销售对话练习。AI 会提出真实的异议和问题,并在通话结束后立即提供详细的反馈和改进建议,帮助创始人在不烧掉真实销售线索的情况下锻炼销售肌肉。

---## 公众号热门资讯延伸阅读

资讯来源:微信公众号-腾讯研究院。点击标题链接阅读原文。

生成式AI

奥特曼首晒GPT-5实测!被曝使用超级对齐团队“遗产”

  1. GPT-5官方实测由奥特曼亲自展示,同时他暗示即将进入”SaaS快时尚时代”

  2. GPT-5使用了Ilya超级对齐团队留下的”通用验证器”技术,采用”证明者-验证者游戏”训练方法

  3. 有报道称GPT-5研发面临高质量训练数据不足和大规模预训练收益下降等困难

苹果组建AKI新团队,Answers, Knowledge and Information

  1. 苹果组建”Answers, Knowledge and Information”(AKI)团队,由前Siri负责人领导,研发类ChatGPT搜索引擎

2. 终端竞争新压力,扎克伯格提出”个人超级智能”概念,称AI眼镜将取代智能手机,或挑战iPhone地位

  1. 库克在全员大会上强调”iPhone仍是未来生态中心”,并表示苹果有”令人兴奋的AI计划”

腾讯一口气开源4款模型!手机就能跑,agent能力增强

  1. 腾讯开源四款混元小模型(0.5B、1.8B、4B、7B),单卡可部署,手机可运行,已在微信读书等应用落地

  2. Hunyuan 7B在数学能力测试中超越OpenAI o1-mini和Qwen3-8B,并增强了agent能力

  3. 模型原生上下文长度达256k(可一次读完3本《哈利波特》),支持低功耗场景和低成本垂直领域微调

可灵《新世界加载中》全球播放1.97亿,四大行业奖项

  1. 快手可灵AI与星芒短剧联合出品的《新世界加载中》成为AI+影视新标杆,全网曝光13.7亿+,播放量超1.97亿次

  2. Z世代创作团队借助可灵AI打破创作边界,实现多风格、多题材表达和复杂场景呈现,降低了大制作的门槛

  3. 可灵AI通过20次迭代提升细节表现力,尤其在水面效果、动态控制和口型匹配等方面展现出深刻理解影视创作的综合能力

新版「高德地图2025」,首个基于地图的AI Native应用

  1. 高德地图2025作为全球首个AI Native应用正式发布,基于空间智能架构,孵化出自主推理能力的出行生活智能体”小高老师”

  2. 通过调用多元大模型簇,小高老师具备自主推理、计划、反思和行动能力,可提供个性化最优出行方案

  3. 产品通过出行服务、生活服务和空间服务三大智能体,实现”行前-行中-行后”全旅程AI服务,包括超视距感知和AR互动体验

小米公司正式开源声音理解大模型MiDashengLM-7B

  1. 小米开源声音理解大模型MiDashengLM-7B,在22个公开评测集上刷新多模态大模型最佳成绩

  2. 该模型首Token延迟为业界先进模型的1/4,数据吞吐效率是同类模型的20倍以上,基于Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B解码器

  3. MiDashengLM采用通用音频描述对齐范式,实现语音、环境声音和音乐的统一理解,训练数据100%来自公开数据集,已在智能家居等30多个场景落地

「兔子蹦床」播放超 5 亿!为何成为全网爆火 AI 视频

  1. 一段”兔子蹦床”AI视频在社交媒体爆火,全网播放超5亿次,大多数观众未能第一时间识别是AI生成

  2. 视频成功”欺骗”用户的原因包括:模糊夜视画质掩盖AI弱点、“@Ring”标记增强可信度、静态背景规避技术难题

  3. 现象背后反映的是新型社交媒体互动逻辑:用户并非完全被动受骗,而是”选择相信”并参与一场集体”假装相信”的游戏

前沿科技

类人灵巧操作,中科硅纪系列灵巧手,具身智能最后一厘米

  1. 中科硅纪发布四款智能灵巧手(通用智能灵巧手、高速自适应灵巧手、三指灵巧手、类人自由度灵巧手),具备高自由度和类人操作能力

  2. 同步推出三款具身智能机器人整机产品:“无际”(工业应用轮式人形机器人)、“无畏”(高风险环境作业机器人)和”无忧”(具备”动手”能力的服务机器人)

  3. 中科硅纪通过”灵巧手+整机”双轮驱动模式,结合软硬协同能力和十余年技术积累,打通具身智能产业化”最后一厘米”

报告观点

马斯克称科学家不存在只有工程师;LeCun:大错特错

  1. 马斯克宣称”研究者、科学家不存在了,只有工程师”,称”Researcher”是学术界古董术语,并表示xAI从今起不再区分这两个角色

  2. 图灵奖得主LeCun反驳”大错特错”,详细阐述研究与工程在运作方式、方法论、开放性和评估标准四方面的本质差异

  3. LeCun指出研究者追求发现新原理和概念简单性,评估基于智识影响;工程师则整合方法构建可用系统,评估基于产品影响力,混淆两者可能扼杀突破性创新

Ai2 科学家最新访谈:剖析 RLVR、激辩智能体与后训练

  1. Ai2科学家Nathan Lambert在访谈中剖析RLVR(基于可验证奖励的强化学习),希望打造”美国版DeepSeek”级别的开源推理模型

  2. 他解析三类强化学习过拟合问题,区分RLHF与RLVR,并指出并行计算的价值在于提高关键token质量而非扩展搜索

  3. Lambert认为开源AI需从写论文升级到创造”产物”,强调未来智能体发展关键在于”技能、抽象、策略和校准”四层能力,并表示”如果更多东西是开放的,世界会变得更好”