🚀 模型发布
MiniMax M2.7:自进化的早期迹象
MiniMax M2.7 展现自进化早期迹象。经过三次试验,每次 24 小时迭代进化,M2.7 训练的 ML 模型随时间推移持续获得更高奖牌率。最终最佳运行获得 9 金 5 银 1 铜,平均奖牌率 66.6%,仅次于 Opus-4.6 (75.7%) 和 GPT-5.4 (71.2%),与 Gemini-3.1 (66.6%) 持平。
[来源:MiniMax] 查看详情 | 2026-03-23
MiniMax M2.5:专为现实世界生产力打造 ⭐
MiniMax M2.5 正式发布,专为现实世界生产力打造。在数十万复杂现实环境中通过强化学习广泛训练,M2.5 在编码、智能体工具使用和搜索、办公工作等经济价值任务上达到 SOTA 水平。SWE-Bench Verified 得分 80.2%,Multi-SWE-Bench 得分 51.3%,BrowseComp 得分 76.3%(含上下文管理)。M2.5 执行复杂智能体任务速度极快,SWE-Bench Verified 评估比 M2.1 快 37%,速度匹配 Claude Opus 4.6。
[来源:MiniMax] 查看详情 | 2026-03-24
Cursor 的 Composer 2 击败 Claude Opus 4.6
Cursor 的新一代编码模型 Composer 2 发布,击败 Claude Opus 4.6 但仍落后 GPT-5.4。在 Terminal-Bench 2.0(衡量 AI 智能体在命令行终端界面执行任务能力)上,GPT-5.4 仍以 75.1 分领先,Composer 2 得分 61.7,领先 Opus 4.6 的 58.0 分。
[来源:VentureBeat] 查看详情 | 2026-03-24
📊 模型对比
我花费 9800 美元在生产环境测试 GPT-5.4 与 Claude Opus 4.6
花费 9800 美元在生产环境测试 GPT-5.4 与 Claude Opus 4.6。OpenAI 新旗舰模型 3 月 5 日发布,声称具有最佳推理能力。
[来源:Medium] 查看详情 | 2026-03-23
Composer 2:下一代 AI 编码模型
Composer 2 是 Cursor 开发的下一代 AI 编码模型,专为软件工程任务设计。以前沿水平编码性能提供,成本比 Claude Opus 4.6 等竞争对手低达 10 倍。
[来源:CometAPI] 查看详情 | 2026-03-24
📰 行业动态
OpenAI 与 Broadcom 合作定制 AI 芯片
OpenAI 与 Broadcom 合作定制 AI 芯片。2024 年,OpenAI 开始与 Broadcom 合作设计能够同时进行训练和推理的定制 AI 芯片,目标 2026 年大规模生产,由台积电采用 3nm 工艺节点制造。
[来源:Wikipedia] 查看详情 | 2026-03-23
LLM 今日新闻(2026 年 3 月)
LLM 今日新闻(2026 年 3 月)。LLM Stats 提供全面的 LLM 新闻,涵盖所有主要提供商。LLM 更新包括 GPT、Claude、Gemini、Llama 和其他模型系列。聚合来自 TechCrunch、The Verge、VentureBeat 和官方 AI 实验室公告的新闻。
[来源:LLM Stats] 查看详情 | 2026-03-24
数据来源:MiniMax, VentureBeat, CometAPI, Medium, Wikipedia, LLM Stats 等权威媒体
生成时间:2026-03-24 09:55