News · 新闻

论文发布、产品上线与实验室里程碑。

来自网景盛世 AI 实验室的最新动态:研究成果、产品发布与值得记录的瞬间。


9 条动态最新更新于 2026 年 6 月

2026

5 条
5 月重磅发布
2026 年 5 月重磅发布

言澜大模型 V3.0 发布

8 项核心指标全胜,47 项对比赢下 43 项,发布前中文纠错能力再上台阶。

4 月arXiv
2026 年 4 月arXiv

ThinkTwice 发布

模型像只刷题、不检查卷子的学生:会解题,不会改错。ThinkTwice 用同一个对错奖励把“检查”练成能力,AIME pass@4 提升 11.5 个百分点。

3 月arXiv
2026 年 3 月arXiv

Grounded Chess Reasoning 发布

引擎像不会带徒弟的老师傅:算得准,讲不出。大师蒸馏把引擎知识翻译成自然语言推理,4B 模型学会简洁讲棋,并超过教师模型。

3 月arXiv
2026 年 3 月arXiv

OasisSimp 数据集发布

把公文句子改写成人人读得懂的话,多数语言连评测的尺子都没有。五种语言、9,519 个原句、母语者撰写——低资源句子简化第一次有了开放评测。

2 月KDD 2026 主会(CCF-A)
2026 年 2 月KDD 2026 主会(CCF-A)

SWE-Bench Mobile 发布

50 个真实 iOS 功能任务、449 条人工写的测试、约 50 万行生产代码,最高任务通过率 12%。

2025

3 条
8 月COLM 2025
2025 年 8 月COLM 2025

SEAM 被 COLM 2025 接收

体检报告换个格式,诊断不该变;模型却常常变。SEAM 在棋局、分子、乐谱、图论四个领域量化 21 个视觉语言模型的跨模态不一致。

8 月项目启动
2025 年 8 月项目启动

Mobile-Agent-Bench 项目启动

长期合作起点,致力于在真实移动生产代码库上评测编码智能体。

6 月实验室成立
2025 年 6 月实验室成立

网景盛世 AI 实验室成立

聚焦大模型安全部署、评估与真实业务应用。

2024

1 条
12 月NeurIPS Spotlight
2024 年 12 月NeurIPS Spotlight

Report Cards 获 NeurIPS SoLaR Spotlight

像老师写评语一样,自动为模型写出行为“成绩报告单”,并验证报告确实帮助人类分辨模型差异——获 NeurIPS SoLaR Spotlight。