News · 新闻

论文发布、产品上线与实验室里程碑。

来自网景盛世 AI 实验室的最新动态：研究成果、产品发布与值得记录的瞬间。

9 条动态最新更新于 2026 年 6 月

置顶 · Pinned

2026 年 5 月 18 日重磅发布

言澜大模型 V3.0 上线：中文发布前纠错又上一个大台阶

和 V2.0 一对一比，8 项核心指标全胜，47 项对比赢下 43 项。

8/8综合指标全胜43/47对比项胜出95.69%F194.16%完美修正率

阅读全文

2026

5 条

5 月重磅发布

2026 年 5 月重磅发布

言澜大模型 V3.0 发布

8 项核心指标全胜，47 项对比赢下 43 项，发布前中文纠错能力再上台阶。

4 月arXiv

2026 年 4 月arXiv

ThinkTwice 发布

模型像只刷题、不检查卷子的学生：会解题，不会改错。ThinkTwice 用同一个对错奖励把“检查”练成能力，AIME pass@4 提升 11.5 个百分点。

3 月arXiv

2026 年 3 月arXiv

Grounded Chess Reasoning 发布

引擎像不会带徒弟的老师傅：算得准，讲不出。大师蒸馏把引擎知识翻译成自然语言推理，4B 模型学会简洁讲棋，并超过教师模型。

3 月arXiv

2026 年 3 月arXiv

OasisSimp 数据集发布

把公文句子改写成人人读得懂的话，多数语言连评测的尺子都没有。五种语言、9,519 个原句、母语者撰写——低资源句子简化第一次有了开放评测。

2 月KDD 2026 主会（CCF-A）

2026 年 2 月KDD 2026 主会（CCF-A）

SWE-Bench Mobile 发布

50 个真实 iOS 功能任务、449 条人工写的测试、约 50 万行生产代码，最高任务通过率 12%。

2025

3 条

8 月COLM 2025

2025 年 8 月COLM 2025

SEAM 被 COLM 2025 接收

体检报告换个格式，诊断不该变；模型却常常变。SEAM 在棋局、分子、乐谱、图论四个领域量化 21 个视觉语言模型的跨模态不一致。

8 月项目启动

2025 年 8 月项目启动

Mobile-Agent-Bench 项目启动

长期合作起点，致力于在真实移动生产代码库上评测编码智能体。

6 月实验室成立

2025 年 6 月实验室成立

网景盛世 AI 实验室成立

聚焦大模型安全部署、评估与真实业务应用。

2024

1 条

12 月NeurIPS Spotlight

2024 年 12 月NeurIPS Spotlight

Report Cards 获 NeurIPS SoLaR Spotlight

像老师写评语一样，自动为模型写出行为“成绩报告单”，并验证报告确实帮助人类分辨模型差异——获 NeurIPS SoLaR Spotlight。