置顶 · Pinned
言澜大模型 V3.0 上线:中文发布前纠错又上一个大台阶
和 V2.0 一对一比,8 项核心指标全胜,47 项对比赢下 43 项。
8/8综合指标全胜43/47对比项胜出95.69%F194.16%完美修正率
阅读全文来自网景盛世 AI 实验室的最新动态:研究成果、产品发布与值得记录的瞬间。
和 V2.0 一对一比,8 项核心指标全胜,47 项对比赢下 43 项。
8 项核心指标全胜,47 项对比赢下 43 项,发布前中文纠错能力再上台阶。
模型像只刷题、不检查卷子的学生:会解题,不会改错。ThinkTwice 用同一个对错奖励把“检查”练成能力,AIME pass@4 提升 11.5 个百分点。
引擎像不会带徒弟的老师傅:算得准,讲不出。大师蒸馏把引擎知识翻译成自然语言推理,4B 模型学会简洁讲棋,并超过教师模型。
把公文句子改写成人人读得懂的话,多数语言连评测的尺子都没有。五种语言、9,519 个原句、母语者撰写——低资源句子简化第一次有了开放评测。
50 个真实 iOS 功能任务、449 条人工写的测试、约 50 万行生产代码,最高任务通过率 12%。
体检报告换个格式,诊断不该变;模型却常常变。SEAM 在棋局、分子、乐谱、图论四个领域量化 21 个视觉语言模型的跨模态不一致。
长期合作起点,致力于在真实移动生产代码库上评测编码智能体。
聚焦大模型安全部署、评估与真实业务应用。
像老师写评语一样,自动为模型写出行为“成绩报告单”,并验证报告确实帮助人类分辨模型差异——获 NeurIPS SoLaR Spotlight。