我们围绕小模型推理、智能编程与语法纠错系统展开研究,并将成果部署到政府、媒体与教育的真实业务场景中。
arXiv · 2026
通过大师蒸馏与可验证奖励 RL,让 4B 小模型在棋艺推理上超越前沿大模型。
arXiv 2026
联合优化推理与自我精修的 RLVR 框架,仅 3% 训练开销,AIME 精修后 +11.5pt。
arXiv 2026 · 与小红书联合
基于真实生产代码库的工业级移动开发智能体评测,50 个任务、449 条人工验证测试。
覆盖英语、僧伽罗语、泰米尔语、泰语、普什图语的开源句子简化数据集。
COLM 2025
语义等价跨模态推理基准,评估视觉-语言模型的跨模态一致性。
NeurIPS SoLaR 2024 · Spotlight
全自动定性评估框架,生成人类可解释的模型行为报告。