Research · 研究

推动推理、代码与中文 AI 的边界。

我们围绕智能编程、多模态评测、推理训练、低资源 NLP 与模型审计展开研究，并把每项成果写成兼顾研究者与普通读者的双语解读。

7 篇论文6 研究主题更新于 2026 年 6 月

2026

5 篇论文

arXiv 已提交 · 链接即将更新

当年竞价排名能把莆田系医院推到患者面前，如今卖家也能改写页面、让 AI 更愿意推荐自己。SafeGEO 用 600 个推荐案例、22 类攻击变体测量这种风险与防御空间。

AI安全 · 推荐智能体 · GEO

KDD 2026 主会（CCF-A）· 联合小红书

50 个真实 iOS 功能任务、449 条人工写的测试、约 50 万行生产代码，榜首通过率 12%。

AI编程 · 智能体评测 · 小红书

arXiv · 2026

把“自印发之日起施行”改写成“从发出当天开始执行”，关系到公共信息人人读得懂，英语之外却长期无从评测。OasisSimp 由母语者为五种语言写出 9,519 个原句的多参考简化，全部开放。

多语言NLP · 数据集

arXiv · 2026

引擎像不会带徒弟的老师傅：算得准，讲不出。大师蒸馏让 4B 模型以 48.1% 棋题准确率超过多数前沿大模型，解释还短两个数量级。

蒸馏 · RLVR

arXiv · 2026

只刷题、不检查卷子的学生不会改错，常规训练出的模型也一样。ThinkTwice 用同一个对错奖励先教解题、再教修正，AIME pass@4 提升 11.5 个百分点。

RLVR · 自我精修

1 篇论文

COLM 2025

体检报告换个格式，诊断不该改变；同一题目以文字或图像呈现，模型答案却常常不同。SEAM 在四个领域、9,600 次评测中量化 21 个模型的跨模态一致性。

多模态 · 评测基准

1 篇论文

NeurIPS SoLaR 2024 · Spotlight

总分相同的两个学生，弱项可能完全不同——模型也一样。Report Cards 像老师写评语那样为模型写出“成绩报告单”，并用对比准确率、Card Elo 与人工评分验证报告质量。

模型评估 · 可解释AI