我们围绕智能编程、多模态评测、推理训练、低资源 NLP 与模型审计展开研究,并把每项成果写成兼顾研究者与普通读者的双语解读。
arXiv 已提交 · 链接即将更新
当年竞价排名能把莆田系医院推到患者面前,如今卖家也能改写页面、让 AI 更愿意推荐自己。SafeGEO 用 600 个推荐案例、22 类攻击变体测量这种风险与防御空间。
AI安全 · 推荐智能体 · GEO
KDD 2026 主会(CCF-A)· 联合小红书
50 个真实 iOS 功能任务、449 条人工写的测试、约 50 万行生产代码,榜首通过率 12%。
AI编程 · 智能体评测 · 小红书
arXiv · 2026
把“自印发之日起施行”改写成“从发出当天开始执行”,关系到公共信息人人读得懂,英语之外却长期无从评测。OasisSimp 由母语者为五种语言写出 9,519 个原句的多参考简化,全部开放。
多语言NLP · 数据集
arXiv · 2026
引擎像不会带徒弟的老师傅:算得准,讲不出。大师蒸馏让 4B 模型以 48.1% 棋题准确率超过多数前沿大模型,解释还短两个数量级。
蒸馏 · RLVR
arXiv · 2026
只刷题、不检查卷子的学生不会改错,常规训练出的模型也一样。ThinkTwice 用同一个对错奖励先教解题、再教修正,AIME pass@4 提升 11.5 个百分点。
RLVR · 自我精修