模型 · 中文语法纠错

言澜大模型

新一代中文语法纠错模型——文本、视频字幕、音频转录、图片 OCR 全模态覆盖，为生产部署而生。

立即体验 → 查看性能

10×准确率提升——误报率从 5% 降至 0.5%

15×速度提升——2,000 → 30,000 字/秒

10×成本降低——H100 级降至 4090 级

99%+视频字幕纠错准确率

言澜是一个用多阶段强化学习训练的中文语法纠错模型，核心优化目标来自生产部署的真实约束：低到不浪费编辑时间的误报率、能接日级新闻流水线的吞吐量、以及一张中端 GPU 就能跑得动的成本曲线。模型不仅处理纯文本，也读视频字幕、音频转录与图片 OCR——纠错发生在内容真正生成的地方。

把言澜接入字幕流水线，每一行都被即时审一遍——错别字、识别错的字符、术语不一致——准确率 99%+，每分钟视频耗时 1–5 秒。已用于日更多语言字幕的编辑团队。

ASR 转录稿往往噪声很大。言澜结合音频上下文阅读它——修正听错的同音字、规范专有名词、保留方言形式而不是把它们抹平。在主流普通话变体上达到 96%+ 准确率。

不止文字：言澜带一个为广播与流媒体合规审核训练的人脸核验头。识别准确率 98%+，比人工审核流水线 提速 20–30 倍。

对接 16,740 部中国法律法规语料库，每日自动更新。言澜可标记出与现行法规冲突的内容——适用于政府、媒体、教育内容的法务复核。

性能：与显而易见的基线对比

下表为言澜在内部中文 GEC 评测集上的表现，与目前能找到的最强商用基线一对一对比。三个指标缺一不可——只准但慢的模型上不了线；只快但贵的模型撑不过财务复核。

言澜以一层多模态感知把文本、音频、图像、视频字幕统一成同一种 token 流，再通过一个分类器在标准中文中央词库、按部署调优的自定义词库与纠错模型之间路由。最后由后处理整合层把结果合并输出。

训练是多阶段强化学习：先在人工校对过的纠错样本上做监督微调，再用编辑奖励做强化学习，并显式地惩罚误报——这一步是把误报率压到 0.5% 的关键。

提供一段样本，看左右对比的纠错结果，再聊报价。

立即体验 →