← 返回产品
模型 · 中文语法纠错

言澜大模型

新一代中文语法纠错模型——文本、视频字幕、音频转录、图片 OCR 全模态覆盖,为生产部署而生。

言澜大模型在视频字幕上的纠错
10×准确率提升——误报率从 5% 降至 0.5%
15×速度提升——2,000 → 30,000 字/秒
10×成本降低——H100 级降至 4090 级
99%+视频字幕纠错准确率

言澜是一个用多阶段强化学习训练的中文语法纠错模型,核心优化目标来自生产部署的真实约束:低到不浪费编辑时间的误报率、能接日级新闻流水线的吞吐量、以及一张中端 GPU 就能跑得动的成本曲线。模型不仅处理纯文本,也读视频字幕、音频转录与图片 OCR——纠错发生在内容真正生成的地方。

视频字幕纠错

视频字幕纠错

把言澜接入字幕流水线,每一行都被即时审一遍——错别字、识别错的字符、术语不一致——准确率 99%+,每分钟视频耗时 1–5 秒。已用于日更多语言字幕的编辑团队。

音频转写纠错

音频转写纠错

ASR 转录稿往往噪声很大。言澜结合音频上下文阅读它——修正听错的同音字、规范专有名词、保留方言形式而不是把它们抹平。在主流普通话变体上达到 96%+ 准确率。

身份核验

人脸识别检测

不止文字:言澜带一个为广播与流媒体合规审核训练的人脸核验头。识别准确率 98%+,比人工审核流水线 提速 20–30 倍

法规合规检测

法规合规检测

对接 16,740 部中国法律法规语料库,每日自动更新。言澜可标记出与现行法规冲突的内容——适用于政府、媒体、教育内容的法务复核。

性能:与显而易见的基线对比

下表为言澜在内部中文 GEC 评测集上的表现,与目前能找到的最强商用基线一对一对比。三个指标缺一不可——只准但慢的模型上不了线;只快但贵的模型撑不过财务复核。

指标 言澜 最佳基线 提升
误报率0.5%5%10×
吞吐量(字/秒)30,0002,00015×
部署 GPU 等级RTX 4090H10010× 成本

它是怎么工作的

言澜以一层多模态感知把文本、音频、图像、视频字幕统一成同一种 token 流,再通过一个分类器在标准中文中央词库、按部署调优的自定义词库与纠错模型之间路由。最后由后处理整合层把结果合并输出。

训练是多阶段强化学习:先在人工校对过的纠错样本上做监督微调,再用编辑奖励做强化学习,并显式地惩罚误报——这一步是把误报率压到 0.5% 的关键。

准备好整理你的中文内容流水线了?

提供一段样本,看左右对比的纠错结果,再聊报价。

立即体验 →