发布日期:2024-06-11 09:42浏览次数:
圆锥识别为圆雉?各种中文错别字看起来很麻烦
各种公式识别引擎,总是出现一堆的识别中文错别字,找起来又麻烦,一看字还特别像,大批量编辑十分头疼。
我们2019年就发现这个问题了,我们尝试使用传统办法处理效果并不好,尝试过易错替换,建立数据索引来处理这种错误词组结果发现效果很差,会把原本是那个词的替换成错误的内容,我们就放弃了这个方案。
为了彻底解决这个问题,我们采用了自然语言处理技术(NLP),为我们的系统建立词嵌入,通过正确字组序列训练和错误字组对照训练,我们就可以通过序列依赖关系,去找到疑似的错误词,再通过序列概率找到最佳的正确词组进行替换,我们通过循环神经网络对序列进行训练,使用【序列到序列Sequence-to-Sequence】将错误率最高的字组输出,并在原序列字符中做空标识替换,再通过另一个模型去序列中匹配正确的字组进行替换。
点击【设置】打开【高精度识别】即可使用nlp技术来解决错别字问题
我们在自然语言处理技术上有很丰富的经验,在处理产品实际问题上我们付出诸多努力,减少编辑麻烦,提供完整的工具链,通过更详细的资料,帮助用户解决实际的麻烦。