OCR纠结记

上一篇文章中提到了,我们完成了一项了不起的事情:把几十本书中的几百页搞成了Excel表格。现在总结一些,其中的经验和教训:

首先,如果有更多预算,应该选择的设备不应该是翻拍仪,而是一台正经的高速扫描仪。原因如下:

  • 翻拍仪的扫描质量严重依赖于光线,阴天或者傍晚的扫描质量比较差。而扫描仪则能够避免这个缺陷。
  • 翻拍仪要求纸张平整,如果有一个角稍微翘起,那识别的时候会遇到问题,可能需要梯形校正。

所谓“擒贼先擒王,搞姑娘先搞定丈母娘”(什么和什么呀!!!其实我想说的是“磨刀不误砍柴工”)使用OCR软件时,最好多做一些准备工作:

  • 流程上,是选择一次导入所有图片,还是每次导入一张?这取决于你自己的工作习惯,我觉得导入多张之后可以全局操作,挺不错。
  • 导入图片时是否需要预处理?在精细调整之前,预处理的效果相当差,所以多数时候,我取消它。但先识别一下,看看效果,至少可以有个参考。如果想坐下来喝杯咖啡,就可以一下子导入几十张图片,让软件慢慢预处理吧。

Abbyy FineReader 能支持多种语言,以及不同语言的组合。但为了提高识别准确率,如果一个页面上中文、数字、英文等分块比较清楚,还是建议分块识别,比如先识别出中文,粘到其他编辑器中调整,再识别数字。这样虽然麻烦了些,但确实避免了软件把汉字误识为数字这种“跨界”的情况。

为了进一步缩小范围,我自定义了一个字典(“纯数字”,告诉软件,所要识别的范围内只有1234567890这十个数字,只在这十个数字中匹配),这功能些在Abbyy FineReader里都有。

实际识别过程中,发现以下一些问题:

  • 0容易被误识为41或11
  • 3变1
  • 5变3
  • 8变成13
  • 9识别不出来(没有输出)
  • 边边角角容易出错(可能是因为光线以及使用翻拍仪拍摄时纸不平整)

机器搞不定的事情,只能人来搞定。。。容易么。。。

阅读 19