深度识别具有自主识别引擎的 OCR 应用

如果非要说「深度识别」App 有什么特点的话,那最大的特点应该就是它拥有完全自主的 OCR 识别引擎。这个 App 的起点是开发者在 2014、2015 年左右做过的一个验证码识别系统。数字验证码并不难,只是 0-9 十个数字,加上轻微的旋转扭曲缩放即可。如果有粘连字符需要进行切分的话,使用维特比算法计算最大联合概率即可。

但是汉字跟验证码不同,汉字很复杂,并且数量很多(常用汉字就 3000 多),再加上旋转扭曲缩放,样本数量非常恐怖,怎样把一大坨汉字样本塞进 App 的应用包里面是一个煞费苦心的事情。

所以当初为了研究汉字 OCR 识别,开发者实验了 N 种算法——要么是识别效果不好,要么是识别太慢,要么是样本库太大——最后选择的是一种接近深度学习的多层神经网络算法,终于实现了相对满意的汉字识别效果。

▎双模式文字识别 

在「深度识别」的早期版本,完全是调用本地识别的。在 18 年以后,引入了百度的在线识别 API,实现了两者互补:

如果用户需要更好的识别效果,那么 App 联网时会调用百度的文字识别 API 。

如果用户觉得联网识别会暴露隐私或者说工作中会经常遇到没用网的情况,那么 App 会自动调用本地的 OCR 识别引擎。

这样,无论任何情况都能够不影响 App 正常工作。

▎双模式选择文字

大多数情况下,我们要选择一大段文字来识别,可以直接反手一个框选过去就是一片文字。但是假如我们只想选择一两行文字,或者甚至一行文字中的一个部分,那么使用框选就显得有点别扭了。

在「深度识别」App 中,除了可以通过裁剪框来框选大片文字,还可以通过涂抹功能来选择小块文字,后续的版本还打算开发橡皮擦功能,这样涂抹错误的地方就可以擦除掉。

这样,裁剪选择和涂抹选择就分别对应了两个不同的场景——选择大片文字和选择小块文字。类似于前面的双模式识别,实现了另外一种功能上的互补。

▎批量识别

在图片选择界面这里,用户可以一次性选择最多 9 张图片进行批量识别,识别完毕之后,用户可以查看每一张图片的识别结果,也可以查看合并的识别结果。在合并识别结果里面,用户之前选择的多张图片会合并为一整张长图,识别结果文字也会合并为一整块的文字,方便进行完整的文字校对工作。

▎导出功能

识别完毕的文字可以复制到粘贴板,可以翻译成其他语言,可以使用苹果内置的各项导出功能分享到其他 App,还有两项「深度识别」特有的功能,一是可以把识别完毕的文字作为 text 文件保存到 App 自带的文件系统里面;二是可以把文字导出为 docx 格式。

*iOS 版导出为付费功能,有 25 元买断和 12 元导出 120 次两种内购方式,大家可以在下载 App 测试过识别准确率和应用体验后决定是否要付费支持。

▎未来的规划

总的来讲, 开发这个 App 还是为了更好地为人民币(划掉,是人民)服务,并没有什么十分严谨的庞大的规划。

如果要说打算做点什么的话,那就是三点工作:

一是讨好苹果爸爸,好好包装一下 App,并且尽量集成苹果的新功能新特性;

二是在技术允许的条件下添加一些新可以实现的功能,比如连拍、识别表格、文件云备份等等,尽可能地改进用户体验;

三是如果还有余力的话,研究一下新的核心技术(具体研究什么暂时保密),毕竟老本行是做算法的嘛。

只是做了一点微小的工作,谢谢大家。——深度识别 App 开发者

 

▎最美尾巴

说起来,小美推荐过的 OCR 应用也有不少了,有付费的,有免费的,有功能专一的,也有扩展丰富的...每款 App 都跟他们的开发者一样,各具特色,针对性也不同,总有一款适合你,大家可以到「最美应用」公众号后台回复「OCR」,查看我们以前推荐过的相关 App。

© 本文著作权归作者所有,并授权最美应用独家使用,未经最美应用官方许可,不得转载使用。
关注「最美应用」微信公众帐号

最美应用微信公众号 nice-app
每天发布限时免费应用和免费壁纸
高清截图
展开更多截图

ocr

  • |
  • 1
评论
×
最美应用
免费
查看