OCR技术的简单理解

数据仓库数据产品人 2019-08-25

OCR技术的简单理解

一.COR应用场景

1.四类：

数字原生类：

淘宝商品图是最具有代表性的数字原生类文字图。

特点：1）最复杂多样：各种字体、背景、排列、组合等（MTWI挑战赛-最大的OCR竞赛）。

2）最有价值：商品信息载体

3）图片量最大：千亿图片，每日不停更新。

文档类：

文档类OCR需求非常广，涉及各种公务场景。

特点：1）100%识别率：人的输入准确率为98%，探索AI知识的极限；2）产品易用性：完善的功能，贴近业务需求；3）商业应用：文档类商业成熟。

拍照表单类：拍照表单类OCR价值非常大，非常有挑战性。

特点：1）场景&数据：数据具有隐私性，典型应用场景沉淀技术能力；2）产品通用性：专家知识+模板=文本理解，一套方案解决上百种类型。3）商业价值：和行业场景深度接入，AI能力改善行业数据流程。（提供定制的拍照表格识别和结构化云服务）

自然场景类： OCR学术研究的重点方向。

特点：1）数据：无具体数据类型定义，比如街拍数据；2）技术难点：不确定性，复杂环境干扰本质难点是定位和识别；3）商业价值：市场潜力巨大，如：车牌识别、摄像监控、自动驾驶。（技术能力领先，行业落地中）

2.OCR算法：

算法能力：

两种核心算法能力：1）通用文字识别；2）通用结构化（文字识别是结构化的基础）

基础算法：文字定位、文字识别

1.文字定位：定位文字在图像中的位置表征成行。

特征问题：背景等特征干扰问题，深度学习可以较好的解决特征问题。

Scale问题：物体定位的共性问题，字高范围8-300个像素

成行问题：文字定位特有问题。

（1）Scale问题：物体定位的共性问题

（2）成行问题：文字定位特有问题

2.文字识别

在文字定位的基础上，识别文字内容，同时，输出单字位置和识别率用于文本理解。

————————————————

原文链接：https://blog.csdn.net/wurmyq/article/details/90755433