OCR技术的简单理解

OCR技术的简单理解

一.COR应用场景

1.四类:

数字原生类:

淘宝商品图是最具有代表性的数字原生类文字图。

特点:1)最复杂多样:各种字体、背景、排列、组合等(MTWI挑战赛-最大的OCR竞赛)。

2)最有价值:商品信息载体

3)图片量最大:千亿图片,每日不停更新。

文档类:

文档类OCR需求非常广,涉及各种公务场景。

特点:1)100%识别率:人的输入准确率为98%,探索AI知识的极限;2)产品易用性:完善的功能,贴近业务需求;3)商业应用:文档类商业成熟。

拍照表单类:拍照表单类OCR价值非常大,非常有挑战性。

特点:1)场景&数据:数据具有隐私性,典型应用场景沉淀技术能力;2)产品通用性:专家知识+模板=文本理解,一套方案解决上百种类型。3)商业价值:和行业场景深度接入,AI能力改善行业数据流程。(提供定制的拍照表格识别和结构化云服务)

自然场景类: OCR学术研究的重点方向。

特点:1)数据:无具体数据类型定义,比如街拍数据;2)技术难点:不确定性,复杂环境干扰本质难点是定位和识别;3)商业价值:市场潜力巨大,如:车牌识别、摄像监控、自动驾驶。(技术能力领先,行业落地中)

2.OCR算法:

算法能力:

两种核心算法能力:1)通用文字识别;2)通用结构化(文字识别是结构化的基础)

基础算法:文字定位、文字识别

1.文字定位:定位文字在图像中的位置表征成行。

特征问题:背景等特征干扰问题,深度学习可以较好的解决特征问题。

Scale问题:物体定位的共性问题,字高范围8-300个像素

成行问题:文字定位特有问题。

(1)Scale问题:物体定位的共性问题

(2)成行问题:文字定位特有问题

2.文字识别

在文字定位的基础上,识别文字内容,同时,输出单字位置和识别率用于文本理解。

————————————————

版权声明:本文为CSDN博主「帝都农夫」的原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/wurmyq/article/details/90755433