看AI浪潮下——中国CV之黄金时代

看AI浪潮下——中国CV之黄金时代

1966年夏天,MIT的一间教室里,人工智能先驱Marvin Minsky给自己的研究生出了这样一道题:“Spend the summer linking a camera to a computer and getting the computer to describe what it saw.”

让机器去“看”,并且告知我们它看到了什么,这便是计算机视觉的原点。


整整50年后,AlphaGo战胜李世乭,再次掀起人工智能热潮,计算机视觉(Computer Vision)技术也终于做好了商业化的最后准备,ImageNet数据集GPU算力支持深度学习算法“三驾马车”整装待发,商业落地到了爆发前夕。


计算机视觉是什么?

计算机视觉是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取“信息”的人工智能系统。

计算机视觉的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的信息。计算机视觉任务的主要类型有以下几种:

1.物体检测

物体检测是视觉感知的第一步,也是计算机视觉的一个重要分支。物体检测的目标,就是用框去标出物体的位置,并给出物体的类别。

物体检测和图像分类不一样,检测侧重于物体的搜索,而且物体检测的目标必须要有固定的形状和轮廓。图像分类可以是任意的目标,这个目标可能是物体,也可能是一些属性或者场景。

2.物体识别(狭义)

计算机视觉的经典问题便是判定一组图像数据中是否包含某个特定的物体,图像特征或运动状态。这一问题通常可以通过机器自动解决,但是到目前为止,还没有某个单一的方法能够广泛的对各种情况进行判定:在任意环境中识别任意物体。


现有技术能够也只能够很好地解决特定目标的识别,比如简单几何图形识别、人脸识别、印刷或手写文件识别,或者车辆识别。而且这些识别需要在特定的环境中,具有指定的光照,背景和目标姿态要求。

3.图像分类

一张图像中是否包含某种物体,对图像进行特征描述是物体分类的主要研究内容。一般说来,物体分类算法通过手工特征或者特征学习方法对整个图像进行全局描述,然后使用分类器判断是否存在某类物体。

图像分类问题就是给输入图像分配标签的任务,这是计算机视觉的核心问题之一。这个过程往往与机器学习和深度学习不可分割。

4.物体定位

如果说图像识别解决的是what,那么,物体定位解决的则是where的问题。利用计算视觉技术找到图像中某一目标物体在图像中的位置,即定位。

目标物体的定位对于计算机视觉在安防、自动驾驶等领域的应用有着至关重要的意义。

5.图像分割

在图像处理过程中,有时会需要对图像进行分割来提取有价值的用于后继处理的部分,例如筛选特征点,或者分割一或多幅图片中含有特定目标的部分等。


计算机视觉是通过创建人工模型来模拟本由人类执行的视觉任务。其本质是模拟人类的感知与观察的一个过程。这个过程不止识别,而是包含了一系列的过程,并且最终是可以在人工系统中被理解和实现的。


中国计算机视觉的崛起之路——CV四小龙

从实验室里的前沿技术,到如今成为AI领域的热点,计算机视觉技术花了整整半个多世纪。通过短短几年的攻城略地,中国计算机视觉公司自2016年下半年加速崛起,逐渐形成了以商汤、旷视、依图、云从“CV四小龙”为主导的格局。


2013年新广告法还没实行,旷视科技为 Face++ 写下文案:“最好的人脸识别云计算平台”。2015年,偏居重庆的周曦悄悄创立云从科技,将目标定为“只做人脸,深耕金融和安防”。这一年商汤开始经历从学术到商业的激烈转型,还与几家小巨头深度绑定,成立了合资公司。2016年,旷视拿到建银国际和富士康集团的1亿美金融资。一向低调的依图同年将业务从车辆、安防,向医疗、城市数据拓展。2019年5月初旷视公布融资金额达到7.5亿美元,此次融资将使得旷视的估值从之前的10亿美元提升至超过40亿美元。而在旷视今年融资之前,彭博社也曾报道旷视正在为香港IPO筹集资金,筹资规模在5亿至10亿美元之间。近年以来,人工智能独角兽旷视科技赴港上市的消息频频传出。近日,有业内人士表示,旷视科技赴港IPO将考虑采用“同股不同权”架构。时至今日,云从业务已渗透到四大国有银行,依图拿到3.8亿C轮融资,商汤则融到4.1亿美元,距上市更进一步。


商汤科技


公开资料显示,商汤科技成立于2014年11月,是中国一家计算机视觉和深度学习原创技术的创新型科技公司,也是一家知名独角兽企业,致力于引领人工智能核心“深度学习”的技术突破,构建人工智能、大数据分析行业解决方案。


目前,商汤科技已与众多知名战略合作伙伴和大客户建立合作,赋能AI于多个行业,迅速落地包括人脸识别、图像识别、视频分析、无人驾驶、医疗影像识别等各类应用技术。此外,商汤科技以人工智能技术服务于各大安防监控公司、银行金融机构、手机厂商、机器人厂商、多家移动APP厂商以及政府公安等客户。

旷视科技


旷视科技成立于2011年10月,以深度学习和物联传感技术为核心,立足于自有原创深度学习算法引擎Brain++,深耕金融安全,城市安防,手机AR,商业物联,工业机器人五大核心行业。发展至今,旷视已在北京、西雅图、南京设立独立研究院,并在十余个核心城市设立分部。


旷视的核心人脸识别技术Face++曾被美国著名科技评论杂志《麻省理工科技评论》评定为2017全球十大前沿科技,同时公司入榜全球最聪明公司并位列第11名。在中国科技部火炬中心“独角兽”榜单中,旷视排在人工智能类首位。

依图科技


成立于2012年,公司核心业务包括智能安防平台、智慧健康医疗、城市数据大脑、智能硬件设备等。目前,依图的技术早已经服务全国20余省安防,为海关总署及中国边检等提供人像比对系统,并在招商银行、浦发银行,遗迹互联网金融等多个业务场景中广泛应用,车辆识别产品亦被公安系统广泛采用,依图也是目前国内唯一拥有10亿级人像库比对能力的公司,搭建了全球最大的人像系统,覆盖超过15亿人像。

云从科技


成立于2015年4月,是一家从中科院重庆研究院孵化的专注于计算机视觉与人工智能的高科技企业。是计算机视觉头部企业中的国家队,承建了国家发改委的基础项目重大工程——“人工智能基础资源公共服务平台”与产业化项目重大工程“人脸识别系统产业化应用平台”。与公安部、四大银行、证通、民航总局建立联合实验室,推动人工智能产品标准的建立,成为唯一同时制定国标、部标、行标的人工智能企业。国家发改委公布的《2017年“互联网+”重大工程拟支持项目名单》中包含四个AI公司,云从科技是其中唯一一家创业公司。


根据IDC市场追踪数据,截至2017年12月底,中国计算机视觉应用市场规模达15.45亿元人民币,同比2016年增长184.0%。根据IDC的数据,“四小龙”的总体市场份额达到了69.4%,而其他厂商总体只占市场的30.6%。

这是属于中国 CV(计算机视觉)公司的岁月,这是属于他们的黄金时代。


CV技术不断进步,落地应用大比拼

随着计算机视觉技术的进步,它的应用领域也非常广泛。过去几年,人工智能在安防领域大显身手,一度被尊为全新生产要素、风口中的风口。

创新工场AI工程院首席架构师张发恩曾表示,到2030年,中国的GDP将达到38万亿美金,其中7万亿美金为AI驱动,2017年之后人工智能会出现分界点,迎来技术转换为应用的黄金时期,有了扎实的技术能力,时下要快速部署落地。

对以计算机视觉技术切入商业世界的各家公司来说,不拘囿于安防领域,他们的眼光都瞄着更大、更广的市场,这样才足以支撑起未来蓝图。于商汤、云从、依图、旷视们来说,他们跑马圈地,不断巩固城池。

在业界一致看好的手机应用赛道,商汤和旷视更是打的不可开交。如此巨大的手机市场,用旷视科技副总裁吴文昊的话说,一定要把商汤挤出去。世界上60%摄像头用在手机上面,AI一定要进入这个市场。

旷视科技目前提供的移动端AI解决方案包括2D/3D+红外人脸解锁、利用人脸 3D 重建、人体分割和景深估计技术为单摄及双摄手机打造光效、基于深度学习的3D面部重建与表情模拟技术(3D Animoji)、人像背景虚化等。

目前,商汤方面在为OPPO、vivo、小米、魅族、一加等提供技术方案,包括人脸解锁、智能美颜、智能滤镜、背景虚化、智能相册方案等。

在平台战略方面,商汤也是最卖力的一家,除了和手机整机厂合作,还推出SenseAR增强现实感绘制引擎和SenseAR开发者平台,据商汤科技方面介绍,他们的AR 技术在短视频、相机、直播等软件的亚太市场占有率为80%小咖秀、Faceu、熊猫直播等APP也都采用了SenseAR技术。

无独有偶,一直在低调巩固银行和安防领域城池的云从科技,在今年2月,推出了旗下基于飞龙II深度学习结构光算法与3D结构光深度摄像头的“3D结构光人脸识别系统”,它能够利用结构光设备同时获取场景的彩色、红外、深度图片,并对场景中的人脸进行检测分析,形成3D人脸图像的技术。




依图则自 2016 年下半年开始发力医疗,其开发的胸部 CT 影响辅助诊断产品已经在浙江深人民医院、复旦大学附属肿瘤医院等数十家三甲医院部署,报告采纳率超过 90%。早前,依图宣布与浙江省儿童医院结成战略合作伙伴,并发布了一款基于儿童骨龄的智能辅助诊断系统。CV 之外,依图还在 NLP (自然语言处理)领域展开尝试,开发了基于海量病例的儿科辅助诊断系统「咪姆熊」,以及病例智能搜索引擎。

此外,与安防相似,新零售行业中也存在着大量的场景需求。智慧门店、智能买手、智能仓储与物流、智能营销与体验……各环节都有AI 需求。

久未发声的格灵深瞳也看到了新零售的巨大市场。“18000家门店,有多少比例完成了智能化改造?今年才刚刚开始。”据格灵深瞳CEO赵勇称,目前已有4000多家店面接入格灵深瞳的系统,并以每天100家的增速增长。“接入方式是在各地请第三方服务公司上门部署,部署的方案既包括软件系统也包括硬件。”

除新零售外,格灵深瞳还进入银行、能源(具体而言以加油站、4S店为主)领域。“这3个行业有相当高的相关性和复用率,都是跟营销有关。物联网营销公司慢慢会变成格灵深瞳一个重要的标签。”


计算机视觉行业前瞻

近年来中国人工智能产业发展迅速。从市场规模来看,自2015年开始,中国人工智能市场规模逐年攀升。2017年中国人工智能市场规模将达到152.1亿元,增长率达到51.2%。

随着人工智能技术的逐渐成熟,科技、制造业等业界巨头布局的深入,应用场景不断扩展,2018年中国人工智能市场规模约为238.2亿元,增长率达到56.6%。

计算机视觉是赋予计算机一双“眼睛”的科学技术。近些年,基于深度学习的发展,计算机视觉在人工智能和深度学习的大背景下方兴未艾,与此同时,当越来越多的应用场景被挖掘出来时,也意味着计算机视觉的发展前景将无比广阔。

随着人们对生活安全及生产效率需求的提升,凭借着计算机视觉应用场景的广泛性,计算机视觉有望发展成为下一个智能时代的标配。


计算机视觉行业发展前景觉得其具有高成长性特点,未来将涌现更多人工智能领域优秀企业。但行业发展同时伴随高风险性,行业竞争需要比拼企业技术算法能力、资金能力以及人才资源,同时考验企业能否实现技术迅速落地,对企业综合实力要求高,综合实力不具备优势的企业在行业内将难以生存。

创新者、先行者往往没有太多的成功经验可借鉴,不管是人工智能系统的建设方,还是技术供应商,还是服务商,都会遇到不同的挑战。

1.缺乏可用于人工智能模型训练的大规模数据集。

缺乏标注数据是几乎所有应用场景普遍存在的挑战。当前的应用场景多以项目制形式落地,数据仍然在项目建设方,数据不能共享也无法形成闭环,也就导致技术的进步分散在各个企业的各个项目中,难以带来行业整体跨越。

2.需要新的基础架构来满足计算加速的需求。

与以往应用相比,人工智能应用通常会有计算加速的需求。传统的基础设施不能满足需求,用户会面临着本地部署新架构或者云端服务快速获取计算加速能力的选择。而新架构的搭建对大部分用户来说也是挑战,这个过程可能涉及到新型计算架构环境的搭建,以及在新架构上开发应用等。

3.缺乏从技术到产品到规模化应用的工程化经验。

计算机视觉技术的应用已不再是单一的软件应用,涉及到新型基础架构,涉及到新的数据分析流程,还涉及到智能硬件如摄像头的安装等等。每一个环节都可能会影响识别效果。将这一技术从实验室扩展到工业化应用的过程本身就是很大的挑战。


4.众多技术瓶颈待突破。

这些技术瓶颈包括动态图像识别、实时视频分析;还包括将模型部署在前端的技术挑战,也包括当前的网络带宽对传输带来的限制等。

5.特定领域在将应用规模化部署时面临成本压力。

以零售行业为例,2017年初,部署视频监控系统平均一路摄像头的成本达数万元,而传统的零售行业本身就面临收入增长变缓的压力,如何降低总部署成本是零售业面临的挑战之一。

6.人才结构不能满足人工智能系统建设的需求。

举例来讲,人工智能应用的开发,其中一个重点即算法的持续调优,而这一点取决于是否有充足的高级技术人员。传统型公司可能会缺乏人工智能开发人才,纯技术创新型公司则缺乏对行业理解深刻、可以快速工程化的人才,行业整体缺乏硬件开发人才。人才结构的不平衡是全行业正在面临的挑战。

曾经,人类用眼睛记录了波澜壮阔的历史。未来,我们希望逐步开启计算机的眼,让它在看懂这个多彩的世界的同时,也能帮助人类更高效和智能的完成工作和生活。期待在计算机视觉和人类的共舞下,世界绽放光彩的同时,更具智慧。

图片来源于网络、侵删