如何“看懂”图片?谈出海企业的视觉识别体系搭建

如何“看懂”图片?谈出海企业的视觉识别体系搭建

对于出海企业,尤其是音视频行业出海企业,视觉识别能力已经成为必不可少的云服务基础建设。一方面,出海企业要面临出海国家各具特色的监管要求,需要通过视觉识别建立足够强大的风控系统;另一方面,视觉识别也是实现智能推荐、检索匹配的必要基础。

“视觉识别”确实是一个宏大的技术主题,从中可以衍生出算法研发、模型训练、策略调优等等研究方向,每个方向都值得展开细致的技术探讨。本篇文章暂不讨论具体的技术细节和实现,将更多的关注点放在视觉识别应该解决哪些识别目标的宏观问题上,即“机器面对未知图片,应该具备哪些组成部分的识别能力”的问题,着重介绍出海企业在建立视觉识别能力时应考虑哪几方面的识别功能。

人像是讨论视觉识别时,最符合直觉的视觉主体,因此对图片中人像的识别能力是解决合规问题和实现更多高级功能的基础。人像包含姿态、肤色、装扮等多种因素,要求出海企业具备较为全面的识别能力。

1. 性别识别:

由于海外部分地区的文化环境差异,在对人像进行性别识别时,除了男性、女性,也要注意存在的部分少数群体。以免直接凭借外在男性/女性特征进行识别产生的偏差,引起不必要的声誉风险。

2. 体态识别:

识别人像姿态和身体形态,如半身像/全身像、站姿/坐姿/卧姿、高矮胖瘦等。因为姿势隐含了基础的倾向信息,例如:半身像更有可能是自拍、卧姿更有可能含有色情风险等等。因此,姿态识别的能力可以作为综合判定图片风险的参考因素之一。而身体形态的高矮胖瘦既能够辅助其他识别的准确性,也能够作为智能推荐的参考因素。

身着警服的女警

3. 着装识别:

对人像着装的识别是风险判定和进阶功能的必备识别能力。在合规方面,着装覆盖皮肤的面积可以作为色情风险的判断因素;着装是否为警服、军装、皇家贵族服饰或者武装份子着装都可作为是否违规的参考因素。当具备着装风格的识别能力时,例如洛丽塔服饰、西装绅士风等,就可以提供兴趣推荐的进阶功能

4. 肤色识别:

在肤色识别方面,由于国内企业长期训练的人像相关模型通常面向国内业务,因此模型的训练集一般采用了黄种人的样本,在进行海外人像的识别时,就要考虑肤色差异带来的泛化性变化,尤其是一些以往不考虑模型效果的极端场景,例如黑色人种的夜拍图。因此肤色识别并不是要能判定具体的肤色,而是保证模型对人像识别的良好适应能力。

物品是图片中包含的一大重要视觉元素,这里的“物品”其实包含了无生命的物品和有生命的动植物等。对物品的识别能力直接关系到风险判定和智能推荐的效果,在这里我们可以将“物品”分为敏感物品、普通物品、动植物三类。

手持武器的索马里海盗

1. 敏感物品:

敏感物品的识别直接关系到风险判定,画面中出现的某些物体就直接预示了风险,例如枪支弹药、毒品和相关植物、赌桌和老虎机等。但同时,在策略设置上也要考虑地区差异。

比如:当枪支出现在北美地区的社交媒体时,单从图片判定是否有风险是模棱两可的,但在中东的禁枪国家就可以直接判定为严重的违禁。同理,像十字架、圣经等具有宗教色彩的物品,在不同国家也具有不同的风险尺度。

2. 普通物品:

这里定义的普通物品即各类常见物品,对普通物品的识别更多的服务于智能推荐功能。例如,某位用户的动态图片中出现了多台智能手机、平板电脑、智能手表和电脑设备,那么他很有可能是数码爱好者,或是从事相关产品的产研销工作。


在中东地区禁忌的“猪”形象

3. 动植物:

动植物的识别同样关系到内容合规与智能推荐两方面需求。在内容合规方面,某些动植物因其珍惜性需要识别,比如虎类等保护动物。还有些动植物是因为地区性文化禁忌而需要识别,比如印度的牛、泰国的象和中东地区的猪,都需要针对性地训练相应的动物识别模型。相比起来,智能推荐需求就更加容易理解,例如如果动态图片中频繁出现树木,那么他可能喜欢户外徒步,或者以护林员为工作。至于图片中出现的猫、狗等,也可以用作猜测宠物喜好的依据。

在图片的组成部分中,符号与标识往往是占据较小图像面积的固定图形,但又具备非常明显和强烈的象征意义,在符号和标识中包括了各类国徽会徽、军队标识、Logo、台标、宗教符号等,甚至地图这种形状是否完整具备重大意义的图形也可以视作符号标识的一种。

在这里我们可以分为高敏感标识和低敏感标识。

部分具有特殊意义的符号

1. 高敏感标识:

这类标识往往因其意义具有相当高的敏感度,在识别时应该采用“宁错勿漏”的灵敏策略。例如:纳粹相关标识、佛教“卐”字标识、十字架标识、地图等。

这些符号在不同地区也具有不同的监管尺度,比如在大部分地区出现六角星图案不会有什么问题,但中东地区会将其与犹太教联想起来,因此在打入具有国家性宗教或有宗教信仰人口比重很高的国家市场时,对符号和标识的识别要尤为注意。

2. 低敏感标识:

这类标识主要囊括了一些常见的其他标识,比如商企logo、二维码、电视台台标、水印、协会徽标等。对这类标识的识别主要是能够满足平台的个性化需求,比如想判断用户发布的视频是否涉及竞对平台、是否是搬运涉嫌版权侵权,就需要识别画面中是否有logo、水印、台标等关键标识。

在一般画面中,除却人物、物品、标识之后剩余的部分便可视为场景。在某些技术路线的设计中采用目标检测和判定主体风险的思路,但画面背景实际也蕴含了相当丰富的参考信息,同样可以作为视觉识别结果的参考因素。

时尚街拍

例如户外、街景、卧室、卫生间等场景已经包含了主体行为的倾向,比如“街景”(场景)+“全身像”(体态)+“潮流”(着装)+“潮流品牌”(logo)的组合就表明图片很有可能是关于时尚街拍的内容,结合主体行为和背景信息往往能形成更加准确的综合判定结果。

对于出海企业,在建立视觉识别能力的过程中可以考虑采用将图片拆解为“人像”、“物品”、“符号标识”、“场景”四大部分的设计思路,从而获得较为完整的画面信息和识别结果。在每个分类中根据自身需要进行细分门类的扩展和下探,或根据出海地区文化禁忌和法律法规进行增减调整。

当然,想要获得更加完整的视觉信息,同样还需要OCR技术NLP技术的辅助,甚至要获取视频文件/视频流的音轨内容,才能够更加综合地判定风险的存在。

© 2022 爱讯头条 秀色女神 古诗集