专访阅面科技童志军:FDDB、LFW双夺冠的人脸识别技术
本篇文章2819字,读完约7分钟
人工智能领域有许多竞争。近年来,随着该领域的不断升温,在学术界之外,许多科技初创企业已经开始参与各种竞赛来证明自己的技术实力。除了各种热门的机器人比赛之外,深度学习、机器视觉等领域的算法比赛也逐渐引起了人们的关注。作为机器视觉的一个重要应用领域,“人脸识别”无疑是不可或缺的。说到人脸识别,首先介绍两个老游戏:
fddb
fddb的全称是人脸检测数据集和基准,这是一个由麻省大学计算机系维护的开放数据库,为来自世界各地的研究人员提供一个标准的人脸检测和评估平台。它是世界上最权威的人脸检测和评估平台之一,包括2845张图片和5171张人脸作为测试集。
测试集的范围包括不同姿势、不同分辨率、旋转和遮挡的图片,以及灰度图像和彩色图像。标准面部标签区域是椭圆形的。值得注意的是,fddb发布的评估集也代表了世界上最高水平的人脸检测。
lfw
lfw的全称是“野外人脸”,由麻省大学于2007年建立,用于评估无约束条件下人脸识别算法的性能,是人脸识别领域应用最广泛的评估集。该数据集由13,000多张互联网自然场景中不同方位、表情和光照环境的世界名人的人脸照片组成,共有5,000多人,其中1,680人有2张或更多的人脸照片。每张人脸照片都有其唯一的名称id和序列号来区分它。
lfw测试的准确性代表了人脸识别算法在处理不同种族、光照、角度、遮挡等方面的综合能力。
这两项比赛使人脸检测和人脸识别真正从学术界走向了工业界,并达到了实用的精确度。到目前为止,这两项比赛已经吸引了许多来自国内外的技术团队,包括顶尖的行业和学术团队如谷歌、facebook和微软亚洲研究院,以及国内团队如百度、腾讯、尚唐和face++等。
5月20日,根据fddb发布的数据排名,来自中国的人工智能公司readsense在众多优秀竞争对手中获得了第一名。当时,雷feng.com(公开号:雷feng.com)也报道了此事。
6月底,lfw发布了最新的测试结果,人棉科技的人脸识别技术以99.82%的识别准确率获得第一名。
结果,这家初创公司成为历史上第一个同时赢得fddb和lfw的团队。为此,雷锋采访了仁绵科技的算法总监童志军,从技术角度了解了仁绵科技在这两次比赛中取得突破的技术细节。
Fddb的小尺寸突破根据fddb发布的官方人脸检测技术报告,指数曲线包括离散和连续两种,这两种指标在阅读技术上获得了第一名。关于这两个指标的现实意义,童志军说:
只要算法预测检测帧与官方组的交集大于0.5,人脸检测的离散指标就更注重评价算法的检测率。
连续指标不仅评价算法的检测率,而且对框架的拟合程序进行详细的比较,是一种细粒度的评价。
在实际使用中,更加注重离散指标,只要能检测到人脸,就能满足实际要求。这主要是因为人脸检测之后将进行人脸关键点定位,以实现细粒度的对齐。
△fddb正式发布人脸检测技术曲线
据雷锋说。基于fddb的Reading Face Technology提出的新检测算法突破了小尺寸、模糊和动态人脸检测的限制。
对于这个“小尺寸”,童志军向雷锋解释说。小尺寸主要用于分辨率低于10*10的模糊人脸检测,这在安全应用中非常常见。
为了解决小规模、模糊、动态的人脸检测问题,阅读技术团队自行收集特定场景的数据,并结合与客户合作积累的数据,形成数百万的基于实际场景的人脸数据,并利用这些数据训练基本模型,引入了高低层次特征结合、多尺度融合、负样本挖掘等策略。进入网络模型设计,重点解决小规模、模糊和动态人脸检测的难题,从而提高小规模模糊人脸的检测率。
lfw的高精度识别和难度不在fddb之内。阅读技术以99.82%的准确率赢得了lfw数据集的冠军。据雷锋说。lfw人脸识别的实际评估(1:1验证)包括3000个正对和3000个负对,6000对被分成10组。阅读技术的验证结果通过10次交叉验证正式获得。
△lfw测试结果
童志军表示,在阅读人脸时提交的人脸识别算法是基于改进的残差网络,而训练数据来自于内部收集的数千万张人脸数据。在训练过程中,同时加入识别和验证两个监控信号,以保证同一个人的类内距离较小,不同人的类间距离较大。由于人脸特征具有清晰的语义信息,用于人脸阅读的多模型融合版本最终达到98.82%的准确率。
听起来识别率似乎有所提高。实际上,在实际操作过程中遇到了一些问题。童志军给雷锋树立了一个榜样。com:
在两次比赛中,我们都使用了基于深度学习的算法,并通过“增加更多的数据和深化网络规模”得到了一个良好的“基线”。研究发现,进一步增加数据和网络层的数量并不能带来改善,算法性能达到了瓶颈。
后来,我们仔细分析了一些经过测试的“坏案例”,对网络进行了可视化,有针对性地调整了网络结构,最终达到了其他50层网络规模的300层网络的精度。
虽然精度已经达到上述高度,但在实际应用中仍有一些困难需要克服,如复杂光照下的人脸识别(过度曝光、暗光)和跨年龄的人脸识别。童志军告诉雷锋。人脸阅读团队主要解决了大多数复杂光照下人脸识别准确率低的问题,通过三维人脸模型和对抗网络的生成来合成特定光照下的人脸,增强了模型的鲁棒性。其他人也在一个接一个地努力解决这个问题。
人脸识别的优势深度学习人脸识别曾经有一句业界的俗语,深度神经网络“层越深,准确率越高”,但这种说法在人脸识别领域似乎并不是绝对的。对此,童志军认为:
在一般物体的检测和识别中,层数越深,准确率越高。然而,由于人脸与一般物体相比具有很强的先验知识,例如,人脸的面部特征一般是一致的,因此更好地挖掘这些有效信息往往可以事半功倍。
可以说,在人脸检测和识别中,不一定需要深层才能达到高精度。
据童志军介绍,与其他团队相比,阅读脸在深度学习算法方面的优势在于,阅读脸更倾向于嵌入式深度学习算法的研发,包括半监督数据清理和挖掘引擎、多机多卡云训练引擎、移动深度学习加速引擎等。这使得深度学习算法在移动端以低功耗和低成本实时动态运行。
关于技术登陆阅读技术成立于2015年。公司的核心R&D团队由来自阿里、百度和卡耐基梅隆大学的顶级人工智能R&D人员组成,专注于深度学习和嵌入式解决方案,致力于解决视觉识别问题。在这两次比赛中取得的成绩也是对自己技术的肯定。随着自主研发的人脸识别技术获得越来越多的国际权威认证,阅读技术也逐渐落地。
目前,阅读技术的核心技术已经广泛应用于消费电子、智能安全、智能商务等领域。
在技术登陆的过程中,仍然存在一些问题,如在实际场景中,复杂的背景、不可逆的物体变形等影响给算法的准确性带来挑战等。童志军说,他们的团队也在努力工作。解决这些“着陆问题”:
我们将有一个大规模数据培训的基本模型,它将针对不同的场景进行微调;此外,我们将建立一个数据返回机制,以不断加强基本模型的推广。
人脸阅读技术将在人脸检测和识别领域继续深化。随着时间的推移,我相信它能取得更大的成果。
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
标题:专访阅面科技童志军:FDDB、LFW双夺冠的人脸识别技术
地址:http://www.6st8.com/zbxw/6098.html
免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。