ECCV 2022 | 形状,纹理,颜色在视觉识别中的「贡献」
[原视频]([ECCV 2022 | 形状,纹理,颜色在视觉识别中的「贡献」(15 分钟)_哔哩哔哩_bilibili](https://www.bilibili.com/video/BV1Y14y157fH/?spm_id_from=333.999.0.0&vd_source=0f810c01e1c257c43bb0938d6a035b83)) |
这篇译文拖了好久。。。。最近搞教育机器人校内预选赛每天卷到深夜,终于搞完了又迎来一堆事情,十二月前是没什么空闲时间写博客了
此文章为视频简记
————
聚焦于HVS(Human Vision System)
理解HVS的机制(mechanism),作用(function)和决策方式(decision pipeline)十分重要
HVS提供给我们世界统一的图像,有许多方面(facets)和特性,比如形状,深度,运动,纹理(textures)等等
以上哪种贡献最大?
人类(人脑)的偏好可能代表解视觉任务最有效的方法
卷积神经网络(Convolutional Neural Network,CNN)
局限性:没有自解释性, 后期处理检查,特定任务决策
形状,纹理或颜色,哪个对视觉识别贡献最大?
答案是task-dependent
神经学家发现:
1.灵长类(primates)有不同的神经通路来处理不同的视觉特征
2.形状属性是我们最初在静态物体识别的依赖项之一
3.场景识别在有颜色的图像中比在灰度图像中更快
4.我们大脑中有一块特殊区域用来分析纹理
目标:在一种纯粹的数据驱动学习方式下,找到一个普适的,可解释的方法来模拟HVS
HVE(Humanoid Vision Engine) to simulate HVS
HVS: 人类可以在意识到物体是什么之前将物体在一个复杂的场景中凭直觉定位
HVE:实体分割是一个开放世界的模型并可以无标签情况下将物体从图像中分割
HVS:自顶向下的注意力可以帮助定位感兴趣的物体
HVE:梯度图像(Grad-cam)可以帮助对决策作用最大的区域
HVS:人脑中分离的神经线路聚焦在特定属性
HVE:形状,纹理和色彩提取器
形状提取器:
目标是在舍去(eliminating)纹理和色彩信息时保持二维和三维形状信息
纹理提取器:
在舍去形状和色彩信息时同时保持局部和全局的纹理信息
- 裁剪图像并计算二维mask和图像块(patches)的重叠率
- 重叠率超过0.99的图像块被添加进图像块池
- 随机从图像块池选择四个图像块并将他们连接形成一个纹理图案 I
色彩提取器:
目标:舍去形状和纹理信息的同时保留色彩数据
方法一:相位拼凑(Phase scrambling)
- 用快速傅里叶变换(FFT)将图像转化至频域
- 信号的相位因此随机地被拼凑,由此摧毁形状信息并保留色彩数据
- 使用快速傅里叶逆变换(IFFT)来转移回图像空间
方法二:色彩直方图(color histograms)
人形神经网络
目标:训练三种用于嵌入他们对应敏感特征的特征编码器
假设前提:同一种类别的物体在形状,纹理和色彩是相对一致的,类别标签用作监督训练
实验发现/结论:特征编码器只在相对应的特征上占主导地位(predominate)
基于梯度的贡献归因
目标:总结形状,纹理和色彩在分类决策上的贡献
同上
HVE vs HVS: 人类实验
总结:
HVE人类主要使用一些特定的特征来支持特定种类的物体识别
有趣的是,在三种偏好的数据集中人类使用形状特征的表现的都不差
Open-world Zero-shot Learning with HVE
open-world:不需要人类预先定义每个种类的详细属性标签
human reasoning:给定一个未定义类别的图像,人类仍可以用他们已有知识描述它
HVE的跨特征想象
人类想象:当看见特征的某一方面时想象一个物体,尤其是在这个特征是原型(典型)