SiamFC算法改进思路 | WorldHellooo's Blog

视频追踪问题中，目标通常是连续可微的。

SiamFC利用全卷积孪生网络结构对搜索域和样本图像进行相似度匹配，实现追踪目标。

本文分析了SiamFC在vot2015数据集上的追踪结果，总结出以下问题，并提出针对性的改进方案。

表现鲁棒

小范围晃动
运动模糊
短时局部遮挡

重点问题

光照变化

视频中白色猫由亮处转入阴影中，跟踪结果开始出现偏差。

Fernando

光照条件较差，而且目标的衣服为黑色，与背景相似。特征不够明显。

singer2

形变、尺度变换

本视频中镜头由远突然拉近，原本跟踪的是歌手的面部，却无法及时适应尺度的变化。

singer3

复杂背景

当首帧标定框内目标外的背景信息较复杂时，也易对追踪造成干扰。

本视频中，在首帧进行标定时，框内除恐龙模型外背景信息也较为复杂，而且颜色与目标相近。

dinosaur

本视频中，目标剧烈旋转运动，而且背景信息也非常复杂，对追踪干扰较大。

gymnastics

相似物

一般是背景中存在与目标颜色、外观相似的干扰物。

当一幅图中出现多个相似目标，搜索域中也可能会混入干扰目标。

sheep

目标与干扰物相交而过。

birds2

快速移动、大面积遮挡

当目标突然加速运动或被遮挡，逃离了模型的搜索区域。跟丢目标后，未能重新识别上。

小女孩突然加速，且此时相机对焦出现模糊，干扰了追踪结果。

girl

其他（网络结构）

对模型最后的responseMap进行分析：

左侧为响应图，右侧为对应scale的search image。图片名字中的数字代表第几帧。

responsemap1

responsemap2

responsemap3

responsemap4

responsemap5

responsemap6

responsemap7

responsemap8

responsemap9

可以看到不只小女孩会有响应，其他人出现的时候也会产生响应。但是背景却没有响应，说明卷积网络的objective能力很好，但是对于类内的物体区别能力很差。所以很容易被其他目标干扰。

怀疑可能是由于采用的网络为专门为分类任务设计的Alexnet，导致类内区分度不够。

王乃岩博士也在VALSE公众号的文章《Object Tracking新思路》中提到

个人觉得现在这两篇文章预训练的网络仍然来自VGG网络，但是前面提到了classification和verification是性质完全不同的两类问题，直接使用基于classification预训练的网络可能不是最优的。如果通过verification方法在大规模数据集上训练出的网络在SOT中会不会有更好的表现呢？我很期待看到这样的结果

也有可能是相似度度量方式的问题。

SiamFC采用cross correlation的方式卷积计算两个feature map的相似度。

白色物体似乎响应更强烈？？？

尝试改为余弦相似度。