图 2.1.1-1 R-CNN 流程
1) 从输入的一张图片中选出2000个左右的 region proposals;
2) 对每个 region proposals, 使用CNN网络计算出其对应的特征;
3) 对于特征,使用 SVMs 进行分类;
4) 使用回归器精细修正候选框位置;
2.1.2 R-CNN 的模型设计
2.1.2.1 Region proposals
在 R-CNN 模型中,使用 Selective Search 方法从图片中提取候选区域。
Selective Search
在传统的方法中,使用的是exhaustive search (穷举搜索)方法,不断地改变滑动窗口的尺寸大小在原图片上滑动,这算法计算量很大。在 2012 年,J.R.R. Uijlings 等人开创了一种高效,快速的方法: selective search(选择性搜索)。
图片包含的信息很丰富,这使得我们可以从不同的角度来区分不同的图片,如物体的形状,尺寸,颜色和纹理等。图片中物体的信息是多样化的,而且物体在图片中的布局具有一定的层次关系,如前景后景的空间排列。