用于深度学习SAR图像舰船目标检测的数据集SSDD和SSDD+ 留言

随着计算能力的提升、可获取数据量的增加以及先进的算法的出现,人工智能技术迎来了它的又一次复兴。这次复兴主要以CNN在计算机视觉和RNN在自然语言处理领域的突破为特征。

目睹着CNN在计算机视觉各项任务(识别、检测、分割和超分辨等)取得的优良性能,包括作者在内的研究人员希望将这些算法用于SAR图像智能解译领域。此项研究的前提是要有用于训练和测试算法的数据集,这是目前所缺的,本文重点进行了介绍。

在以上计算机视觉任务中检测是最重要的,它起到承上启下的作用,是各项应用(人脸检测和识别、智能安防、智能医疗诊断和自动驾驶等)的关键技术,是最为活跃的研究领域。

作者近年来也重点对基于深度学习的SAR图像舰船目标检测技术进行了研究,本文重点介绍了用于训练和测试检测算法的数据集SSDD和SSDD+的构造过程及目标尺寸和长宽比分布情况,并对未来需要重点研究的内容进行了简单地总结。

SSDD

射频易商城

要想利用深度学习目标检测算法进行SAR图像舰船目标检测,必须有相应的数据集,但是目前本领域尚不存在此类数据集,因此建立了数据集SSDD[1]。SSDD是国内外公开的第一个专门用于SAR图像舰船目标检测的数据集,它可以用于训练和测试检测算法,使研究人员在同一个条件下对比算法性能。

它得到了三十几所高校和研究所的使用,需要数据的可以联系作者。对于每个舰船,检测算法预测舰船目标的边框,并给出是舰船目标的置信度。SSDD是借鉴PASCAL VOC数据集的制作过程来制作的,这是因为PASCAL VOC在目标检测领域应用较多,数据格式较规范,可以直接使用现有的算法在SSDD数据集上处理,对代码改动较小。

在数据集制作的过程中总结到,舰船检测数据集相比于识别数据集更容易制作,这是因为检测任务具有变换变性(识别任务具有变换不变性),即如果把同一个图像中的舰船目标进行移动或者尺度变化,就相当于新生成了一个训练样本。

同时检测数据集中只要有舰船即可,对舰船类别暂时没有要求。而识别的数据集需要收集各类舰船目标的大量的样本,难度较大。SSDD是通过在网上下载公开的SAR图像,并将目标区域裁剪成大小为500×500左右像素,并通过人工标注舰船目标位置而得的。

数据主要有RadarSat-2、TerraSAR-X和Sentinel-1传感器,HH、HV、VV和VH四种极化方式,分辨率为1m-15m,在大片海域和近岸地区都有舰船目标。表1是SSDD数据集中平均每幅图像舰船个数的统计信息。NoS是Number of Ships的缩写,NoI是Number of Images的缩写。

射频易商城

在数据集SSDD中,一共有1160个图像和2456个舰船,平均每个图像有2.12个舰船,数据集后续会继续扩充。相比于具有20类目标的PASCAL VOC数据集,SSDD虽然图片少,但是类别只有舰船这一种,因此它足以训练检测模型(实际打印训练和测试曲线发现并未过拟合)。

本文利用开源的“labelimg”软件制作标签(目前网上的标注精灵更好用),每个船的边框会被表示成(x, y, w, h)。这里(x, y)是矩形中心点的坐标,w是矩形的宽度,h是矩形的高度。

射频易商城

图1显示了SSDD数据集中舰船目标的多样性。图1(a)、(b)和(c)显示了简单背景(大片海域)下的小尺寸舰船目标,对于传统的以CFAR为主的检测算法能适应这类场景。图1(d)、(e)和(f)显示了复杂背景(靠岸区域)下的小尺寸舰船目标,这些目标背景复杂,传统方法要进行海陆分割才能进行检测,相比于基于深度学习的方法,会存在漏警和虚警的问题。图1(g)、(h)和(i)是靠近码头密集排列的大尺寸的舰船目标,此时传统检测方法难以检测到这些目标,而深度学习方法可以检测到它们。

射频易商城

深度学习目标检测算法是针对数据集PASCAL VOC和MS COCO等生活场景的图片而设计的,PASCAL VOC里的目标大概可以分为大中小三种目标,而SSDD中大部分都是极小或微小的目标。PASCAL VOC长宽比大部分为1,少部分是2和3,而舰船目标长宽比较大,这些都是将深度学习目标检测算法用于SAR图像中舰船目标检测所需要考虑的内容。

射频易商城

从图2和3可以看到,舰船目标长或者宽度所占图像尺寸的比例在0.04到0.24范围内,比PASCAL VOC的0.2到0.9要小很多。这为改进现有的深度学习目标检测算法提供了参考。

射频易商城

图4给出了SSDD数据集中舰船包围框长宽比统计结果图,从图中可以看到,相比于PASCAL VOC数据集中长宽比为0.5到2的范围,SSDD中长宽比的分布范围比较广,从0.4到3,在设计锚框(anchor box,也叫候选框或候选窗口,在Faster R-CNN论文首次提出,是指直接在最后一层的特征图上产生不同尺寸和长宽比的候选窗口,将这些窗口看做潜在的目标区域)时要做好权衡。

SSDD+

射频易商城

通用目标检测算法用垂直的边框定位图像中的目标(例如人和车等)。一个垂直边框可以用(x, y, w, h)。而旋转边框最初用于场景文字检测[2],因为基于旋转边框的检测算法能够适应文字角度多变的情况。遥感中的目标也同样具有这类特性,因此旋转边框在遥感目标检测中也得到了很多应用[3]。

射频易商城

用旋转边框进行SAR图像中的舰船目标检测具有以下优势:第一,旋转边框可以完全分开舰船与背景像素。通常,垂直边框中的很多像素不属于船的像素,这对于区分背景和舰船区域十分不利,尤其是密集排列的交叠非常大的舰船目标,所以最好利用旋转边框来定位舰船目标。

第二,旋转边框的宽度和高度可以显示船的真实形状而垂直边框的长宽比和尺寸与船的真实形状不一致,如图5(b)所示。

第三,旋转边框可在完成检测任务的同时实现对目标的方位向估计(会存在180°模糊),不需要设计单独的舰船目标方向估计算法。

在垂直边框的基础上增加一个旋转角度来表达旋转边框,可以表示成,是从y轴正向到舰船长中轴方向的角度。

射频易商城

为了用旋转边框对舰船目标进行检测,对SSDD的标签进行了改进,对其在类别和位置基础上增加了旋转角度信息,将这个数据集称为SSDD+。本节统计了SSDD+数据集中旋转边框的角度和长宽比信息,图6是SSDD+数据集中舰船目标旋转边框角度统计结果,图7是SSDD+数据集中舰船目标旋转边框长宽比统计结果。根据统计结果可以有针对性的设计适合数据集SSDD+的锚框。

从图6可以看到,舰船大多数是在45度左右的倾斜方向,其它几个方向基本上呈现的是均匀的分布,即各种旋转角度都会存在。

射频易商城

图7是SSDD+数据集中旋转边框的长宽比分布情况,可以看到这与SSDD中垂直边框的分布情况稍微有些差别(SSDD中垂直边框的长宽与舰船目标真实长宽有差别,SSDD+中旋转边框的长宽与舰船目标真实长宽一致),SSDD+中的长宽比大都分布在1到4的范围,这为设计锚框提供了参考。

需要进一步研究的内容

射频易商城

深度学习在SAR图像智能解译领域具有很大的应用潜力,可研究的方向包括小尺寸目标检测、锚框设计、从头训练、采用斜框对目标检测和实时检测等。

小尺寸目标检测方法:通过对数据集中目标尺寸的统计分析可以看到相比于计算机视觉领域的数据集,SSDD中的目标尺寸很小,因此需要重点研究小尺寸目标的检测。不巧的是,小尺寸检测一直是比较困难的(MS COCO中大尺寸的准确率比小尺寸高两倍左右),因为它包含的信息少,不易提取的特征。

为了解决这样问题,出现了很多方法,包括特征融合,锚框(anchor)设计,多尺度数据训练等。由于低层位置信息丰富,类别信息不足,高层相反,对它们进行特征融合是常用的提高小尺寸目标检测效果的方法(例如DSSD 和FPN等)。近期比较好的论文[4]通过多次复制-粘贴小目标来对每个图像进行增强,在小目标的目标检测上提升明显。

锚框设计方面:一般要根据数据集SSDD的统计结果改变锚框的尺寸和长宽比,即减小锚框的尺寸,增大锚框的长宽比。最近的论文[5]是比较好的工作,它不像Faster-RCNN和SSD那样采用固定的锚框设置,而是根据目标具体情况动态生成生成各种锚框。甚至是论文[6],它摒弃了Anchor,使用关键点完成定位。

最近随着何恺明的论文[10]的出现,又让人对从头训练有了新的认知(部分结论与沈志强的DSOD有冲突,比如沈志强认为双阶段检测算法不能进行从头训练)。不过毫无疑问的是从头训练检测算法特别适用于SAR图像舰船目标检测,它可以灵活的设计检测算法骨干网络结构,缓解分类与检测任务之间的矛盾,减少参数冗余等等,这也是正在重点研究的内容。

采用斜框对目标检测可借鉴遥感图像目标检测(DOTA数据集[8])和场景文字检测(华中科技大学白翔[9])。随着CNN模型压缩、量化和剪枝技术以及AI芯片的发展,端上实时目标检测变得可行,目前国产的华为海思Hi3559A(99美元)和百度新出的EdgeBoard(6000人民币)具有较好的性价比。

总结

射频易商城

这里对用于SAR图像舰船目标检测的数据集SSDD和SSDD+进行了简单介绍。作者对所构建的数据集进行了免费开放,任何人都可申请获取该数据集,并与作者进行讨论,希望SAR图像目标检测领域也能像计算机视觉领域那样活跃和开放,希望通过这些工作能促进这领域的快速发展。

一个成功的案例是武汉大学夏桂松[10]老师建立的遥感图像目标检测数据集DOTA,经过近几年的努力,现在他们的成果已经成为CVPR等计算机视觉会议的常客,即实现了将遥感图像目标检测纳入开放和活跃的计算机视觉领域。期待着SAR图像目标检测也能有这么一天的到来,这项工作任重道远,需要同行共同努力。

参考文献

射频易商城

[1] Jianwei Li, Changwen Qu and Shujuan Peng. Ship detection in SAR images based on an improved Faster R-CNN[C]. 2017BIGSARDATA, Beijing.

[2] Jiang Y, Zhu X, Wang X, et al. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection. arXiv:1706.09579.

[3] Yang, X.; Sun, H.; Fu, K.; Yang, J.; Sun, X.; Yan, M.; Guo, Z. Automatic Ship Detection in Remote Sensing Images from Google Earth of Complex Scenes Based on Multiscale Rotation Dense Feature Pyramid Networks. Remote Sens. 2018, 10, 132.

[4] Kisantal, Mate & Wojna, Zbigniew & Murawski, Jakub & Naruniec, Jacek & Cho, Kyunghyun. (2019). Augmentation for small object detection.

[5] MetaAnchor: Learning to Detect Objects with Customized Anchors, https://arxiv.org/abs/1807.00980

[6] CornerNet: Detecting Objects as Paired Keypoints,https://arxiv.org/abs/1808.01244v1

[7] Rethinking ImageNet Pre-training https://arxiv.org/abs/1811.08883.

[8] DOTA: A Large-scale Dataset for Object Detection in Aerial Images。

[9] 白翔主页 http://cloud.eic.hust.edu.cn:8071/~xbai/

[10] 夏桂松主页 http://captain.whu.edu.cn/xia.html

原文始发于微信公众号(雷达通信电子战)

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

在线客服