目标检测图像数据集制作的心得总结 |
您所在的位置:网站首页 › 数据集标注注意事项 › 目标检测图像数据集制作的心得总结 |
如果只是为了验证目标检测算法的优劣,在公开的voc上做小验证实验即可;如果要采集某个领域的数据(医学图像,遥感图像),需要了解相关的领域知识,确定可能的数据源,需要的目标类别等。例如:DOTA数据集主要从Google Earth中采集图像,少量来自国产卫星,目标类别主要是遥感图像中常见的目标建筑物;CrowdHuman数据集在首先确定了主要类别为human之后,就直接从Google 图像搜索中按照目标类别关键词来进行搜索,再采用人力+半自动的方式来进行标注在确定了图像源和类别之后,可以先对某一类较明显的目标进行标注,然后单独训练一个针对该类别的检测器,再用常见单/双阶段检测器来训练和评估,保证该图像集合是可被CNN学习的标注过程:如果钱比较多,可以直接给标注公司提需求,他们会搞定;如果是为了做demo,比如检测行人是否戴口罩,就采用LabelMe之类的工具来标矩形框。一般标个100-500张图片,1k+的实例差不多就能用了。如果需要标注的类别是coco或者voc中已有的类别,可以用现有的针对coco等的检测模型直接检测目标图片集合,保留分数较高的,就可以自动得到质量较高的标注。标注需要注意多样性:在满足需求的前提下,即应该对不同背景,不同尺度,不同颜色和形状的同类目标进行标注,以保证鲁棒性。标注数据集的验证:如果你所标注的类别和voc数据集中有重叠,例如person类。那么可以利用voc上训练得到的person检测model在你的数据集上进行评估;再利用在你的数据集上训练得到的person检测model在voc上进行评估。这样可以验证数据集的diversity和capacity。例如crowdhuman和object365都做了类似迁移验证。 制作数据集,要考虑到数据集的复杂度,要用一定的干扰 1.如果你不是做通用的物体检测的话,请确定你的场景。在这个场景下尽量保证采集到的图片变化多一些(你也不想过拟合对吧!)。假如检测的是行人的话,不要只是一个模特沿着固定路线走来走去,尽量追求自然,不同的行人,不同的穿着。。。; 采集完图片,注意手动清洗,有些图片可能不包含你期望的目标物,你要将其删除。 2.如果你做的是通用目标物检测,可以从互联网上下载数据集,下载要随机,不能逮住一只羊薅羊毛,要博爱(试试不同的搜索引擎)。当然下完还得清洗,提出重复的,保证多样性。(这个工作量相对第一种情况会比较大) 你把这个事当做估计一种特定的概率密度函数,这个函数太复杂以至于很难用其他的简单函数来表征他。所以如何有效的估计概率密度函数就基本决定了你如何控制你的数据及采样过程。 1、标签一一对应,每个数据集的标签标号要一致不然会混淆(例如person:0;clothes:5;要保证训练集中的标签标号都是一致的)。 2、贴边规则 :标注框需紧贴目标物体的边缘进行画框标注,不可框小或框大。 3、目标被遮挡也要标注,小目标也要标注,人眼可分辨的都需要标注。 4、人眼难以分辨的不要标。 5、重叠规则:当两个目标物体有重叠的时候,只要不是遮挡超过一半的就可以框的(遮挡范围需要根据算法识别情况制定),允许两个框有重叠的部分。如果其中一个物体挡住另一个物体一部分,框的时候就需要对另一个物体的形状进行脑补完整然后框起来即可。 6、独立规则:每一个目标物体均需要单独标框,比如:图中有三瓶水不能只标一个框,而是要将三个目标分别标框。 7、不框规则:图像模糊不清的不框,太暗和曝光过度的不框,不符合项目特殊规则的不框。 8、边界检查:确保框坐标不在图像边界上,防止载入数据或者数据扩展过程出现越界报错。 9、小目标规则:不同的算法对小目标的检测效果不同,对于小目标只要人眼能分清,都应该标出来。根据算法的需求,去决定是否启用这些样本参与训练。 10、小于10X10或者20X20像素的目标不方便标记可以忽略。 11、对与边界模糊、连片处理,标为一个样本框。 12、对于模糊、遮挡、有拖影的样本 最好单独建立样本库,有选择的启用。 13、宽高比 极端不是好样本。 模型中的正样本和负样本看到有同学问:能不能举几个实际ignore的例子理解一下。 那举几个例子: 1. 如果你发现遮挡达到80%以上的vehicle或者模糊的vehicle,如果当正样本训练的话,loss收敛不了,那么就可以把这些原本是正样本的纳入ignore中,不参与训练。如果你确实不想把遮挡80%以上的vehicle召回出来,那么归入负样本。 2. 卡车上运载着的多层passenger car,不想把这种passenger car召回,那么可以把这些原本是负样本的纳入ignore,因为这些负样本显然和正常的passenger car的正样本特征存在一定矛盾。 3. 像bus这种,由于车身镜像的作用,就把旁边的vehicle照进来。 对于模糊、遮挡、有拖影的样本 最好单独建立样本库,有选择的启用 参考文献:想用自己的数据集做目标检测,在采集数据时应注意哪些问题? - 知乎 第4讲 深度学习的基础实现流程_哔哩哔哩_bilibili 自训练数据集打标签注意事项及使用工具推荐_阿珂要努力呀的博客-CSDN博客
|
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |