DENSE SMALL TARGET DETECTION ALGORITHM FOR FRESHWATER SNAILS BASED ON IMPROVED YOLOV8-OBB
-
摘要:
针对淡水螺分类加工场景中密集小目标检测存在的挑战, 文章提出了一种基于改进YOLOv8-OBB的淡水螺密集小目标检测算法。针对现有算法在复杂背景、目标个体小及类间特征差异小等场景下的性能不足, 文章通过两阶段创新策略优化模型: 首先, 基于SPDConv对P2层特征进行空间重构, 结合CSP与Omni-Kernel构建轻量级多尺度特征整合结构, 有效融合全局语义与局部细节信息, 提升密集小目标的特征表达能力; 其次, 提出改进的C2f-SREM模块, 通过Sobel边缘检测分支与四层卷积并行架构, 结合三重残差连接优化数据流传递, 强化模型对细微特征及边缘信息的捕捉能力。试验结果表明, 改进算法在自制淡水螺数据集上的mAP0.5达到80.6%, 较原YOLOv8n-OBB模型提升11.6%, 显著降低了漏检率与误检率。研究为淡水螺自动化分类加工提供了高效解决方案, 为密集小目标检测领域提供了新的技术参考, 推动水产品加工环节的智能化升级。
Abstract:In the integrated aquaculture system, a multi-species polyculture mode is commonly adopted, where freshwater economic species with ecological complementarity such as fish, crustaceans, and shellfish are co-cultivated in the same water body. To meet the differentiated demands for product specifications in the market, accurate sorting and processing according to biological species are required during the harvesting operation stage. This approach not only ensures the commercial value of various aquatic products and improves the efficiency at the sales end, but also optimize the management efficiency of the overall production and processing chain. In the classification and processing scenario of freshwater snail products, various snail species usually need to be accurately classified and graded for processing after fishing operations. The classification and detection of freshwater snail species are the basis for the automated processing of snail products, and it is of great significance in the industrialized cultivation, fishing, product processing, and classified sales of freshwater snails. Currently, machine vision technology based on deep learning is commonly applied to the classification and grading of agricultural products. However, in the classification operation link, the number of freshwater snails is usually huge, and as dense small targets, they are difficult to detect. Existing target detection algorithms still have deficiencies in perceiving dense small targets. Therefore, in response to the modernization needs of China's fishery industry, researching accurate and efficient detection methods for dense small target like freshwater snails is essential to promote automation in snail classification and processing. The development of automated aquaculture for freshwater snails is later than that of other aquatic organisms, with relatively few targeted automation and intelligence studies. Moreover, the algorithms described in relevant literature still have insufficient recognition effects for dense small targets of freshwater snails. In addition, different types of freshwater snails exhibit various shapes. When horizontal detection frames are used, a large amount of redundant information is included, leading to overlap significantly between frames. The use of Non-Maximum Suppression (NMS) may result in missed detections, which significantly impacts the model performance. This problem is particularly pronounced when freshwater snails are densely and overlappingly distributed, with subtle inter-class feature differences and complex backgrounds, their recognition performance is obviously insufficient. To effectively solve these problems, this paper innovatively proposes a dense small target detection algorithm for freshwater snails based on the improved YOLOv8-OBB algorithm. This algorithm processes the P2 feature layer through the introduction of SPDConv to obtain features rich in small target information, and fuses these features with the P3 layer. On this basis, the CSP and Omni-Kernel modules are combined for improved integration to obtain a new small target feature integration structure of COK, enhancing the network's perception ability for dense targets. The improved structure has increased the mAP0.5 index by 3.9%. Additionally,, an improved C2f-SREM module is proposed, incorporating parallel branches of SobelConv and additional convolution with a four-layer convolutional neural network and a triple residual connection architecture. This design greatly expands the global receptive field of the model and significantly enhances the context modeling ability, making the improved model more accurate in small target recognition. Compared with the original structure C2f, the improved module has increased the mAP0.5 index by 1.2%. From the perspective of the overall improved network model, the mAP0.5has increased by 11.6% compared to the original network, demonstrating obvious performance advantages. This research is of great significance for the development of the freshwater snail industry. In the industrialized cultivation of freshwater snails and the classification and grading processing of snail products after harvesting operations, the research results can provide reliable theoretical support, helping to promote the transformation and upgrading of the aquatic product processing industry such as freshwater snail classification and grading towards automation and intelligence, effectively improving industrial efficiency and increasing economic benefits.
-
在水产综合养殖系统中, 普遍采用多品种混养模式, 即在同一水体中协同培育具有生态互补性的鱼类、甲壳类及贝类等淡水经济物种[1]。为适应市场对产品规格的差异化需求, 在起捕作业阶段需按生物种类实施精准分选加工处理, 此举既能保障各类水产品的商品价值, 提高销售端效率, 又可优化整体生产加工链的管理效率。而在淡水螺产品分类加工场景下, 各种螺类捕捞作业后通常需要进行精准的分类、分级加工处理, 淡水螺品种分类检测是淡水螺产品自动化加工处理的基础[2], 其在淡水螺工厂化养殖、捕捞、产品加工、分类销售等环节均具有重要意义[3]。目前, 通常采用基于深度学习的机器视觉技术应用于农产品的分类分级工作, 但一般该分类作业环节淡水螺数量巨大, 其作为密集小目标检测难度大, 现有的目标检测算法在感知密集小目标方面仍存在不足。因此, 为了响应我国渔业现代化需求, 开展准确、高效的淡水螺密集小目标检测方法研究对推动淡水螺分类加工环节的自动化技术升级具有重要意义。
目前, 机器视觉技术在农业生产中具有广泛应用, 通过测量研究对象的视觉属性, 实现对研究对象的快速检测, 据此能研发出高效的种类识别、分级分选方法[4—6]。如冯怡然等[7]提出使用DenseNet代替特征提取模块, 用Soft-NMS代替原算法对合并策略进行优化的Faster-RCNN算法, 提高了4%的贝类识别精度, 但其实时检测速度需要进一步提高; 朱明等[8]提出以AlexNet模型和Fisher判别分析的淡水鱼种类识别方法, 对5种淡水鱼的识别准确率为98.0%, 但由于其目标单一、场景单一, 因此不适用于实际水产作业场景; 施亮等[9]提出建立CNN智能识别模型, 通过“迁移学习+数据增强”的方式优化训练策略, 该模型识别钉螺的精确率达到90.1%, 但通常水产养殖场的硬件设施并不支持迁移学习和数据增强的高算力要求; Fang等[10]提出了基于改进的YOLOv5s的钉螺检测算法YOLOv5s-ECA-vfnet, 在特征提取网络中引入ECA通道注意力机制, 引入三种锚框尺寸, 引入了新的变焦损失函数, 该算法的平均精密度提高了0.87%, 还有进一步提升的空间。
淡水螺的智能化检测技术发展面临双重瓶颈: 其一, 相较于鱼类贝类等常规水产物种, 其自动化养殖研究发展较晚, 公开文献中针对螺类特性的算法模型较少, 且现有方法在密集小目标场景下的平均检测精度效果不佳; 其二, 螺类壳体形态的不规则特性导致传统水平检测框较容易产生显著定位偏差, 水平检测框进行检测会包含大量的冗余信息, 相邻目标交并比IoU会大面积重合。这时, 由于非极大值抑制(Non-Maximum Suppression, NMS)的使用, 将产生较高的误检率, 严重影响产线等模型应用端的实际使用[11]。
为解决上述问题, 综合模型轻量化和性能考虑, 本文采用YOLOv8n-OBB模型作为基础模型, 提出了一种基于改进YOLOv8-OBB的淡水螺密集小目标检测算法, (1)通过SPDConv对P2层和P3层进行特征融合, 提升对淡水螺密集目标的感知能力, 基于CSP思想和Omni-Kernel进行改进得到CSP-OmniKernel模块进行特征整合, 得到具有能学习局部和全局语义信息的多尺度改进特征整合结构, 改善对密集淡水螺的特征提取能力。(2)为提升对密集淡水螺小目标的识别能力, 提出改进C2f-SREM模块, 在SobelConv和Conv branch的并行架构后添加四层卷积神经网络并引入三重残差连接, 丰富数据流在网络间的传递, 从而提升模块的整体数据表征能力, 有助于更好地捕捉输入数据的细微特征, 提升淡水螺密集小目标识别效果。
1. 材料与方法
1.1 建立数据集
本研究基于标准化生物样本采集规范, 构建淡水螺捕捞分拣场景的图像数据库, 以支撑智能化分拣模型的开发与验证。实验样本来源于广西壮族自治区水产科学研究院标准化养殖所培育的成年淡水螺群体, 涵盖钉螺(Oncomelania hupensis)、中华圆田螺(Cipangopaludina cathayensis)及环棱螺(Bellamya aeruginosa)三类典型淡水螺物种, 样本年龄控制在12-15个月发育成熟期。于65 cm×45 cm×50 cm的分拣容器中混合投放20—250只活体样本与空壳, 模拟自然密集分布状态。数据采集装置由搭载主摄像规格为5000万像素的索尼IMX766智能手机及三轴可调支架组成, 通过正俯视采集目标图像, 累计获取不同光照条件下共1084幅规格为4096×3072像素的JPG格式图片原始数据。随后, 根据随机抽样策略, 将数据集按8﹕1﹕1比例划分为训练集(867张)、验证集(108张)及测试集(109张)。最终, 通过服务器端部署的淡水螺品种分类检测模型, 驱动机械臂实现目标定位与多类别自动化分拣工作。
针对自建数据集规模有限导致的模型泛化能力不足的问题, 本研究通过融合多源数据增强的样本优化策略。在空间维度增强层面, 采用随机旋转、尺度自适应缩放及平移抖动等增强策略[12]; 在色彩空间扰动层面, 实施动态亮度、对比度、饱和度等颜色抖动策略[13]; 同时引入mosaic拼接增强[14]与mixup跨样本线性插值策略, 形成协同强化效应。经数据预处理后, 原始1084张样本量提升至5420张。数据标注流程采用RoLabelImg旋转目标标注软件, 突破传统水平框限制, 将钉螺、中华圆田螺、环棱螺三类不规则长宽比物体, 标签分别标注为“ding_luo”“tian_luo”“shi_luo”, 实现360°自由旋转矩形框精准标注, 同步导出YOLO格式与VOC格式的标签源数据, 以适配不同算法框架的需求。最终, 输出包含5420张标注实例的增强型数据集, 为本研究泛化性分类检测提供数据基础。
1.2 改进YOLOv8-OBB网络框架
You Only Look Once (YOLO)[15]算法作为经典的单阶段目标检测算法, 与二阶段的目标检测算法相比, YOLO系列算法可以在保证检测速度的同时具有较高的检测精度。其中, YOLOv8以其全新的SOTA模型, 进一步提升性能和灵活性。YOLOv8-OBB (YOLOv8-Oriented Bounding Box)则是YOLOv8的一个专门用于检测旋转目标的扩展版本, 与传统的矩形边界框不同, 定向边界框可以自由旋转, 能够克服水平检测框定位误差大的局限性, 更适合一些大量且密集的小目标物体以及具有较大长宽比的物体[16], 且其在嵌入式设备、边缘云等工业部署工作中具有良好的表现, 因此选择在其基础上进行改进。
基于SPDConv和Omni-Kernel的小目标特征整合结构 由于各类淡水螺个体较小且数量巨大, 故容易出现目标互相扎堆的密集现象。且随着数据流在网络中不断加深, 目标特征表现逐渐减弱, 容易出现造成密集小目标漏检现象。通常小目标检测领域研究中, 会采用在P2层加入一层尺度为160×160的小目标检测层, 但同时也会带来数据计算量过大、后处理更加耗时等问题[17]。因此, 为了防止计算复杂, 本文提出基于SPDConv和Omni-Kernel的轻量级多尺度特征整合结构, 使用P2特征层经过SPDConv得到富含小目标信息的特征给到P3层进行特征融合, 然后使用CSP思想和Omni-Kernel进行改进得到COK(CSP-OmniKernel)模块, 形成全新的目标特征整合结构, 能够有效改善密集目标的识别问题。
本文引入SPDConv以输入的特征图在空间维度上进行重新排列和整合, 旨在加强特征表达能力, 同时减少后续计算量。SPDConv由SPD模块与普通卷积构成, SPD层通过下采样操作重新排列特征图, 将空间信息转换为更高维度。非步长卷积层与传统的步长卷积不同, 它的卷积核在特征图上滑动时不会跳过像素, 而是以步长为1的方式进行滑动。这种处理方式确保在后续任务中能从原始特征图中提取重要的特征信息, 特别适用于密集小目标环境下的淡水螺目标检测[18]。本文使用P2层经过SPDConv得到了更加丰富的小目标语义信息, 较原有的卷积模块相比, 对于小目标检测精度更优。其结构如图 3所示。
为了改进网络的特征融合能力, 本文引入Omni-Kernel结构从而整合不同尺度之间的特征信息。Omni-Kernel[19]是由全局分支、大分支和局部分支三个分支组成的特征提取模块, 其核心思想在于通过结合深度可分离卷积、残差连接以及注意力机制操作, 来提升网络的表达能力。其给定输入特征$ X\in {R}^{C\times H\times W} $, 经过1×1卷积处理后, 特征被馈送到三个分支, 即局部分支、大分支和全局分支, 以增强多尺度表示。三个分支的结果然后通过加法融合, 并通过另一个1×1卷积调制。其中大分支应用一个K×K的深度可分离卷积以追求较大的感受野, 同时使用1×K和K×1的深度可分离卷积以并行方式来获取条带状的上下文信息; 全局分支采用双域通道注意力机制(DCAM)[20]和基于频率的空间注意力机制(FSAM)[21]来增强全局建模能力; 局部分支则采用1×1的深度可分离卷积做局部信号调制。而COK模块则是在Omni-Kernel的基础上通过设计分支网络和跨通道的卷积操作和特征融合, 实现对特征的分组处理, 从而更好地整合不同特征子空间中的信息。其结构如图 4所示, 相较原有结构, 其对密集小目标的感知效果更强。
改进C2f-SREM模块 由于淡水螺种类数据集特征关系复杂, 传统的卷积神经网络仅能建模局部像素依赖, 忽略了远距离像素关系, 且原有的C2f结构在提取边缘信息时表现不佳。受到SobelConv的边缘提取能力和分支网络架构启发, 本文对C2f模块进行改进, 提出基于SREM(Sobel ResNet Eifficient Module)模块的额外分支结构, 以此提供更加优秀的图像表征能力。
本文引入SobelConv作边缘检测算子, 提取图像中的边缘语义信息。它在卷积核的设计上引入了Sobel算子, Sobel算子是一种常用的边缘检测算子, 其本质为一组3×3的卷积核, 用于计算中心像素邻域的灰度加权差, 来得出图像亮度函数的梯度近似值, 从而分别用于检测水平方向和垂直方向的边缘[22]。其水平方向和垂直方向的卷积因子分别如下所示。
$$ \begin{array}{c}{G}_{x}=\left[\begin{array}{ccc}-1& 0& +1\\ -2& 0& +2\\ -1& 0& +1\end{array}\right]\end{array} \;\;$$ (1) $$ \begin{array}{c}{G}_{y}=\left[\begin{array}{ccc}+1& +2& +1\\ 0& 0& 0\\ -1& -2& -1\end{array}\right]\end{array} $$ (2) 除了边缘信息, 图像中的空间信息也同样重要。本文提出的C2f-SREM(C2f-Sobel ResNet Eifficient Module)模块通过一个额外的卷积分支(conv branch)来提取空间信息。与SobelConv分支不同, conv branch提取的是原始图像的特征, 可以保留丰富的空间细节。随后, 通过在SobelConv和conv branch的并行分支后添加四层卷积神经网络, 从而以加深网络深度的方式增强网络的特征提取能力; 其次, 在四层卷积神经网络中引入三重残差连接网络, 将前面层的输出直接加到当前层的输出上, 保证数据流充分地流经网络的同时, 能够有助于缓解梯度消失并且加速网络收敛。C2f_SREM模块的结构如图 5所示。在整体网络方面, 我们调整了网络的整体结构, 改变网络上采样环节所引入的输入层数, 以达到对本研究淡水螺种类数据集的最佳适配度, 其改进后的整体网络结构如图 5所示。
1.3 评估指标
本文采用精确率(Precision, P)、召回率(Recall, R)、各类别平均精密度(Mean Average Precision, mAP)作为评估模型性能的指标。mAP与精确率(Precision, P)、召回率(Recall, R)之间存在关联, 可以用公式(3)—公式(6)表示。
$$ R=\frac{TP}{TP+FN}\times 100{\text{%}} \;\;\;\;$$ (3) $$ P=\frac{TP}{TP+FP}\times 100{\text{%}}\;\;\;\;$$ (4) $$ AP=\underset{0}{\overset{1}{\int }}P\left(R\right)dR\times 100{\text{%}} \;$$ (5) $$ mAP=\frac{1}{C}\sum _{i=1}^{C}A{P}_{i}\times 100{\text{%}} $$ (6) 式中, $ TP $表示正确检测为某一类淡水螺的数量; $ FP $表示错误划分为某一类淡水螺的数量; $ FN $表示实际为某一类淡水螺但未被检测到的数量; $ TN $表示正确检测为非某一类淡水螺的数量。具体名称和含义如下表 1所示。
表 1 评价指标释义Table 1. Evaluation index interpretation指标名称Indicator 具体含义Meaning 精确率 模型识别正类中实际为正类的比例 召回率 模型识别正类中占实际正类样本的比例 mAP0.5 网络在IOU阈值为0.5条件下的精度值 2. 结果
2.1 试验平台与参数设置
本文的实验环境搭载的操作系统为Windows 11, 处理器规格为Intel (R) Core (TM) i5-13500HX, 显卡规格为NVIDIA GeForce RTX 4060 (8GB)。试验采用的深度学习框架为Pytorch-GPU 2.0.1, 开发环境为CUDA 11.8+Python 3.8。超参数的选择对于试验结果有重要影响, 适当的图像尺度(Input-shape)选择有助于平衡性能和效率; 每批次样本数量(Batch size)影响训练速度和模型稳定性; 工作线程数(Num-workers)决定了数据加载的并行度; 学习率(Learning rate)和优化器(Optimizer)影响模型的收敛性能; 训练轮(Epochs)数影响模型的收敛程度。本文详细的试验超参数如表 2所示。
表 2 深度学习的超参数配置Table 2. Parameter configuration of deep learning参数名称Parameter 具体配置Configuration 图像尺度 Input-shape 640×640 每批次样本数量 Batch-size 32 工作线程数 Num-workers 16 最小学习率 Mini learning rate 0.0001 最大学习率 Max learning rate 0.01 优化器种类 Optimizer SGD 训练轮数 Epochs 150 2.2 基于SPDConv和COK模块的特征整合结构性能分析
为了验证基于SPDConv和COK模块的特征整合结构有效性, 本文使用该特征整合结构分别嵌入YOLOv3[23]、YOLOv5[24]、YOLOv6、YOLOv8[25]上采样环节中的对应位置, 并在自制淡水螺种类数据集中使用水平框检测的方式来对模型进行验证。在本模块分析试验阶段, 训练轮数设为150轮。试验结果见表 3。
表 3 不同算法添加特征整合结构的对比结果Table 3. Comparison results of different algorithms for adding feature integration structures试验
Experiment模型
Model特征整
合结构
Feature
integration
structure精确率
Precisio
(%)召回率
Recall
(%)mAP0.5
Mean
Average
Precision
(0.5 %)1 YOLOv3-Tiny × 51.3 41.2 41.5 2 YOLOv3-Tiny √ 57.3 48.8 50.5 3 YOLOv5n × 61.8 66.1 65.7 4 YOLOv5n √ 70.3 66.5 71.4 5 YOLOv6n × 57 53.1 54.4 6 YOLOv6n √ 58.6 60.4 60 7 YOLOv8n × 62.9 69 68.7 8 YOLOv8n √ 70.2 69.6 72.6 对比表 3试验结果可以发现, 本文所提出的基于SPDConv和COK模块的特征整合结构具有较好的鲁棒性和普适性, 在加入基于SPDConv和COK模块的特征整合结构后的四种算法, 其mAP0.5普遍提升均在3.5%以上。由此上述试验结果可分析出, 基于SPDConv和COK模块的特征整合结构可以有效的增强网络模型特征提取的能力, 减少数据流传播过程中对于全局特征、大特征及局部特征的信息丢失问题, 增强网络对密集淡水螺的感知能力。
2.3 改进C2f-SREM的性能分析
为了验证以下两点: ①改进C2f-SREM模块的有效性和普适性; ②残差连接次数对模块整体性能的影响。本文首先使用C2f-SREM模块分别嵌入YOLOv3、YOLOv5、YOLOv6、YOLOv8网络的如图 5对应位置中。其次, 通过在C2f-SREM模块中变换不同数的残差连接次数, 来探究不同因素对模块性能的影响。在并在自制淡水螺种类数据集中使用水平框检测的方式来对模型进行验证。在本模块分析试验阶段, 训练轮数设为150轮。试验结果分别见表 4及表 5。
表 4 不同算法添加改进C2f-SREM模块的对比结果Table 4. Comparison results of different algorithms for adding feature integration structures试验
Experiment模型
Model改进C2f-
SREM模块
Improved
C2f-SREM
module精确率
Precision
(%)召回率
Recall
(%)mAP0.5
Mean
Average
Precision
0.5 (%)1 YOLOv3-Tiny × 51.3 41.2 41.5 2 YOLOv3-Tiny √ 55.9 47.1 47.7 3 YOLOv5n × 61.8 66.1 65.7 4 YOLOv5n √ 68.2 66.7 68.9 5 YOLOv6n × 57 53.1 54.4 6 YOLOv6n √ 61.7 64.9 64.7 7 YOLOv8n × 62.9 69 68.7 8 YOLOv8n √ 67.7 70.9 69.9 表 5 C2f-SREM模块添加不同残差连接层数的对比结果Table 5. Comparison results of different residual connection layers added to the C2f-SREM module试验
Experiment残差连接层数
Rresidual connection layers精确率
Precision (%)召回率
Recall (%)mAP0.5
Mean Average Precision 0.5 (%)1 0层 67.4 70.4 70.1 2 1层 67.8 70.9 70.2 3 2层 66.3 69.5 69.9 4 3层 69.4 76.3 71.6 5 4层 66.8 69.2 69.2 由表 4试验结果可以发现, 四种经典算法在嵌入了改进C2f-SREM模块后其精确率、召回率和mAP值均有较好的提升, 其中mAP在v3、v5、v6和v8中分别提升了6.2%、4.2%、10.3%和1.2%, 表明本文提出的改进C2f-SREM模块具有较好的泛化能力和普适性。由表 5试验结果可以发现, 当将C2f-SREM模块中的网络加入2层和4层残差连接时, 效果反而比原始模块要差, 而仅加入1层残差的效果却有所提升。此外, 当添加3层残差连接网络时, 模块内的数据流流经上下各层网络, 使得小目标的特征信息得到充分保留, 体现在数据上则具有最优表现, 较之原模块有1.5%的提升, 表明C2f-SREM模块使在处理小目标时更加敏感和精准, 防止了在加入多次卷积的过程中可能会导致部分小尺度信息的丢失, 降低精度。
2.4 整体网络消融试验与分析
为验证整体改进网络对原网络产生的影响, 故本文采用消融试验与基础YOLOv8n模型相比较。如表 6所示, 试验1为原YOLOv8n-OBB模型。试验2—7为三种改进方法进行排列组合, 其指标各有不同程度的变化。在最后一个试验8中, 将本文的三项改进措施全部添加到YOLOv8n-OBB模型中。通过引入全新的小目标特征整合结构和改进C2f-SREM模块, 增强小目标的特征提取能力的同时, 采用残差连接数据流传递, 缓解了经多次卷积所导致的细节信息丢失的问题, 使其精确率、召回率和mAP0.5分别提升至74.3%、80.3%和80.6%, 相较原模型分别提升了11.4%、11.3%和11.6%, 显著优于原始YOLOv8n-OBB模型。
表 6 整体改进网络模型消融试验Table 6. Improved model ablation experiment试验
Experiment调整上采样的引入输入层
Adjust the input layer for upsampling特征整合结构
Feature integration structureC2f-SREM Improved
C2f-SREM module精确率
Precision (%)召回率
Recall (%)mAP0.5 Mean
Average Precision
0.5 (%)1 × × × 62.9 69 68.7 2 √ × × 65.9 72 72.3 3 × √ × 70.2 69.6 72.6 4 × × √ 67.7 70.9 69.9 5 √ √ × 61.4 64.5 65.7 6 √ × √ 74.9 78.3 79.8 7 × √ √ 73.4 74.8 76.4 8 √ √ √ 74.3 80.3 80.6 2.5 不同算法的对比试验分析
为客观地反映本文改进YOLOv8-OBB网络的性能, 进一步验证改进算法的有效性和泛化性, 本文使将其与目前广泛使用的YOLOv7-tiny、YOLOv8n、YOLOv9n、YOLOv10n、YOLOv11n、Faster-RCNN、SSD和两种作用于相似密集小目标的改进算法, 共9种主流目标检测算法在相同数据集上进行对比试验。文献1[26]基于YOLOv11-AP2S模型, 针对水面膨化饲料密集小目标的检测挑战, 提出通过P2层增强小目标特征提取能力, 并结合细粒度分类的注意力机制AFGC与轻量级VoV-GSCSP模块, 优化特征融合效率与分类精度, 显著提升了对形态相似目标的区分能力。文献2[27]则基于MER-YOLO框架, 其采用MobileViT作为主干网络, 通过EMA高效多尺度注意力机制捕捉长程依赖关系, 并引入排斥损失Repulsion Loss抑制密集场景下的目标密集误检, 在行人高密度分布场景中实现了更高的检测性能。该对比试验在维持各项训练配置不变的情况下, 训练150轮, 其试验结果见表 7。
表 7 数据集在不同算法中的检测结果对比Table 7. Comparison of detection results of the dataset in different algorithms试验
Experiment模型
Model精确率
Precision (%)召回率
Recall (%)mAP0.5
Mean Average Precision 0.5 (%)1 YOLOv7-tiny 58.8 62.4 60.4 2 YOLOv8n 62.9 69 68.7 3 YOLOv10n 61.0 64.8 62.9 4 YOLOv11n 61.9 66.6 64.7 5 Faster-RCNN 59.8 53.6 56.8 6 SSD 58.1 51.7 53.0 7 文献1 62.3 68.6 67.9 8 文献2 62.2 68.0 66.3 9 Ours 74.3 80.3 80.6 表 7试验结果表明, 改进后的算法在mAP0.5上相比其他算法至少提升了11.9%以上, 最多高出SSD算法27.6%, 在淡水螺种类检测任务中取得了最佳的检测效果。即使相较于YOLO系列的算法YOLOv10和YOLOv11, 本文所述的改进YOLOv8-OBB算法在精确率、召回率和mAP0.5上也分别提升了13.3%、15.5%、17.7%和12.4%、13.7%、15.9%。相较于文献1所述的YOLOv11-AP2S模型, 本文模型分别提升了12%、11.7%和12.7%, 表明AFGC注意力机制与VoV-GSCSP模块的优化特征融合策略, 在应对表型复杂的检测对象时不如本文改进算法有效。而文献2所述的MER-YOLO, 本文模型分别提升了12.1%、12.3%和14.3%, 表明其采用的MobileViT主干网络与EMA注意力机制在复杂背景下的全局信息建模能力虽有一定优势, 但在密集小目标检测任务中, 本文提出的SPDConv与COK模块在局部特征提取与多尺度信息融合方面表现更为出色。
3. 讨论
3.1 可视化检测结果分析
为了验证本文中提出的改进模型在实际场景中的效果, 采用实地采集的数据验证集进行验证, 对比结果如图 8所示。从图 8b的识别结果中可知, 原模型能够识别图像中形态特征较完整的淡水螺种类, 但对于旋转目标钉螺和小目标石螺的识别适应性差, 存在遮挡漏检和误检情况。而从图 8c的识别结果可以发现, 全新模型通过小目标特征整合结构和改进C2f-SREM模块加强模型对上下文特征提取和小目标识别能力, 全新改进模型较原模型提升了类间感知能力, 增强了对于密集目标的感知与定位, 改善了钉螺漏检和环棱螺误检情况, 能够更加精准的识别图片中的淡水螺细微特征。其次, 原始YOLOv8算法对于淡水螺特征提取不足, 边界检测框识别并不精准, 在复杂背景下对堆积小螺的分类关注度不够, 并无法解决密集小目标识别难度大的难题。而改进模型增强了复杂背景下多尺度目标的定位能力与特征提取能力, 且对淡水螺边界的回归精度相比原算法有了较大程度的提高, 在一定程度上缓解了密集小目标的误检和漏检情况。
3.2 与现有方法的对比讨论
本研究针对淡水螺产品分类加工场景下的品种分类检测任务, 提出一种基于改进YOLOv8-OBB算法的淡水螺密集小目标检测算法。针对淡水螺表型特征复杂、分布密集的特点, 该算法通过SPDConv和COK模块构成具有能够学习从全局到局部语义信息的改进特征整合结构, 改善对密集淡水螺的特征提取能力。其次, 算法调整了上采样的输入层结构, 并且创新性地提出改进C2f-SREM模块, 通过四层并行卷积分支与三重残差连接架构, 建立跨层级特征补偿机制, 有效解决密集场景下淡水螺小目标地特征丢失问题。该算法具有改善密集场景下的淡水螺误检和漏检情况的优点。最后, 结合服务器模型部署下的分拣机械臂, 控制其依据模型检测结果实现对各类淡水螺的自动化分拣操作, 为淡水螺产品分类加工全产业链的智能化升级提供了有效的理论参考。同时, 在密集小目标检测领域, 研究人员为了提高其检测性能, 提出了许多创新方法。Li等[28]利用跨层注意力机制模块获取各层密集小目标的非局部关联, 但这些注意力机制忽略了不同卷积核对小目标识别的影响。宋晓茹等[29]使用加权双向特征金字塔BiFPN结构加强多尺度特征融合能力, 但其多尺度融合只是简单求和, 忽略了场景间的相关性, 对密集小目标检测改进有限。许迪等[30]引入基于残差思想和并行空洞卷积的DR-SPPF模块, 能够进一步扩大感受野且不损失图像分辨率, 但会丢失部分局部语义信息。相较于本研究而言, SPDConv模块通过空间金字塔深度可分离卷积操作, 在保留网络全局感知优势的同时, 采用多核尺寸动态权重分配策略, 有效捕获不同尺度卷积核对小目标边缘特征的差异化响应; 其次, COK模块结构与全向卷积核特性, 相较于BiFPN的线性特征叠加方式, 其通过非对称卷积核组合生成多向感受野, 显著增强密集目标的方位感知能力; 最后, C2f-SREM模块通过四分支并行卷积架构构建的残差补偿网络, 有效缓解了多尺度特征传递过程中的语义信息衰减问题, 使得整体改进模型在高密度场景下的检测效果依旧稳定。
4. 结论
在淡水螺产品分类加工领域, 传统目标检测算法在应对淡水螺密集小目标识别任务时, 检测性能难以满足需求。尤其是在淡水螺呈现密集分布、类间特征差异细微及背景复杂的情况下, 其识别性能明显不足。为有效解决这些问题, 本文创新性地提出一种基于改进YOLOv8-OBB算法的淡水螺密集小目标检测算法。该算法通过引入SPDConv处理P2特征层得到富含小目标信息的特征, 与P3层进行特征融合, 在此基础上, 结合CSP和Omni-Kernel模块进行改进融合得到基于SPDConv和COK模块的全新小目标特征整合结构, 增强网络对密集目标的感知能力。改进后的结构在mAP0.5指标上提升了3.9%。其次, 提出改进型C2f-SREM模块, 在SobelConv和额外卷积的并联分支中, 增设四层卷积神经网络与三重残差连接架构。这一设计大幅拓展了模型的全局感受野, 显著增强了上下文建模能力, 使改进模型在小目标识别上更加精准。与原结构C2f相比, 改进后的模块在mAP0.5指标上提升了1.2%。从整体改进网络模型来看, mAP0.5相较于原网络提升了11.6%, 展现出明显的性能优势。本研究对淡水螺产业发展具有重要意义。在淡水螺工厂化养殖及起捕作业后的螺产品分类、分级处理环节, 本研究成果能提供可靠的理论支撑, 助力推动淡水螺分类、分级等水产品加工行业朝着自动化和智能化方向转型升级, 有效提升产业效率, 增加经济效益。
尽管现有算法在检测精度上已取得突破性提升, 但在实际部署中仍面临实时性与硬件资源限制的双重挑战。为进一步提升实用性, 研究将沿两个方向深化: 一是优化YOLO网络架构, 通过精简冗余层与动态参数调整降低计算复杂度, 在保证精度的前提下实现推理速度的显著提升; 二是探索半监督学习机制, 充分利用未标注数据构建增量训练框架, 减少检测工作量的同时增强模型对复杂光照、遮挡场景的适应性。该技术路径旨在建立轻量化、高泛化的淡水螺自动化视觉检测及分拣系统, 为规模化智能产业链提供可靠的技术支撑。
-
表 1 评价指标释义
Table 1 Evaluation index interpretation
指标名称Indicator 具体含义Meaning 精确率 模型识别正类中实际为正类的比例 召回率 模型识别正类中占实际正类样本的比例 mAP0.5 网络在IOU阈值为0.5条件下的精度值 表 2 深度学习的超参数配置
Table 2 Parameter configuration of deep learning
参数名称Parameter 具体配置Configuration 图像尺度 Input-shape 640×640 每批次样本数量 Batch-size 32 工作线程数 Num-workers 16 最小学习率 Mini learning rate 0.0001 最大学习率 Max learning rate 0.01 优化器种类 Optimizer SGD 训练轮数 Epochs 150 表 3 不同算法添加特征整合结构的对比结果
Table 3 Comparison results of different algorithms for adding feature integration structures
试验
Experiment模型
Model特征整
合结构
Feature
integration
structure精确率
Precisio
(%)召回率
Recall
(%)mAP0.5
Mean
Average
Precision
(0.5 %)1 YOLOv3-Tiny × 51.3 41.2 41.5 2 YOLOv3-Tiny √ 57.3 48.8 50.5 3 YOLOv5n × 61.8 66.1 65.7 4 YOLOv5n √ 70.3 66.5 71.4 5 YOLOv6n × 57 53.1 54.4 6 YOLOv6n √ 58.6 60.4 60 7 YOLOv8n × 62.9 69 68.7 8 YOLOv8n √ 70.2 69.6 72.6 表 4 不同算法添加改进C2f-SREM模块的对比结果
Table 4 Comparison results of different algorithms for adding feature integration structures
试验
Experiment模型
Model改进C2f-
SREM模块
Improved
C2f-SREM
module精确率
Precision
(%)召回率
Recall
(%)mAP0.5
Mean
Average
Precision
0.5 (%)1 YOLOv3-Tiny × 51.3 41.2 41.5 2 YOLOv3-Tiny √ 55.9 47.1 47.7 3 YOLOv5n × 61.8 66.1 65.7 4 YOLOv5n √ 68.2 66.7 68.9 5 YOLOv6n × 57 53.1 54.4 6 YOLOv6n √ 61.7 64.9 64.7 7 YOLOv8n × 62.9 69 68.7 8 YOLOv8n √ 67.7 70.9 69.9 表 5 C2f-SREM模块添加不同残差连接层数的对比结果
Table 5 Comparison results of different residual connection layers added to the C2f-SREM module
试验
Experiment残差连接层数
Rresidual connection layers精确率
Precision (%)召回率
Recall (%)mAP0.5
Mean Average Precision 0.5 (%)1 0层 67.4 70.4 70.1 2 1层 67.8 70.9 70.2 3 2层 66.3 69.5 69.9 4 3层 69.4 76.3 71.6 5 4层 66.8 69.2 69.2 表 6 整体改进网络模型消融试验
Table 6 Improved model ablation experiment
试验
Experiment调整上采样的引入输入层
Adjust the input layer for upsampling特征整合结构
Feature integration structureC2f-SREM Improved
C2f-SREM module精确率
Precision (%)召回率
Recall (%)mAP0.5 Mean
Average Precision
0.5 (%)1 × × × 62.9 69 68.7 2 √ × × 65.9 72 72.3 3 × √ × 70.2 69.6 72.6 4 × × √ 67.7 70.9 69.9 5 √ √ × 61.4 64.5 65.7 6 √ × √ 74.9 78.3 79.8 7 × √ √ 73.4 74.8 76.4 8 √ √ √ 74.3 80.3 80.6 表 7 数据集在不同算法中的检测结果对比
Table 7 Comparison of detection results of the dataset in different algorithms
试验
Experiment模型
Model精确率
Precision (%)召回率
Recall (%)mAP0.5
Mean Average Precision 0.5 (%)1 YOLOv7-tiny 58.8 62.4 60.4 2 YOLOv8n 62.9 69 68.7 3 YOLOv10n 61.0 64.8 62.9 4 YOLOv11n 61.9 66.6 64.7 5 Faster-RCNN 59.8 53.6 56.8 6 SSD 58.1 51.7 53.0 7 文献1 62.3 68.6 67.9 8 文献2 62.2 68.0 66.3 9 Ours 74.3 80.3 80.6 -
[1] 李道亮, 刘畅. 人工智能在水产养殖中研究应用分析与未来展望 [J]. 智慧农业, 2020, 2(3): 1-20.] Li D L, Liu C. Recent advances and future outlook for artificial intelligence in aquaculture [J]. Smart Agriculture, 2020, 2(3): 1-20. [
[2] 李威锋, 宋烨佳, 文衍红, 等. 我国淡水螺产业现状调查 [J]. 养殖与饲料, 2020, 19(11): 131-138.] Li W F, Song Y J, Wen Y H, et al. Investigation on the current situation of the freshwater snail industry in China [J]. Animals Breeding and Feed, 2020, 19(11): 131-138. [
[3] 刘世晶, 李国栋, 刘晃, 等. 中国水产养殖装备发展现状 [J]. 水产学报, 2023, 47(11): 119615.] Liu S J, Li G D, Liu H, et al. Current development status of aquaculture equipment in China [J]. Journal of Fisheries of China, 2023, 47(11): 119615. [
[4] 段延娥, 李道亮, 李振波, 等. 基于计算机视觉的水产动物视觉特征测量研究综述 [J]. 农业工程学报, 2015, 31(15): 1-11.] Duan Y E, Li D L, Li Z B, et al. Review on visual characteristic measurement research of aquatic animals based on computer vision [J]. Transactions of the Chinese Society of Agricultural Engineering, 2015, 31(15): 1-11. [
[5] 靳学萌, 梁西银, 邓鹏飞. 基于改进YOLOv10的轻量级黄花菜分级检测模型 [J]. 智慧农业, 2024, 6(5): 108-118.] Jin X M, Liang X Y, Deng P F. Lightweight daylily grading and detection model based on improved YOLOv10 [J]. Smart Agriculture, 2024, 6(5): 108-118. [
[6] 陈科, 周勇, 薛明洋, 等. 基于机器视觉和改进YOLOv5s的鲫病害轻量级无损检测模型 [J]. 水生生物学报, 2024, 48(7): 1141-1148.] Chen K, Zhou Y, Xue M Y, et al. Lightweight nondestructive detection model of crucian carp disease based on machine vision and improved YOLOv5s [J]. Acta Hydrobiologica Sinica, 2024, 48(7): 1141-1148. [
[7] 冯怡然, 张馨丹, 陶学恒. 基于改进的Faster R-CNN贝类识别检测 [J]. 大连工业大学学报, 2022, 41(3): 208-213.] Feng Y R, Zhang X D, Tao X H. Recognition and detection of shellfish based on improved Faster R-CNN [J]. Journal of Dalian Polytechnic University, 2022, 41(3): 208-213. [
[8] 朱明, 李梦珂, 万鹏, 等. 基于鱼体特征点检测的淡水鱼种类识别 [J]. 农业工程学报, 2023, 39(11): 155-164.] Zhu M, Li M K, Wan P, et al. Identification of freshwater fish species based on fish feature point detection [J]. Transactions of the Chinese Society of Agricultural Engineering, 2023, 39(11): 155-164. [
[9] 施亮, 熊春蓉, 刘毛毛, 等. 基于深度学习技术的湖北钉螺视觉智能识别模型的建立 [J]. 中国血吸虫病防治杂志, 2021, 33(5): 445-451.] Shi L, Xiong C R, Liu M M, et al. Establishment of a deep learning-based visual model for intelligent recognition of Oncomelania hupensis [J]. Chinese Journal of Schistosomiasis Control, 2021, 33(5): 445-451. [
[10] Fang J, Meng J, Liu X, et al. Single-target detection of Oncomelania hupensis based on improved YOLOv5s [J]. Frontiers in Bioengineering and Biotechnology, 2022(10): 861079.
[11] 袁红春, 白宝来, 陶磊. 基于改进YOLOv5_OBB的中华绒螯蟹旋转目标检测 [J]. 福建农林大学学报(自然科学版), 2024, 53(2): 284-288.] Yuan H C, Bai B L, Tao L. Rotating target detection of Chinese Eriocheir sinernsis based on the improved YOLOv5_OBB [J]. Journal of Fujian Agriculture and Forestry University ( Natural Science Edition), 2024, 53(2): 284-288. [
[12] Cui J, Zhang X, Xiong F, et al. Pathological myopia image recognition strategy based on data augmentation and model fusion [J]. Journal of Healthcare Engineering, 2021(1): 5549779.
[13] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks [J]. Communications of the ACM, 2017, 60(6): 84-90. doi: 10.1145/3065386
[14] Singha S, Aydin B. Automated drone detection using YOLOv4 [J]. Drones, 2021, 5(3): 95. doi: 10.3390/drones5030095
[15] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 27-30, 2016. Las Vegas, NV, USA. IEEE, 2016: 779-788.
[16] 牛为华, 郭迅. 基于改进YOLOv8的船舰遥感图像旋转目标检测算法 [J]. 图学学报, 2024, 45(4): 726-735.] Niu W H, Guo X. Rotating target detection algorithm in ship remote sensing images based on YOLOv8 [J]. Journal of Graphics, 2024, 45(4): 726-735. [
[17] 李丽, 卢世博, 任浩, 等. 基于改进YOLOv5的复杂环境下桑树枝干识别定位方法 [J]. 农业机械学报, 2024, 55(2): 249-257.] Li L, Lu S B, Ren H, et al. Mulberry branch identification and location method based on improved YOLO v5 in complex environment [J]. Transactions ofthe Chinese Society for Agricultural Machinery, 2024, 55(2): 249-257. [
[18] 罗友璐, 潘勇浩, 夏顺兴, 等. 基于改进YOLOv8的苹果叶病害轻量化检测算法 [J]. 智慧农业, 2024, 6(5): 128-138.] Luo Y L, Pan Y H, Xia S X, et al. Lightweight apple leaf disease detection algorithm based on improved YOLOv8 [J]. Smart Agriculture, 2024, 6(5): 128-138. [
[19] Cui Y, Ren W, Knoll A. Omni-Kernel network for image restoration [J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2024, 38(2): 1426-1434. doi: 10.1609/aaai.v38i2.27907
[20] Fu J, Liu J, Tian H, et al. Dual attention network for scene segmentation [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 15-20, 2019. Long Beach, CA, USA. IEEE, 2019: 3141-3149.
[21] Zhou S , Pan Y, Spectrum attention mechanism for time series classification [C]// 2021 IEEE 10th Data Driven Control and Learning Systems Conference (DDCLS). May 14-16, 2021. Suzhou, China. IEEE, 2021: 339-34.
[22] 马常昊, 胡文惠, 钟海超, 等. 融合Sobel算子的SAR图像结构优化方法 [J]. 探测与控制学报, 2024, 46(2): 119-124.] Ma C H, Hu W H, Zhong H C, et al. SAR image structure optimization method using Sobel operator fusion [J]. Journal of Detection & Control, 2024, 46(2): 119-124. [
[23] Farhadi A, Redmon J. Yolov3: An incremental improvement [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Berlin/Heidelberg, Germany: Springer, 2018, 1804: 1-6.
[24] Zhu L, Geng X , Li Z, et al. Improving YOLOv5 with attention mechanism for detecting boulders from planetary Images [J]. Remote Sensing, 2021, 13(18): 3776.
[25] Hussain M. YOLO-v1 to YOLO-v8, the rise of YOLO and its complementary nature toward digital manufacturing and industrial defect detection [J]. Machines, 2023, 11(7): 677. doi: 10.3390/machines11070677
[26] 周秀珊, 文露婷, 介百飞, 等. 改进YOLOv11的水面膨化饲料颗粒图像实时检测算法 [J]. 智慧农业, 2024, 6(6): 155-167.] Zhou X S, Wen L T, Jie B F, et al. Real-time detection algorithm of expanded feed image on the water surface based on improved YOLOv11 [J]. Smart Agriculture, 2024, 6(6): 155-167. [
[27] 王泽宇, 徐慧英, 朱信忠, 等. 基于YOLOv8改进的密集行人检测算法: MER-YOLO [J]. 计算机工程与科学, 2024, 46(6): 1050-1062.] Wang Z Y, Xu H Y, Zzhu X Z, et al. An improved dense pedestrian detection algorithm based on YOLOv8: MER-YOLO [J]. Computer Engineering & Science, 2024, 46(6): 1050-1062. [
[28] Li Y, Huang Q, Pei X, et al. Cross-layer attention network for small object detection in remote sensing imagery [J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021(14): 2148-2161.
[29] 宋晓茹, 刘康, 高嵩, 等. 复杂战场环境下改进YOLOv5军事目标识别算法研究 [J]. 兵工学报, 2024, 45(3): 934-947.] Song X R, Liu K, Gao S, et al. Research on improved YOLOv5-based military target recognition algorithm used in complex battlefield environment [J]. Acta Armamentarii, 2024, 45(3): 934-947. [
[30] 许迪, 张淑卿, 葛超. 面向复杂环境的YOLOv8安全装备检测 [J]. 电子测量技术, 2024, 47(7): 121-129.] Xu D, Zhang S Q, Ge C. YOLOv8security equipment inspection for complex environment [J]. Electronic Measurement Technology, 2024, 47(7): 121-129. [