【计算机视觉 | 目标检测】arxiv 计算机视觉关于分类和分割的学术速递(6月 22 日论文合集)

文章目录

  • 一、分类相关(4篇)
    • 1.1 Annotating Ambiguous Images: General Annotation Strategy for Image Classification with Real-World Biomedical Validation on Vertebral Fracture Diagnosis
    • 1.2 Benchmark data to study the influence of pre-training on explanation performance in MR image classification
    • 1.3 Generalizable Metric Network for Cross-domain Person Re-identification
    • 1.4 Pre-Pruning and Gradient-Dropping Improve Differentially Private Image Classification
  • 二、分割|语义相关(6篇)
    • 2.1 Joint Dense-Point Representation for Contour-Aware Graph Segmentation
    • 2.2 Online Unsupervised Video Object Segmentation via Contrastive Motion Clustering!
    • 2.3 Using super-resolution for enhancing visual perception and segmentation performance in veterinary cytology
    • 2.4 Few-Shot Rotation-Invariant Aerial Image Semantic Segmentation
    • 2.5 Lumbar spine segmentation in MR images: a dataset and a public benchmark
    • 2.6 DIAS: A Comprehensive Benchmark for DSA-sequence Intracranial Artery Segmentation

一、分类相关(4篇)

1.1 Annotating Ambiguous Images: General Annotation Strategy for Image Classification with Real-World Biomedical Validation on Vertebral Fracture Diagnosis

模糊图像标注:脊椎骨折诊断生物医学验证图像分类的通用标注策略

论文地址:

https://arxiv.org/abs/2306.12189


虽然存在许多方法来解决策展数据集内的分类问题,但由于数据的偏见或模糊性,这些解决方案在生物医学应用中往往不足。当从脊椎数据推断身高减少时,这些困难尤其明显,临床公认的Genant评分的关键组成部分。虽然半监督学习、建议使用和类混合等策略可能会提供一些解决方案,但清晰和优越的解决方案仍然难以捉摸。本文介绍了解决这些问题的一般策略的流程图。我们通过构建具有超过300,000个注释的脊椎骨折数据集来演示这种策略的应用。这项工作有利于过渡到临床有意义的分数的分类问题,并丰富了我们的理解椎体高度降低。

1.2 Benchmark data to study the influence of pre-training on explanation performance in MR image classification

用于研究预训练对磁共振图像分类解释性能影响的基准数据

论文地址:

https://arxiv.org/abs/2306.12150


卷积神经网络(CNN)经常并且成功地用于医学预测任务。它们通常与迁移学习结合使用,从而在任务的训练数据稀缺时提高性能。由此产生的模型非常复杂,通常无法提供对其预测机制的任何见解,从而激发了“可解释”人工智能(XAI)领域。然而,以往的研究很少定量评估XAI方法的“解释性能”对地面真实数据,迁移学习及其对解释性能的客观措施的影响尚未进行调查。在这里,我们提出了一个基准数据集,允许量化的解释性能在现实的磁共振成像(MRI)分类任务。我们采用这个基准来了解迁移学习对解释质量的影响。实验结果表明,流行的XAI方法应用于相同的底层模型的性能差异很大,即使只考虑正确分类的例子。我们进一步观察到,解释性能强烈依赖于用于预训练的任务和预训练的CNN层的数量。这些结果在纠正解释和分类性能之间的实质性相关性后成立。

1.3 Generalizable Metric Network for Cross-domain Person Re-identification

用于跨域人员再识别的泛化度量网络

论文地址:

https://arxiv.org/abs/2306.11991


人员重新识别 (Re-ID) 是公共安全的一项关键技术,并且在监督环境中取得了重大进展。 然而,由于看不见的测试域以及训练集和测试集之间的域转移,跨域(即域泛化)场景在 Re-ID 任务中提出了挑战。 为了应对这一挑战,大多数现有方法旨在为所有领域学习领域不变或稳健的特征。 在本文中,我们观察到样本对空间中训练集和测试集之间的数据分布差距小于样本实例空间中的数据分布差距。 基于这一观察,我们提出了一个通用度量网络(GMN)来进一步探索样本对空间中的样本相似性。 具体来说,我们在主网络之后添加一个度量网络(M-Net),并对其正负样本对特征进行训练,然后在测试阶段使用。 此外,我们引入了基于 Dropout 的扰动(DP)模块,通过丰富样本对多样性来增强度量网络的泛化能力。 此外,我们开发了配对身份中心(PIC)损失,通过确保具有相同配对身份的样本对特征一致来增强模型的辨别力。 我们通过在多个基准数据集上进行大量实验来验证我们提出的方法的有效性,并确认我们的 GMN 中每个模块的价值。

1.4 Pre-Pruning and Gradient-Dropping Improve Differentially Private Image Classification

预剪枝和梯度下降改进差异化私有图像分类

论文地址:

https://arxiv.org/abs/2306.11754


当应用差分隐私来训练深度神经网络时,可扩展性是一个重大挑战。 常用的 DP-SGD 算法难以保持高水平的隐私保护,同时在中等大小的模型上实现高精度。 为了应对这一挑战,我们利用了神经网络过度参数化这一事实,这使我们能够改进具有差异隐私的神经网络训练。 具体来说,我们引入了一种新的训练范式,它使用 \textit{pre-pruning} 和 \textit{gradient-dropping} 来减少参数空间并提高可扩展性。 该过程首先预修剪原始网络的参数以获得较小的模型,然后使用 DP-SGD 进行训练。 在训练过程中,不太重要的梯度会被丢弃,并且仅更新选定的梯度。 我们的训练范式引入了预剪枝率和梯度下降率、隐私损失和分类准确性之间的紧张关系。 过多的预剪枝和梯度下降会降低模型的容量并降低准确性,而训练较小的模型需要较少的隐私预算才能获得良好的准确性。 我们评估了这些因素之间的相互作用,并证明了我们的训练范式在几个基准图像分类数据集上从头开始训练和微调预训练网络的有效性。 这些工具还可以轻松地融入现有的培训范例中。

二、分割|语义相关(6篇)

2.1 Joint Dense-Point Representation for Contour-Aware Graph Segmentation

轮廓感知图分割的联合密点表示法

论文地址:

https://arxiv.org/abs/2306.12155

我们提出了一种新的方法,结合图形和密集的分割技术,共同学习点和像素轮廓表示,从而利用每种方法的好处。这解决了典型图分割方法中的缺陷,其中未对准的目标限制网络学习有区别的顶点和轮廓特征。我们的联合学习策略允许对丰富多样的语义特征进行编码,同时缓解基于密度的方法中常见的轮廓稳定性问题,其中像素级目标可能导致解剖学上难以置信的拓扑结构。此外,我们确定的情况下,正确的预测落在轮廓边界受到惩罚,并解决这个新的混合轮廓距离损失。我们的方法在几个胸部X射线数据集上进行了验证,证明了对各种密集和基于点的方法的分割稳定性和准确性的明显改善。我们的源代码可在以下网址免费获得:www.github.com/kitbransby/Joint_Graph_Segmentation

2.2 Online Unsupervised Video Object Segmentation via Contrastive Motion Clustering!

基于对比运动聚类的在线无监督视频对象分割

论文地址:

https://arxiv.org/abs/2306.12048


在线无监督视频对象分割(UVOS)使用先前帧作为其输入以自动地从流式视频分离主要对象,而不使用任何进一步的手动注释。一个主要的挑战是模型无法访问未来,必须完全依赖于历史,即,一旦捕获到当前帧,就从当前帧预测分割掩模。在这项工作中,提出了一种新的对比运动聚类算法的光流作为其输入的在线UVOS通过利用共同的命运的原则,视觉元素往往被视为一个群体,如果他们拥有相同的运动模式。我们建立了一个简单有效的自动编码器来迭代总结不可学习的原型基地的运动模式,而基地反过来帮助学习的嵌入式网络的表示。此外,一个基于边界先验的对比学习策略的发展,以提高前景和背景特征的歧视,在表示学习阶段。所提出的算法可以在任意尺度的数据上进行优化,帧、剪辑、数据集)并以在线方式执行。在 DAVIS 16 \textit{DAVIS}_{\textit{16}} DAVIS16 FBMS \textit{FBMS} FBMS SegTrackV 2 \textit{SegTrackV 2} SegTrackV 2数据集上的实验表明,我们的方法的准确性分别超过了以前的最先进的在线UVOS方法0.8%,2.9%和1.1%。此外,通过使用在线深度子空间聚类来处理运动分组,与SoTA在线UVOS方法相比,我们的方法能够以 3 × 3\times 3×更快的推理时间实现更高的准确性,并在有效性和效率之间进行了良好的权衡。

2.3 Using super-resolution for enhancing visual perception and segmentation performance in veterinary cytology

利用超分辨率增强兽医细胞学中的视觉感知和分割性能

论文地址:

https://arxiv.org/abs/2306.11848


本研究的主要目的是通过结合超分辨率(SR)架构来提高细胞学图像的语义分割质量。另一个贡献是开发了一个新的数据集,旨在提高成像质量的存在不准确的焦点。我们的实验结果表明,SR技术集成到分割流水线可以导致一个显着的改善高达25%的平均精度(mAP)分割度量。这些发现表明,利用SR架构对于推进细胞学图像分析的最新技术水平具有很大的希望。

2.4 Few-Shot Rotation-Invariant Aerial Image Semantic Segmentation

Few-Shot旋转不变航拍图像语义分割

论文地址:

https://arxiv.org/abs/2306.11734


Few-Shot航拍图像分割是一项具有挑战性的任务,涉及精确解析查询航拍图像中的对象,具有有限的注释支持。传统的匹配方法,而不考虑不同的对象取向可能无法激活具有不同取向的同类对象。此外,常规算法可能导致对得分较低的旋转语义对象的错误识别。为了应对这些挑战,作者提出了一种新的Few-Shot旋转不变的空中语义分割网络(FRINet)。FRINet匹配每个查询功能旋转自适应与方向变化,但类别一致的支持信息。来自不同方向的分割预测由相同的标签监督,并且主干在基本类别中进行预训练以提高分割性能。实验结果表明,FRINet达到国家的最先进的性能在Few-Shot的空中语义分割基准。

2.5 Lumbar spine segmentation in MR images: a dataset and a public benchmark

磁共振图像中的腰椎分割:一个数据集和一个公共基准

论文地址:

https://arxiv.org/abs/2306.12217


本文提出了一个大的公开可用的多中心腰椎磁共振成像(MRI)数据集与参考分段的椎骨,椎间盘(IVD),和椎管。该数据集包括来自218名有腰痛病史的患者的447个矢状位T1和T2 MRI系列。它是从四个不同的医院收集的,并被分为培训(179名患者)和验证(39名患者)集。通过在数据集的一小部分上训练分割算法来使用迭代数据注释方法,从而实现剩余图像的半自动分割。该算法提供了初始分割,随后对其进行审查、手动校正并添加到训练数据中。我们为这个基线算法和nnU-Net提供了参考性能值,它们的性能相当。我们设置了一个连续的分割挑战,以允许不同的分割算法的公平比较。本研究可促进脊柱分割领域更广泛的合作,并提高腰椎MRI的诊断价值。

2.6 DIAS: A Comprehensive Benchmark for DSA-sequence Intracranial Artery Segmentation

DIAS:DSA序列颅内动脉分割的综合基准

论文地址:

https://arxiv.org/abs/2306.12153


数字减影血管造影(DSA)序列中颅内动脉(IA)的自动分割是诊断IA相关疾病和指导神经介入手术的重要步骤。然而,缺乏公开的数据集阻碍了这一领域的研究。在本文中,我们发布了DIAS,IA分割数据集,由来自颅内介入治疗的120个DSA序列组成。除了像素级注释外,该数据集还为弱监督IA分割研究提供了两种类型的涂鸦注释。我们提出了一个全面的基准评估这个具有挑战性的数据集的性能,利用完全,弱,半监督学习方法。具体而言,我们提出了一种方法,将降维模块纳入2D/3D模型,以实现DSA序列中的血管分割。对于弱监督学习,我们提出了一个基于涂鸦学习的图像分割框架,SSCR,它包括涂鸦监督和一致性正则化。此外,我们引入了一个随机补丁为基础的自我训练框架,利用未标记的DSA序列,以提高分割性能。我们在DIAS数据集上的广泛实验证明了这些方法作为未来研究和临床应用的潜在基线的有效性。

本文链接:https://my.lmcjl.com/post/14784.html

展开阅读全文

4 评论

留下您的评论.