肥仔教程网

SEO 优化与 Web 开发技术学习分享平台

拥挤环境中多个目标的像素级跟踪(造成拥挤的环境因素包括)

摘要

使用检测算法跟踪在拥挤的环境中跟踪多个目标已被彻底研究。尽管这些技术非常成功,但它们会丢失有关检测框中目标的大量详细信息,这在活动识别等许多应用中是非常可取的。为了解决这个问题,我们提出了一种跟踪超像素而不是多视图视频序列中的检测框的方法。

具体来说,我们首先从检测框中提取超像素,然后将它们关联到每个检测框中,通过多个视图和时间步长,导致超像素的组合分割、重建和跟踪。我们构建了一个流程图,并将视觉和几何线索整合到一个全局优化框架中,以最大限度地降低成本。因此,我们同时实现了视频中目标的分割、重建和跟踪。实验结果证实,所提出的方法优于最先进的跟踪技术,同时在分割方面取得了可比的结果。

介绍

在拥挤和不受约束的环境中跟踪多个目标在视频监控和安全系统中有许多应用。这是一个具有挑战性的问题,因为测量数据中的大量噪声、目标之间的遮挡以及目标与自身或其他物体的相互作用。目前,通过检测跟踪被认为是解决此问题的最成功解决方案。 然而,对于人类活动识别和分析等许多实际应用来说,对检测框的跟踪是不够的。

在这项工作中,我们提出了一种在多视图视频序列中跟踪分段目标而不是其相应检测框的方法。我们从所有图像的检测框中提取超像素,并将它们关联到不同的视图和时间步长。检测框中多个超像素的关联会导致分割。

此外,来自不同视图的多个分割的关联导致3D重建。最后,随着时间的推移,分割或重建的关联(即时间关联)导致跟踪视频序列中的分割目标。换句话说,我们解决了多视图视频序列中多个目标的分割、重建和跟踪问题。

与之前的工作相比,我们的目标是不仅为每个单独的检测分配一个唯一的目标ID,而且为整个多视图视频序列中的每个超像素分配一个唯一的目标ID。与其他一些方法一样,该问题首先被表述为最大先验问题,然后映射到约束流图中,这可以通过现成的二进制线性规划求解器有效地求解。

该工作考虑了跟踪中的重建,并受到解决视频分割和跟踪的工作的启发。我们的主要贡献是(1)多视图视频序列中未知数量目标的组合分割,重建和跟踪;(2)考虑多视图耦合和低级超像素信息的新约束流图。在标准、公开数据集上的实验结果表明,该方法在跟踪性能方面优于许多其他方法,同时实现了可比的分割性能。

相关工作

通过检测跟踪是许多研究人员深入研究的最成功的策略。 在这里,首先通过对所有图像应用目标检测算法来获得一组检测,然后馈送到数据关联算法中,以跟踪帧序列中的目标(即查找目标的身份),从而使目标的轨迹平滑。

主要挑战是数据关联问题,即在时间范围内可能关联的目标数量随着目标数量的增加呈指数级增长。为了解决这个问题,现代方法以不同的方式解决这个问题,例如图优化,其解决方案可以使用整数线性规划,网络流,连续或离散连续能量最小化和广义集团图。

为了使问题易于处理,一些研究人员应用了一些限制,例如将目标的状态简化为优化问题或刺痛测量。 但是,这些技术只能跟踪一组包含对象的边界框。显然,在许多应用中,对目标进行更精细的跟踪是非常可取的。

为了对对象进行更精细的跟踪,视频分割技术用于为帧序列中的像素分配语义标签,以便属于同一目标的像素应在整个视频序列中保留其标签。例如,使用视频分割进行行人跟踪。Fragkiadaki和Shi将多目标跟踪问题视为低级轨迹的聚类,以增强杂乱情况下的跟踪结果。Milan等人旨在通过将超像素跟踪转换为多标签优化问题来跟踪帧序列上的超像素。他们在图形模型中定义了几种类型的成本函数(即条件随机场(CRF))。优化解决方案导致目标的联合分割和跟踪。但是,他们的方法基于单一视图。

在这里,我们使用整数线性规划对多个相机观察到的多个目标进行联合分割、重建和跟踪。所提出的方法在每个视图中提取的超像素之间以及多个视图之间执行数据关联。在我们的方法中,我们的目标是在多视图设置中同时分割、重建和跟踪目标。

实验

数据,为了评估跟踪性能,我们在广泛使用的PETS 2010基准上测试了我们的算法,包括S2L1,S2L2,S2L3,S1L2。基准中的序列显示了可变的行人密度和动态行为。数据集中存在许多对象间和长期遮挡,这使得检测和多目标跟踪非常具有挑战性。此外,PETS 2010的帧速率仅为每秒7帧,这意味着在两个连续帧之间移动远处的物体,使得精确跟踪更具挑战性。

评估指标,匈牙利算法用于将跟踪输出分配给地面事实,对于跟踪精度和召回率,常用的 CLEAR MOT指标,包括多对象跟踪精度 (MOTA) 和多对象跟踪精度 (MOTP)。此外还提出的三个流行指标:大部分跟踪,大部分丢失,部分跟踪(PT),这些指标显示了算法对真值轨迹的时间覆盖。

设置,虽然我们的算法支持任意数量的观看次数,但我们报告的结果是为每个视频序列使用一到三个视图。我们还采用滑动窗口,这是处理任意长度视频序列的常用方法。在我们的实验中,我们使用50帧的滑动窗口,重叠9帧,整个序列的结果由匈牙利算法获得,匹配相邻窗口之间的轨迹。

结果和讨论

定性结果如图所示,可以看出,所提算法在MOTA(精度)和MOTP(精度)方面优于之前的所有方法。在大多数情况下,引入额外的相机可以提高整体跟踪性能。例如,在存在许多长期遮挡的 S2L3 数据集中使用两个相机,跟踪精度(MOTA)显著提高。但是,由于相机校准误差的累积以及不同相机的颜色误差,当使用相机的数量不断增加时,精度会下降。这种现象对拥挤的场景影响较大,导致作业错误。

定性细分评估结果总结在下表中,在多视图环境中组合视频分割、重建和跟踪是非常具有挑战性的。与其他只能在单个视图中分段的三个基线相比,我们获得了非常接近的性能,而我们的任务更加复杂:使用多个视图进行分段、跟踪和重建。

该算法在不同场景和不同视图数下的运行时间如下表所示。计算成本随着场景密度的增加而增加。可以看出,在简单场景S2L1和S1L2上,算法运行的时间比场景长度短。对于其他方案,具有2个视图的运行时接近方案长度。

结论

本文首次提出了一种新型算法,解决了多视角视频序列中多个目标的联合分割、重建和跟踪问题。与之前完成分割跟踪或重建跟踪的工作相比,我们使用全局优化框架同时完成这些任务,将问题转换为成本流图,其顶点是从目标检测框中提取的超级像素,其边缘表示可能关联的成本。我们利用二进制整数规划来找到从图的源到目标的最小轨迹。得到的最优超像素关联同时提供了目标的分割、重建和跟踪。

实验结果证实,我们的算法在跟踪方面优于其他算法,而分割结果与它们相当。未来的工作应该考虑一些其他的视觉线索,例如光流进入优化框架,通过引入超像素之间的新约束来改善分割结果。此外,我们目前从检测盒中提取超像素,这可以扩展到从整个图像中提取它们。

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言