Giter VIP home page Giter VIP logo

motpapers's People

Contributors

junnhan avatar

Watchers

 avatar  avatar

Forkers

jamriko

motpapers's Issues

Learning a Proposal Classifier for Multiple Object Tracking

Abstract

  本文提出了一个基于proposal的可学习框架,将多目标跟踪问题看作基于相似度图的候选生成、候选评分以及轨迹预测问题。在处理上类似于Faster R-CNN的两阶段**,先提候选,再根据候选生成最后的跟踪结果。在候选生成阶段,提出了迭代的图聚类方法,在保证生成候选质量的同时,减小了计算代价;候选评分环节利用图卷积网络GCN学习候选的structural patterns并根据估计的分数进行排序;轨迹预测阶段采用了deoverlapping策略得到在检测结果至多分配给一个轨迹的限制条件下的跟踪输出。
  实验部分在MOT17和MOT20开展,public模式,并采用了Tracktor的预处理方法对检测结果进行优化。

Chained-Tracker: Chaining Paired Attentive Regression Results for End-to-End Joint Multiple-Object Detection and Tracking

Abstract

目前多目标跟踪主要是由目标检测、特征提取以及数据关联三个环节组成,现有的方法多是三者独立或是取其中两者实现部分的端到端的网络。这篇文章首次(据作者称)实现了将这三个环节统一到一个端到端的网络中来。利用相邻的两帧组成链式结构,依据重叠度进行边框的回归,并在回归时考虑了类别与ID信息的特征(paired attentive regression),在不依赖额外数据集的情况下实现了private+online的SOTA性能。

Attention Is All You Need

Abstract

本文提出了一个新的网络结构--Transformer,仅依赖于注意力机制,避免了复杂的循环神经网络或是卷积神经网络。
在NLP领域中,在机器翻译任务上进行了验证实验,取得了良好表现。

Multiple Object Tracking with Correlation Learning

Abstract

  卷积神经网络在目标检测与外观特征提取方面可谓是不可或缺的部分,但是卷积操作自身的局部感知能力在一定程度上限制了时空长期依赖关系的获取。空间部分,利用局部相关(local correlation)模块来对目标与其周围环境的 拓扑关系进行建模,提升在拥挤场景下的可区分性。对每个空间位置内容都建立稠密的关系,并利用自监督学习来约束相关量。时间部分,提出了一个可学习的相关操作,基于不同层的特征图建立帧间的匹配关系,实现时间信息的对齐与传播。最后在MOT上小刷一波,直接76.5的MOTA,起飞。

Deformable DETR: Deformable Transformers for End-to-End Object Detection

Abstract

  本文针对DETR存在的问题进行分析改进,主要是考虑到1.训练时收敛速度慢,需要迭代的轮数多以及2.特征图的分辨率/空间尺寸的影响(尤其是对小目标检测性能的影响),提出了新的目标检测范式,注意力机制仅作用于目标周围的key sampling points的小集合,加快了收敛速度,并利用多尺度特征图提升了小目标检测的精度。

End-to-End Object Detection with Transformers

  • Abstract
    本文提出了新的目标检测框架DETR,将NLP中的Transformer结构引入,把目标检测问题看作是集合的预测问题,避免了一些需要人为先验信息的环节,如NMS操作以及anchor的生成策略等,将目标检测任务变成端到端的。框架的主要组成除了Transformer结构外,主要是set-based global loss(通过二分匹配获得单一的预测结果,从而避免NMS)。给定一组learned object queries,Transformer结构利用目标与全局图像信息间的关系直接输出预测目标结果,在检测方面取得了良好的表现,同时还可以拓展到其他CV相关的领域。

End-to-End Video Instance Segmentation with Transformers

Abstract

  本文基于Transformer提出了新的视频实例分割框架VisTR,将视频实力分割任务看成是直接端到端并行序列预测/解码问题。给定视频片段,直接输出每个实例的按顺序的mask序列。不同于现有方法,VisTR从同一角度出发处理实例分割与跟踪问题,利用相似度学习进行分析,实现了又快又准的视频实例分割

Track to Detect and Segment: An Online Multi-Object Tracker

Abstract

  针对目前大多数的多目标跟踪方法的检测与跟踪关联性较弱,在处理上相对独立的问题,本文提出了一个联合检测于跟踪的模型,利用跟踪的线索来端到端的辅助检测。通过cost volume来推测跟踪的offset,并用来聚合之前的特征来辅助提升检测与分割的性能。在MOTChallenge(2D)、nuScenes(3D)、MOTS以及Youtube-VIS(instance segmentation tracking)上进行了实验,实验充分,且也是工作量的体现。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.