Hareket eden nesneleri tespit ve izleme süreci, bir başlangıç nesne seti alarak zaman içinde birkaç video karesi boyunca hareket ederken nesnelerin izlenmesini içerir. Çoklu nesne izlemede (MOT), bir nesne izleme gerçekleştirme süreci, tespit ve ilişkilendirmeleri kapsar. Nesne izlemenin genel amaçları, ilgili tüm nesneleri yerelleştirerek, tanımlayarak ve bunları video karelerinde izlemeye devam ederek kareler arasında tespit etmeyi ilişkilendirmektir. İyi bir MOT yaklaşımı, tek bir çerçevede birden fazla nesne bulmayı ve bu çerçeveden kimlik bilgilerini çıkarmayı amaçlar. Bir izleyici, karelerde tespit eksik olsa bile nesneleri takip ederek sahnelerdeki nesnelerin her biri için sürekli bir kimliğe sahip olmalıdır. Nesneler tıkandığı veya geçici olarak çerçevenin dışına çıktığı için MOT sorunları zordur. Bu çalışmada, Derin Siyam Ağı kullanılarak benzerlik temelli bir kişiyi yeniden tanımlama çerçevesi önerilmiştir. Çerçeve, tespit yaptıktan sonra kişinin yeniden tanımlanması için bir benzerlik dizisi kullanarak ve video dizisinin her karesi için nesne benzerliğini göz önüne alıyor. MOT16 ve MOT17 kıyaslamalarına dayalı deneysel sonuçlar, önerilen çerçevenin çeşitli izleme ölçümlerinde diğer metotlarla karşılaştırıldığında daha iyi performans gösterdiği gözlemlenmiştir.
The process of detecting and tracking moving objects involves tracking objects as they move across several video frames over time taking an initial set of object detection. In multiple objects tracking (MOT), the process to perform an object tracking two common steps include detection and associations. The general aims for object tracking are to associate detection across frames by localizing and identifying all objects of interest and keep tracking them across video frames. A good MOT approach aims to find multiple objects in an individual frame and extract the identity information from that frame. A tracker should have a continuous ID for each of the objects within the scenes by keeping track of objects even when the detection is missing in the frames. MOT problems are challenging since objects occluded or temporarily go out of frame. In this work, we propose a similarity-based person re-identification framework using the Deep Siamese Network. Our framework is using a similarity array for person re-identification after detection is executed and examines the object similarity for each frame of the video sequence. Experimental results based on the MOT16 and MOT17 benchmarks show that our proposed framework outperforms the state-of-the-art performance on several tracking metrics.