Deep Learning para detección y tracking de objetos en vídeo

La detección de objetos mediante visión por computador requiere enmarcar el conjunto de objetos de interés que aparecen en una imagen y clasificarlos en alguna de las categorías predefinidas. Por otra parte, el tracking de objetos trata de mantener la identidad de cada uno de ellos a lo largo de un vídeo. En este trabajo se aborda la realización de ambas tareas mediante redes convolucionales generadas de forma automática mediante técnicas de aprendizaje profundo. Concretamente nos centraremos en tres líneas: (i) la detección de objetos pequeños (menos de 16x16 píxeles) mediante la red STDnet [1]; (ii) el tracking de objetos mediante una red convolucional que opera en tiempo real y con múltiples objetos; y (iii) la monitorización de tráfico mediante un sistema integral de detección y tracking.

keywords: