2022 Ramajo Ballester Alvaro Reidentificacion de Vehiculos Mediante Tecnicas de Deep Learning

XLIII Jornadas de Automática Visión por computador
REIDENTIFICACIÓN DE VEHÍCULOS MEDIANTE TÉCNICAS DE

DEEP LEARNING
Álvaro Ramajo Ballester1

[email protected]
Jacobo González Cepeda1

[email protected]
José María Armingol Moreno1

[email protected]
Arturo de la Escalera Hueso1

[email protected]
1
Laboratorio de Sistemas Inteligentes, Universidad Carlos III de Madrid
Avda de la Universidad, 30, 28911, Leganés, Madrid
https://doi.org/10.17979/spudc.9788497498418.1031 1031
Resumen infraestructuras inteligentes en ciudades inteligentes,

entre otros. Estos dos últimos campos constituyen el
El nivel de precisión de las redes neuronales marco de este trabajo ya que las herramientas
profundas en tareas de percepción visual permite desarrolladas permiten tanto el procesamiento
captar información crucial del entorno para futuros automático de imágenes en tareas de videovigilancia
proyectos, como los vehículos autónomos y las como el análisis de escenas de tráfico en
ciudades inteligentes. Una de las posibilidades que infraestructuras inteligentes.
permitiría este tipo de sistemas es el control y
seguimiento de determinados vehículos sospechosos. En cuanto a esta primera tarea, el uso cada vez más
Teniendo en cuenta el uso de esta tecnología por parte extendido de las cámaras de seguridad es una de las
de la policía, se facilitaría el seguimiento de mejores herramientas disponibles en la actualidad para
determinados coches bajo investigación. Con esta prevenir y combatir la delincuencia. Sin embargo, el
visión, el objetivo de este trabajo es el estudio del aumento de la cantidad de datos disponibles conlleva
estado del arte actual de los métodos y el desarrollo un incremento lineal de las horas dedicadas a su
de un sistema que resuelva dos tareas de forma análisis. Esto ha sido así tradicionalmente hasta la
eficiente: la caracterización visual y reidentificación introducción de los sistemas de procesamiento
de vehículos y la segmentación de matrículas y automático de imágenes. Uno de los puntos de
reconocimiento de caracteres. Esta doble inflexión que aceleró la implantación de estos fue la
identificación puede adaptarse a las condiciones investigación del atentado terrorista de Londres en
ambientales, a la distancia del objetivo y a las 2017.
capacidades y resolución de las cámaras. Para
probar y validar este sistema, se ha creado un En cuanto a las aplicaciones de las ciudades
conjunto de datos personalizado para minimizar la inteligentes, el objetivo de la reidentificación de
diferencia entre el laboratorio y el entorno real. vehículos es identificar el mismo vehículo a través de
múltiples cámaras, que pueden obtener imágenes
Palabras clave: Reidentificación de vehículos, deep desde diferentes perspectivas del vehículo. A través de
learning, smart cities. una red de vigilancia ubicua, un sistema de
reidentificación puede obtener rápidamente la
ubicación y la hora del vehículo objetivo en el espacio
visual que cubren. De este modo, el vehículo puede ser
detectado, localizado y rastreado automáticamente a
1 INTRODUCCIÓN través de múltiples cámaras, lo que ahorra trabajo y
dinero. Además, estos sistemas tienen muchas
Actualmente, el campo de la visión por ordenador está posibles aplicaciones prácticas, como la asistencia al
experimentando un auge imparable tanto en términos aparcamiento, el seguimiento de vehículos
de desarrollo como de implementación de sistemas en sospechosos, la monitorización en directo o el
la vida real. Según el Global AI in Computer Vision seguimiento de vehículos con múltiples cámaras para
Market [26] el volumen de mercado de la IA en este la vigilancia urbana, lo que hace que este tipo de
campo se valoró en 7.040 millones de dólares en 2020 desarrollo sea crucial para la construcción de un
y se espera que alcance los 144.460 millones de sistema de transporte inteligente.
dólares en 2028. Este mercado está siendo impulsado
por la creciente necesidad de inspección de calidad y En este contexto, a pesar de los grandes desarrollos en
automatización, así como por la creciente demanda de el campo de la inteligencia artificial y la visión, existe
sistemas de visión por ordenador. una necesidad que aún no está totalmente cubierta.
Esta carencia se refiere a un sistema que permita la
Una de las razones de este incremento ha sido la caracterización y reidentificación (o búsqueda) de un
aparición de técnicas de aprendizaje profundo. Gracias vehículo que permita utilizar toda la información
a ello, y en concreto a las redes neuronales visual disponible. Para ello, se pretende procesar las
convolucionales [8] y a los mecanismos de atención imágenes tanto de las cámaras de tráfico de gran altura
[25], la precisión de estos sistemas de visión es (caracterización visual) como de las cámaras
órdenes de magnitud superior a la de los algoritmos adicionales más cercanas al tráfico rodado
clásicos. Junto a este mejor rendimiento, la velocidad (identificación de matrículas), de forma que el análisis
de respuesta de este tipo de visión artificial es se adapte tanto a la resolución como a la posición y
considerablemente más rápida, con el uso de unidades orientación de las cámaras. Este proyecto pretende
de procesamiento gráfico (GPU). Esto permite facilitar el trabajo de futuras investigaciones policiales
implementar nuevos sistemas, como la percepción e que requieran el análisis y seguimiento de sujetos en
interpretación del entorno en vehículos autónomos, el vehículos, ya que gracias a las cámaras ya instaladas
control de calidad en procesos industriales, la en carreteras y autopistas, es posible reconocer la
identificación de objetos y personas, el diagnóstico presencia de un vehículo de interés con gran precisión,
médico por imagen, la videovigilancia y las
1032 https://doi.org/10.17979/spudc.9788497498418.1031
lo que de otro modo requeriría la visualización manual

por parte de un agente.
2 ANTECEDENTES
La clasificación y detección de objetos con deep
learning es una tarea que ha evolucionado y mejorado
claramente en los últimos años. Gracias a estas
técnicas, se puede alcanzar un nivel de precisión
relativamente alto. Otra ventaja es su versatilidad, ya
que los modelos pueden adaptarse a diferentes tareas Figura 1. Ejemplo de imágenes en [9]
modificando ligeramente la estructura de la red y los
datos de entrenamiento. En el caso de la Del mismo modo, también hay trabajos en los que se
reidentificación de vehículos, debido a la naturaleza utilizan conjuntos de datos de gran variedad y cantidad
bimodal del sistema propuesto, se han examinado dos de imágenes, como Stanford-Cars [6], VeRi-776 [14]
aspectos a la hora de confirmar la identidad del y VeRi-Wild [15]. En la Figura 2 se muestra un
vehículo. El primero es el reconocimiento automático ejemplo de las imágenes recogidas en este último.
de matrículas (ALPR), mientras que el segundo modo
trata de extraer las características visuales del coche
completo y realizar una comparación de similitud
entre el objetivo y la imagen del vehículo procesada.
Dentro del ALPR, existen dos enfoques principales en

el estado del arte: los sistemas de reconocimiento
multietapa o los de una sola etapa. Los sistemas
multietapa realizan una extracción de la región de la
imagen donde se encuentra la matrícula para
segmentar los caracteres dentro de esa región y aplicar
un OCR (Optical Character Recognition) sobre ellos. Figura 2. Ejemplo de imágenes en [15]
Para esta primera tarea, existen métodos clásicos
basados en formas [29] y colores [5]. Una vez Para estos casos, se han presentado algunas soluciones
extraídas las regiones, los caracteres se segmentan que mejoran generalmente los resultados en la
mediante conectividad [17] o redes neuronales reidentificación de vehículos [4] como con objetos
convolucionales [7]. Por último, los caracteres se genéricos [3]. Además, este último también
reconocen mediante técnicas de emparejamiento [18] proporciona una toolbox donde se pueden encontrar
o redes probabilísticas [1], entre otras. En cambio, los los modelos preentrenados para su uso.
métodos de una sola etapa suelen basarse en técnicas
de aprendizaje profundo, como [11] y [27], utilizando
redes VGG16. Este tipo de métodos pueden ser más
3 ARQUITECTURA DEL MODELO
rápidos y eficientes, ya que existe una correlación
entre la detección y el reconocimiento, por lo que los
El sistema global se compone de cuatro modelos
modelos pueden compartir parámetros y reducir su
diferentes y se muestra en la Figura 3:
tamaño y tiempo de inferencia [21].
▪ YOLOv4 [2]: la imagen de entrada es procesada
por el primer modelo, un detector de objetos, que
En cuanto al segundo modo de reidentificación, es
proporciona los cuadros delimitadores de todos
necesario realizar una extracción mucho más fina y
los vehículos presentes en la imagen.
rigurosa de las características, ya que las diferencias
▪ WPOD-Net + OCR-Net [22]. Una vez extraídas
entre los distintos tipos de coches son mucho menores
las regiones de los vehículos, la primera rama
que entre los objetos comunes (diferentes colores,
paralela realiza el reconocimiento de las
formas, etc.). Hay ejemplos de caracterización e
matrículas. Si la confianza de la región de la
identificación de vehículos en [16] y [9] con buenos
matrícula está por encima del umbral, se aplica
resultados. Sin embargo, utilizan conjuntos de datos
el reconocimiento de caracteres con OCR-Net,
con imágenes muy similares en términos de posición
que produce la secuencia final de caracteres.
e iluminación de los vehículos, como se muestra en la
▪ FastReid [3]: la segunda rama paralela codifica
Figura 1. Esto sugiere que podría ser menos exportable
la región de la imagen del vehículo según sus
a un escenario real en el que haya que analizar los
características visuales en un vector de 4096
coches que vienen de todas las direcciones.
características. La similitud entre diferentes
YHKtFXORVVHPHGLUiHQODGLVWDQFLDHXFOtGHDHQWUH FRPRXQDYLVWDIURQWDO/D:32'1(7VHGHVDUUROOy
VXVFRUUHVSRQGLHQWHVYHFWRUHV DSDUWLUGHORVFRQRFLPLHQWRVGH<2/266' >@\
ODVUHGHVGHWUDQVIRUPDGDVHVSDFLDOHV671<2/2\
66'UHDOL]DQXQDUiSLGD GHWHFFLyQ\UHFRQRFLPLHQWR
GHP~OWLSOHVREMHWRVDODYH]SHURQRWLHQHQHQFXHQWD
ODV WUDQVIRUPDFLRQHV HVSDFLDOHV JHQHUDQGR VyOR
ERUGHV GHOLPLWDGRUHV UHFWDQJXODUHV SDUD FDGD
GHWHFFLyQ3RUHOFRQWUDULRORV671SXHGHQXWLOL]DUVH
SDUD GHWHFWDU UHJLRQHV QR UHFWDQJXODUHV SHUR QR
PDQHMDQP~OWLSOHVWUDQVIRUPDFLRQHVDOPLVPRWLHPSR
UHDOL]DQGRVyORXQD~QLFDWUDQVIRUPDFLyQHVSDFLDOHQ
WRGDODHQWUDGD

)LJXUD$UTXLWHFWXUDPXOWLUHGQHXURQDO (O SURFHVR GH GHWHFFLyQ PHGLDQWH :32'1(7 VH
PXHVWUD HQ OD )LJXUD ,QLFLDOPHQWH OD UHG HV
'(7(&&,Ï1'(9(+Ë&8/26 DOLPHQWDGD SRU OD VDOLGD UHGLPHQVLRQDGD GHO PyGXOR
GHGHWHFFLyQGHYHKtFXORV'HVSXpVGHSDVDUSRUODUHG
/DGHWHFFLyQGHODVUHJLRQHVGHLQWHUpV52,WLHQHXQD VHJHQHUDXQPDSDGHFDUDFWHUtVWLFDVGHFDQDOHVTXH
GREOH YHUWLHQWH HQ HVWH WUDEDMR (Q SULPHU OXJDU VH FRGLILFD ODV SUREDELOLGDGHV \ ORV SDUiPHWURV GH OD
WUDWDGHLQGLFDUORVIUDJPHQWRVUHFWDQJXODUHVGHQWURGH WUDQVIRUPDFLyQ DItQ $ FRQWLQXDFLyQ VH FUHD XQ
OD LPDJHQ TXH FRUUHVSRQGHQ D XQ YHKtFXOR \ HQ FXDGUDGR LPDJLQDULR GH WDPDxR ILMR DOUHGHGRU GHO
VHJXQGROXJDUGHEXVFDUHOUHFRUWHGHOYHKtFXORTXH FHQWUR GH XQD FHOGD P Q 6L OD SUREDELOLGDG GHO
FRUUHVSRQGHDVXPDWUtFXOD(QHVWHSULPHUFDVRVHKD REMHWR SDUD HVWD FHOGD HVWi SRU HQFLPD GH XQ
DERUGDGRFRQODUHG<2/2>@HQVXFXDUWDYHUVLyQ GHWHUPLQDGR XPEUDO GH GHWHFFLyQ DOJXQRV GH ORV
8QR GH ORV UHTXLVLWRV JHQHUDOHV GHO VLVWHPD HV OD SDUiPHWURV LQIHULGRV VH XWLOL]DQ SDUD FRQVWUXLU XQD
FDSDFLGDG GH VHU LPSOHPHQWDGR HQ WLHPSR UHDO &RQ PDWUL]DItQTXHWUDQVIRUPDHOFXDGUDGRILFWLFLRHQXQD
HVWD SUHPLVD VH KDFH SUiFWLFDPHQWH LPSUHVFLQGLEOH UHJLyQDOUHGHGRUGHODSODFD'HHVWHPRGRODUHJLyQ
UHGXFLUDOPi[LPRHOWLHPSRGHLQIHUHQFLDHQFDGDXQD SXHGHUHFRQYHUWLUVHIiFLOPHQWHHQXQREMHWRDOLQHDGR
GH ODV UHGHV WDQWR GH GHWHFFLyQ FRPR GH KRUL]RQWDO\YHUWLFDOPHQWH
UHFRQRFLPLHQWR(VWDHVODSULQFLSDOUD]yQSDUDHOHJLU
<2/2YIUHQWHDRWURVPRGHORVFRPR<2/2Y>@
(IILFLHQW'HW >@ $766 >@ $6)) >@ R
&HQWHU0DVN>@FRPRSXHGHYHUVHHQOD)LJXUD

)LJXUD'LDJUDPDGHRSHUDFLyQGH:32'1HW>@

/D)LJXUDPXHVWUDXQHMHPSORGHOSURFHVDPLHQWR
GHOUHFRUWHGHODUHJLyQGHODPDWUtFXOD

)LJXUD'HWHFFLyQ\UHFWLILFDFLyQGHODPDWUtFXOD

)LJXUD9HORFLGDGGHLQIHUHQFLD\DYHUDJH /DVHJPHQWDFLyQ\HOUHFRQRFLPLHQWRGHFDUDFWHUHVHQ
SUHFLVLyQHQORVPRGHORVGHGHWHFFLyQ OD UHJLyQ UHFWLILFDGD GH OD PDWUtFXOD )LJXUD VH
UHDOL]D PHGLDQWH 2&51HW >@ XQD UHG <2/2
5(&212&,0,(172'(0$75Ë&8/$ PRGLILFDGD >@ VLPLODU D OR FRPHQWDGR HQ OD
GHWHFFLyQ GHO FRQWRUQR GH OD SODFD SHUR FRQ
/DV PDWUtFXODV VXHOHQ VHU REMHWRV UHFWDQJXODUHV \ FDUDFWHUHV
SODQRV TXH VH FRORFDQ HQ ORV YHKtFXORV SDUD VX
LGHQWLILFDFLyQ 3DUD DSURYHFKDU VX IRUPD VH XWLOL]D
XQD UHG QHXURQDO FRQYROXFLRQDO OODPDGD :DUSHG
3ODQDU2EMHFW'HWHFWLRQ1HWZRUN:32'1HW>@
(O REMHWLYR HV TXH OD UHG SXHGD DSUHQGHU D GHWHFWDU .
. *
* 7
SODFDV FRQ GLIHUHQWHV SHUVSHFWLYDV LQILULHQGR ORV
FRHILFLHQWHV GH XQD WUDQVIRUPDGD DItQ TXH )LJXUD5HFRQRFLPLHQWRGHFDUDFWHUHV
UHFRPSRQHODLPDJHQHQXQDSHUVSHFWLYDUHFWDQJXODU
3.3 REIDENTIFICACIÓN VISUAL modo, la extracción de características se realiza

mediante varias rutas (las neuronas "encendidas") y
Una vez completada y validada la identificación del así el modelo se generaliza mejor. El learning rate se
vehículo con matrícula, se aborda el segundo modo de refiere a la velocidad de actualización de los pesos. Un
reidentificación. Esta reidentificación se realiza valor reducido permite añadir muchos más pesos, pero
calculando la distancia euclídea entre los 4096 a costa de un mayor tiempo de entrenamiento, por lo
vectores de características del modelo de que es aconsejable ajustarlo de forma óptima. Todas
reconocimiento visual. Cada una de las imágenes estas pruebas se muestran en la Figura 9.
procesadas tendrá su correspondiente vector de
características que se compara con el vector de
características del vehículo objetivo para calcular
dicha distancia.
4 RECONOCIMIENTO VISUAL:
ENTRENAMIENTO
Para abordar esta tarea, se ha probado una
comparación entre algunos modelos del estado del arte
y varios backbone entrenados. Para la reidentificación
de vehículos, la librería FastReid [3] ofrece
arquitecturas ya preentrenadas y optimizadas.
Con el objetivo de cumplir estos estándares, se han Figura 9. Efecto del dropout y el learning rate
llevado a cabo diferentes estrategias de entrenamiento
con la familia de redes neuronales EfficientNet [23]. En este gráfico se observan dos resultados notables. El
La característica distintiva de este tipo de arquitectura primero es que las redes con un dropout de 0,7
que permite mejorar su rendimiento es la precisa generalizan ligeramente mejor que las de 0,5. A pesar
escalabilidad de las dimensiones de la red. Como se de tardar algo más en las primeras epochs, la tendencia
muestra en la Figura 8, las redes convolucionales es a favor de las primeras, ya que con 0,5 se alcanza
estándar intentan mejorar su rendimiento aumentando un máximo significativamente menor. Por otro lado,
las dimensiones del mapa de características, es decir, la tasa de aprendizaje más adecuada es 1e^(-3), ya que
su anchura (b); otras intentan aumentar el número de maximiza la precisión más rápidamente. Con esto, y
capas intermedias haciendo una red más profunda (c) varias pruebas más que evitamos incluir para no
o con imágenes de mayor resolución (d). Este tipo de extender demasiado la demostración de
modelos se ha utilizado como backbone durante el entrenamiento, probamos el rendimiento de 3
proceso de entrenamiento con capas de max pooling y versiones de la red EfficientNet: B0, B3 y B7. La
convolucionales añadidas a su salida para el ajuste salida se ha configurado utilizando un pooling global
fino. máximo para cada uno de los filtros de salida y una
capa de clasificación densa con el dropout
previamente ajustado. Los resultados se muestran en
la Figura 10.
Figura 8. Escalabilidad de EfficientNet [23]
El entrenamiento inicial se ha realizado con el

conjunto de datos Stanford-Cars [6], que se utiliza con
frecuencia en el estado del arte actual, como se ha
comentado en la sección anterior. Se ha realizado un
primer entrenamiento de prueba con una versión
reducida (aproximadamente el 10% del conjunto de
datos), con el fin de ajustar el dropout y learning rate.
Este primer valor se refiere a la proporción de redes Figura 10. Comparativa de entrenamiento con
neuronales en determinadas capas que se "apagan" Stanford-Cars
aleatoriamente durante el entrenamiento. De este
Como se muestra, el rendimiento es muy similar en los 5.1 DATASET AUTOVÍA

tres casos, por lo que al ser los modelos más grandes
más pesados y lentos, tiene sentido adoptar el modelo Este primer conjunto de datos contiene imágenes
B0 como red de caracterización, ya que se busca un tomadas desde un poste de la autopista A-7 desde una
sistema que funcione en tiempo real, si es posible. posición elevada, oblicua y trasera. Este conjunto se
Además, se ha realizado otro entrenamiento con las caracteriza por una gran similitud entre tomas de la
mismas redes, pero en este caso con el conjunto de misma clase, con idéntica perspectiva, misma
datos VeRi-776 [14]. Para facilitar el proceso de iluminación y sin oclusiones. Sirve como punto de
entrenamiento, se han modificado ligeramente las partida en el proceso de evaluación, ya que es más
clases de salida, ya que la red programada está sencillo y se pueden esperar resultados más
concebida con el propósito de clasificación, para favorables. Incluye un total de 458 imágenes
posteriormente eliminar la última capa softmax y correspondientes a 200 modelos de vehículos. En la
codificar las imágenes con la salida de la penúltima Figura 12 se ofrece una muestra de estas.
capa. Por tanto, se han utilizado las mismas clases en
el entrenamiento que en la validación, a diferencia de
lo que se propone en el conjunto de datos original. Los
resultados se muestran en la Figura 11. Esta
modificación hace que los resultados sean
numéricamente más favorables, aunque la evaluación
comparativa se realizará en el siguiente apartado.
Figura 12. Muestra del dataset autovía
5.2 DATASET INTERSECCIÓN
Este segundo grupo de imágenes incluye escenas de

tráfico correspondientes a intersecciones en El Toyo,
Almería. Este conjunto de datos está dividido en 2
lugares de grabación diferentes (v1 y v2) con multitud
de perspectivas y oclusiones diferentes entre vehículos
y con la vegetación. Cada una de las escenas ha sido
capturada simultáneamente por dos cámaras (c1 y c2)
y representa el mayor grado de dificultad, ya que
Figura 11. Comparativa de entrenamiento con VeRi- representa el entorno normal de funcionamiento.
776 Además, al tener dos fuentes de entrada, permite
buscar vehículos anotados desde una cámara en la
Como puede verse, la precisión es similar entre los tres otra, con diferente perspectiva, que es el principal
modelos, por lo que se elige la opción EfficientNetB0 objetivo que se persigue en este trabajo. Agrupa un
por las mismas razones que en el caso anterior. El total de 1255 imágenes de 69 clases con criterios de
mismo procedimiento se ha probado con un nuevo anotación ligeramente diferentes. En la v1 se han
conjunto de datos etiquetados manualmente, y los incluido todas las apariciones de vehículos, incluso
resultados se mostrarán en la sección de resultados. con vistas muy lejanas y parciales, mientras que en la
v2 sólo se anotan los vehículos completos con un
tamaño mínimo reconocible (Figura 13).
5 ADQUISICIÓN DE DATOS DE
EVALUACIÓN
Para reducir al máximo la diferencia entre las
condiciones de evaluación de este sistema y el entorno
real de producción, se han creado una serie de
conjuntos de datos propios para evaluar el rendimiento Figura 13. Muestra del dataset intersección
del sistema de reidentificación visual. En total hay dos
tipos de datasets con características diferentes, en
función de la similitud, la perspectiva y la iluminación 6 RESULTADOS
de los vehículos, así como del número de cámaras de
entrada. Como conclusión de este trabajo, las siguientes tablas
muestran los resultados obtenidos en la fase de fine-
tuning del sistema completo. En primer lugar, la tabla Tabla 3. Métrica Rank@1 y Rank@10 en datasets
1 muestra la precisión de los dos modelos entrenados propios
(EfficientNetB0) frente a los modelos FastReid
preentrenados en los conjuntos de datos públicos. Esta Rank@1 Rank@10
evaluación corresponde a la precisión de una prueba Model
Intersec. Intersec. Intersec. Intersec.
v1 v2 v1 v2
de par positivo-negativo. Cada par positivo-negativo
EfficientNetB0
se ha creado con cada imagen del conjunto de (Stanford-Cars)
42.6 % 43.1 % 73.6 % 70.6 %
evaluación, una imagen de su clase (positiva) y una EfficientNetB0
61.2 % 60.1 % 84.3 % 87.1 %
imagen aleatoria del resto de clases (negativa). (VeRi-776)
FastReid
75.4 % 90.6 % 94.0 % 99.4 %
(VeRi-776)
De estos resultados se puede extraer que el modelo FastReid
FastReid preentrenado con VeRi-Wild, que es un 75.3 % 41.3 % 87.6 % 65.2 %
(VeRi-Wild)
conjunto de datos más grande y con menos
restricciones que VeRi-776, es un mejor candidato. En cuanto al reconocimiento de matrículas, la red
utilizada alcanza una precisión del 89,33%, lo que
Tabla 1. Precisión en datasets públicos permite predecir la matrícula de los vehículos con un
alto grado de exactitud. Estos valores se han extraído
Precisión
de [21] y se muestran en la tabla 4.
Stanford- VeRi-
Modelo VeRi-776
Cars Wild
EfficientNetB0
Tabla 4. Precisión en el reconocimiento de matrícula
83.5 % 62.5 % 72.7 %
(Stanford-Cars)
EfficientNetB0 OpenALPR SSIG AOLP
59.1 % 77.2 % 79.7 %
(VeRi-776) CD-
FastReid Model EU BR Test RP
60.6 % 96.8 % 90.8 % Hard
(VeRi-776) WPOD-Net+
FastReid 93.52 % 91.23 % 88.56 % 98.36 % 75.00 %
67.6 % 90.5 % 99.5 % OCR-Net
(VeRi-Wild)
Por otro lado, en lo que respecta a la velocidad de
Sin embargo, una vez realizada la evaluación con los inferencia, los modelos FastReid están muy
conjuntos de datos propios, mucho más cercanos al optimizados, consiguiendo un tiempo de inferencia
entorno de producción real, las métricas favorecen al hasta 10 veces menor (tabla 5), lo que es ideal en el
modelo FastReid preentrenado con VeRi-776, caso de la ejecución en tiempo real.
consiguiendo los mejores resultados, como se muestra
en la tabla 2. Tabla 5. Tiempo de inferencia en reidentificación
visual
Tabla 2. Precisión en datasets propios
Model Time (ms)
Precisión
EfficientNetB0 28.76
Intersec. Intersec. Intersec. Intersec.
Model Road
v1c1 v2c1 v11 v21 EfficientNetB3 33.79
EfficientNetB0
85.1 % 73.6 % 84.1 % 62.5 % 61.9 % EfficientNetB7 46.63
(Stanford-Cars)
EfficientNetB0
96.6 % 88.2 % 91.6 % 71.5 % 78.1 %
FastReid (VeRi-776) 4.04
(VeRi-776)
FastReid
FastReid (VeRi-Wild) 3.28
97.9 % 94.0 % 96.6 % 87.8 % 91.5 %
(VeRi-776)
FastReid Como se ha comentado en la sección introductoria, el
96.7 % 90.9 % 89.7 % 78.8 % 82.5 %
(VeRi-Wild)
1
Dataset con dos cámaras de entrada reconocimiento de la matrícula sólo es posible en
determinadas condiciones favorables. Sin embargo,
Además, se ha calculado la métrica rank@n. Estos siendo conscientes de que no todas las imágenes
valores se refieren a la presencia del modelo de pueden reunir tales características, el segundo sistema
búsqueda en las n posiciones más probables según las de reconocimiento visual ofrece más flexibilidad en
predicciones del modelo. Es decir, el rank@1 se cuanto a las restricciones de funcionamiento y su
refiere a la probabilidad de que el primer resultado del versatilidad proporciona un rendimiento notable en
modelo corresponda al vehículo buscado, mientras situaciones más adversas. Al basarse en la extracción
que el rank@10 indica la probabilidad de que el de las características visuales (forma y color) de todo
vehículo se encuentre en los 10 primeros resultados. el vehículo, es menos sensible a la distancia. Por lo
tanto, cuando el reconocimiento de la matrícula es
La tabla 3 muestra, una vez más, que el modelo posible, amplía el rango de reconocimiento válido, por
FastReid VeRi-776 alcanza los mejores valores para ejemplo, de 15 a 40 metros en la vista de la cámara de
la métrica. gran ángulo de cuatro carriles. También permite el
seguimiento del vehículo para los siguientes
fotogramas de un vídeo en función de la similitud con information from the environment for future projects,
los anteriores. Esto constituye un punto distintivo such as autonomous vehicles and smart cities. One
respecto a los enfoques clásicos, proporcionando una possibility that this type of system would allow is the
solución más robusta. control and tracking of certain suspicious vehicles.
Considering the use of this technology by police, it
would facilitate the tracking of certain cars under
7 CONCLUSIÓN investigation. With this vision, the objective of this
work is the study of the current state-of-the-art of the
Una vez validado, este sistema no sólo muestra un methods and the development of a system that solves
gran rendimiento en la identificación de vehículos two tasks efficiently: the visual characterization and
objetivo, sino que además ofrece una mayor re-identification of vehicles and the license plates
flexibilidad gracias a su módulo dual (visual y OCR), segmentation and character recognition. This dual
lo que le permite operar bajo diferentes características identification can adapt to the environmental
de entorno y resoluciones de cámara. conditions, target distance and cameras capabilities
and resolution. To test and validate this system, a
Una de las posibles líneas de investigación futuras custom dataset has been created to minimize the
derivadas de este trabajo es el desarrollo de este difference between lab and real environment.
sistema como una herramienta totalmente funcional
para su uso por parte de las Fuerzas de Seguridad del Keywords: Vehicle re-identification, deep learning,
Estado. Como se ha mencionado en el apartado inicial, smart cities.
la automatización de estos procesos de visionado de
cámaras liberará una gran cantidad de horas de los
agentes dedicados a esta tarea. Asimismo, permitirá
abarcar un número mucho mayor de fuentes de Referencias
entrada, en este caso imágenes, para ampliar la
búsqueda y asegurar una mayor probabilidad de éxito. [1] Anagnostopoulos, C.N.E., Anagnostopoulos,
I.E., Loumos, V., Kayafas, E. (2006) A
license plate-recognition algorithm for
Agradecimientos intelligent transportation system applications.
IEEE Transactions on Intelligent
Subvención PID2019-104793RB-C31 y PDC2021- transportation systems 7, pp. 377–392
121517-C31 financiados por MCIN/AEI/ [2] Bochkovskiy, A., Wang, C.-Y., Liao, H.-
10.13039/501100011033 y por la Unión Europea Y.M. (2020) Yolov4: Optimal speed and
"NextGenerationEU/PRTR" y la Comunidad de accuracy of object detection. arXiv preprint
Madrid a través de SEGVAUTO-4.0-CM arXiv:200410934
(P2018/EMT-4362). Nuevo paradigma para la gestión [3] He, L., Liao, X., Liu, W., Liu, X., Cheng, P.,
de los servicios de transporte de emergencia: Mei, T. (2020) FastReID: A Pytorch Toolbox
AMBULATE-CM. Este artículo forma parte del for General Instance Re-identification. arXiv
convenio entre la Comunidad de Madrid (Consejería preprint arXiv:200602631
de Educación, Universidades, Ciencia y Portavocía) y [4] Huynh, S. v (2021) A Strong Baseline for
la UC3M para la concesión directa de ayudas para la Vehicle Re-Identification. Proceedings of the
financiación de proyectos de investigación sobre la IEEE/CVF Conference on Computer Vision
enfermedad COVID-19 financiados con los recursos and Pattern Recognition pp. 4147–4154
REACT-UE del Fondo Europeo de Desarrollo [5] Jia, W., Zhang, H., He, X., Wu, Q. (2006)
Regional A Way for Europe. Gaussian weighted histogram intersection for
license plate classification. In: Proceedings -
International Conference on Pattern
English summary Recognition. pp 574–577
[6] Krause, J., Stark, M., Deng, J., Fei-Fei, L.
(2013) 3d object representations for fine-
VEHICLE RE-IDENTIFICATION IN grained categorization. In: Proceedings of the
ROAD ENVIRONMENTS USING DEEP IEEE international conference on computer
LEARNING TECHNIQUES vision workshops. pp 554–561
[7] Laroca, R., Zanlorensi, L.A., Gonçalves,
Abstract G.R., Todt, E., Schwartz, W.R., Menotti, D.
(2019) An efficient and layout-independent
automatic license plate recognition system
The level of precision of deep neural networks in based on the YOLO detector. arXiv preprint
visual perception tasks allows to capture crucial arXiv:190901754
[8] LeCun, Y., Haffner, P., Bottou, L., Bengio, IEEE conference on computer vision and
Y. (1999) Object recognition with gradient- pattern recognition pp. 7263–7271
based learning. In: Shape, contour and [20] Redmon, J., Farhadi, A. (2018) Yolov3: An
grouping in computer vision. Springer, pp incremental improvement. arXiv preprint
319–345 arXiv:180402767
[9] Lee, H.J., Ullah, I., Wan, W., Gao, Y., Fang, [21] Shashirangana, J., Padmasiri, H., Meedeniya,
Z. (2019) Real-time vehicle make and model D., Perera, C. (2020) Automated license plate
recognition with the residual SqueezeNet recognition: a survey on methods and
architecture. Sensors 19, pp. 982 techniques. IEEE Access 9, pp. 11203–11225
[10] Lee, Y., Park, J. (2020) Centermask: Real- [22] Silva, S.M., Jung, C.R. (2018) License plate
time anchor-free instance segmentation. In: detection and recognition in unconstrained
Proceedings of the IEEE/CVF conference on scenarios. In: Proceedings of the European
computer vision and pattern recognition. pp conference on computer vision (ECCV). pp
13906–13915 580–596
[11] Li, H., Wang, P., Shen, C. (2018) Toward [23] Tan, M., Le, Q. (2019) Efficientnet:
end-to-end car license plate detection and Rethinking model scaling for convolutional
recognition with deep neural networks. IEEE neural networks. In: International Conference
Transactions on Intelligent Transportation on Machine Learning. pp 6105–6114
Systems 20, pp. 1126–1136 [24] Tan, M., Pang, R., Le, Q. v (2020)
[12] Liu, S., Huang, D., Wang, Y. (2019) Efficientdet: Scalable and efficient object
Learning spatial fusion for single-shot object detection. In: Proceedings of the IEEE/CVF
detection. arXiv preprint arXiv:191109516 conference on computer vision and pattern
[13] Liu, W., Anguelov, D., Erhan, D., Szegedy, recognition. pp 10781–10790
C., Reed, S., Fu, C.-Y., Berg, A.C. (2016) [25] Vaswani, A., Shazeer, N., Parmar, N.,
Ssd: Single shot multibox detector. In: Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser,
European conference on computer vision. pp Ł., Polosukhin, I. (2017) Attention is all you
21–37 need. In: Advances in neural information
[14] Liu, X., Liu, W., Ma, H., Fu, H. (2016) processing systems. pp 5998–6008
Large-scale vehicle re-identification in urban [26] Verified Market Research (2021) AI in
surveillance videos. In: 2016 IEEE Computer Vision Market Size And Forecast.
International Conference on Multimedia and https://www.verifiedmarketresearch.com/pro
Expo (ICME). pp 1–6 duct/ai-in-computer-vision-market/
[15] Lou, Y., Bai, Y., Liu, J., Wang, S., Duan, L.- [27] Xu, Z., Yang, W., Meng, A., Lu, N., Huang,
Y. (2019) VERI-Wild: A Large Dataset and a H., Ying, C., Huang, L. (2018) Towards end-
New Method for Vehicle Re-Identification in to-end license plate detection and
the Wild. In: Proceedings of the IEEE recognition: A large dataset and baseline. In:
Conference on Computer Vision and Pattern Proceedings of the European conference on
Recognition. pp 3235–3243 computer vision (ECCV). pp 255–271
[16] Naseer, S., Shah, S., Aziz, S., Khan, M.U., [28] Zhang, S., Chi, C., Yao, Y., Lei, Z., Li, S.Z.
Iqtidar, K. (2020) Vehicle Make and Model (2020) Bridging the gap between anchor-
Recognition using Deep Transfer Learning based and anchor-free detection via adaptive
and Support Vector Machines. In: 2020 IEEE training sample selection. In: Proceedings of
23rd International Multitopic Conference the IEEE/CVF conference on computer
(INMIC). pp 1–6 vision and pattern recognition. pp 9759–9768
[17] Nukano, T., Fukumi, M., Khalid, M. (2004) [29] Zheng, D., Zhao, Y., Wang, J. (2005) An
Vehicle license plate character recognition by efficient method of license plate location.
neural networks. In: Proceedings of the Pattern Recognit Lett 26, pp. 2431–2438
International Symposium on Intelligent
Signal Processing and Communication
Systems (ISPACS). pp 771–775
[18] Rahman, C.A., Badawy, W., Radmanesh, A.
(2003) A real time vehicle’s license plate © 2022 by the authors.
recognition system. In: Proceedings of the Submitted for possible open
IEEE Conference on Advanced Video and access publication under
Signal Based Surveillance, 2003. pp 163–166 the terms and conditions of the Creative Commons
[19] Redmon, J., Farhadi, A. (2017) YOLO9000: Attribution CC-BY-NC-SA 4.0 license
better, faster, stronger. Proceedings of the (https://creativecommons.org/licenses/by-nc-
sa/4.0/deed.es).

2022 Ramajo Ballester Alvaro Reidentificacion de Vehiculos Mediante Tecnicas de Deep Learning

Cargado por

Copyright:

Formatos disponibles

2022 Ramajo Ballester Alvaro Reidentificacion de Vehiculos Mediante Tecnicas de Deep Learning

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

2022 Ramajo Ballester Alvaro Reidentificacion de Vehiculos Mediante Tecnicas de Deep Learning

Cargado por

Copyright:

Formatos disponibles

XLIII Jornadas de Automática Visión por computador

REIDENTIFICACIÓN DE VEHÍCULOS MEDIANTE TÉCNICAS DE

Álvaro Ramajo Ballester1

Jacobo González Cepeda1

José María Armingol Moreno1

Arturo de la Escalera Hueso1

Resumen infraestructuras inteligentes en ciudades inteligentes,

lo que de otro modo requeriría la visualización manual

Dentro del ALPR, existen dos enfoques principales en

3.3 REIDENTIFICACIÓN VISUAL modo, la extracción de características se realiza

Figura 8. Escalabilidad de EfficientNet [23]

El entrenamiento inicial se ha realizado con el

Como se muestra, el rendimiento es muy similar en los 5.1 DATASET AUTOVÍA

Figura 12. Muestra del dataset autovía

5.2 DATASET INTERSECCIÓN

Este segundo grupo de imágenes incluye escenas de

También podría gustarte