Caracterização Semântica de Espaços
Caracterização Semântica de Espaços
Caracterização Semântica de Espaços
TESIS DOCTORAL:
Dirigida por:
Dra. Belén Carro Martínez
Dr. Antonio Javier Sánchez Esguevillas
Dr. Javier Manuel Aguiar Pérez
“The touch of your hand says
you'll catch me whenever I fall”.
(Albert Einstein)
RESUMEN
En esta Tesis Doctoral, realizado dentro del proyecto europeo CELTIC HuSIMS
(Human Situation Monitoring System), se presenta una nueva metodología
inteligente para la caracterización de escenarios, aplicable a videovigilancia, capaz
de detectar e identificar, de forma automática, situaciones anómalas analizando el
movimiento de los objetos. El sistema está diseñado para reducir al mínimo el
procesamiento y la transmisión de vídeo, lo que permite el despliegue de un gran
número de cámaras (pequeñas y baratas) y sensores, y por lo tanto adecuada para
Smart Cities.
This Doctoral Dissertation, which has been carried out inside the European EUREKA-
CELTIC Project HuSIMS, presents a new methodology for intelligent scene
characterization to be applied in videosurveillance systems. It allows autonomous
detection and identification of anomalous situations by analyzing motion parameters
of the objects in the video signal only, and not the whole video signal itself. This
innovative approach operates over a much more reduced amount of information,
allowing great savings in memory, bandwidth and processing requirements, therefore
becoming especially suitable for deployments of dense videosurveillance systems,
with many small and cheap cameras which do not implement complex video
processing algorithms but only moving object identification and tracking. It is worth
mentioning that this kind of system is envisioned for integral videosurveillance of
smart cities, which will gain a lot of importance in the next few years.
The proposed system employs a three-stage architecture. The first one is the
detection of moving objects by the terminal sensor cameras, employing simple
algorithms, which allows transmission of a reduced set of parameters instead of a
heavy video signal while at the same time keeps under control the complexity of the
video analysis algorithms in the camera by not performing any difficult and resource-
greedy task like object identification. The second stage automatically learns and
builds a route model of the scenes under surveillance by accumulating and
processing the history of motion parameters received from the cameras. And the third
stage applies real time semantic reasoning over the route model and the motion
parameters in order to identify alarms at a conceptual level, that is, rich information
about the nature of the situation causing the alarm is provided automatically
together with the alarm itself.
ÍNDICE DE FIGURAS........................................................................................ 5
1
TESIS DOCTORAL
2
ÍNDICE DE CONTENIDOS
3
TESIS DOCTORAL
4
ÍNDICE DE FIGURAS
Figura 4.1. Algoritmo de “píxel caliente”: muestra los umbrales superior e inferior y
su comportamiento adaptativo como una función del perfil de intensidad de píxel
[121]. ............................................................................................................ 62
Figura 5.3. Cálculo del ángulo de las direcciones de las trayectorias. .................. 79
Figura 5.4. Ejemplo de detección de trayectorias y rutas en un video real. ........... 81
5
TESIS DOCTORAL
Figura 6.6. Relación entre los diferentes niveles del lenguaje OWL. ................... 105
Figura 6.20. Identificación de una ruta perteneciente a la clase Road. ............... 132
Figura 7.4. Implementación e integración del módulo de Detección de Rutas. .... 144
6
ÍNDICE DE FIGURAS
Figura 7.8. Interfaz gráfica del sistema: detección de alarmas. .......................... 149
Figura 7.25. Control de acceso: puerta abierta, acceso de una persona al recinto.
................................................................................................................... 170
7
TESIS DOCTORAL
8
ÍNDICE DE TABLAS
9
TESIS DOCTORAL
10
1
1 INTRODUCCIÓN
Los sistemas de vigilancia actuales no han ido evolucionando a la par que los
nuevos avances tecnológicos, basándose, en su mayoría, en la instalación de
dispositivos de alto coste que realizan grabación de imágenes y video. Esto hace
que, a pesar de ser un mercado en crecimiento, no se satisfagan las exigencias que
los consumidores demandan. La mayoría de ellos son circuitos cerrados de
televisión (CCTV) en los que el tratamiento de los datos captados se realiza por
personal de seguridad. Este planteamiento provoca rechazo social y que sea
necesario adaptar los sistemas para el cumplimiento de las leyes de protección de
datos y de privacidad para proteger los derechos de los ciudadanos.
Por otra parte, el precio de los aparatos de adquisición de imagen limita el alcance
de las zonas a cubrir (la vigilancia, incluso de una pequeña zona, requiere una
instalación de varias cámaras para monitorizarla desde distintos ángulos y evitar
zonas muertas, y por tanto un presupuesto elevado, no asumible en muchos casos
por los interesados). Además es necesario contratar personal humano que supervise
en tiempo real las escenas procedentes de las cámaras. Pero existe una limitación
en el número de cámaras a las que un operador humano es capaz de prestar
11
CAPÍTULO 1
1 Podemos considerar una ciudad como “inteligente” cuando las inversiones en capital humano y social, y en infraestructuras
de comunicación tradicionales (transporte) y modernas (ICT), fomentan un desarrollo económico sostenible y una elevada
calidad de vida, con una sabia gestión de los recursos naturales, a través de un gobierno participativo (A. Caragliu).
12
INTRODUCCIÓN
1.1 Motivación
Las principales motivaciones que han llevado al desarrollo de esta Tesis Doctoral
son las siguientes:
13
CAPÍTULO 1
14
INTRODUCCIÓN
15
CAPÍTULO 1
1.2 Objetivos
El principal objetivo de esta Tesis Doctoral es el estudio y aplicación de innovadoras
metodologías basadas en semántica, para la identificación de las diferentes
entidades y regiones de una escena basándose en el movimiento de los objetos que
aparecen en una imagen, determinando, además, comportamientos anómalos
dentro de diferentes dominios.
16
INTRODUCCIÓN
17
CAPÍTULO 1
18
INTRODUCCIÓN
19
CAPÍTULO 1
20
2
2 ANTECEDENTES
21
CAPÍTULO 2
22
ANTECEDENTES
ordenador para un uso efectivo de CCTV. Con ello pretende conseguir una
detección automática de incidentes, anotación de contenido basado en las
grabaciones de video, análisis de patrones de comportamiento de las
personas, etc.
23
CAPÍTULO 2
24
ANTECEDENTES
25
CAPÍTULO 2
Por su parte Gavrila et al. [16] presentan un sistema de visión multi-señal para la
detección en tiempo real y el seguimiento de los peatones desde un vehículo en
movimiento. El componente de detección implica una serie de módulos en cascada
donde cada uno utiliza criterios visuales complementarios para procesar las
escenas. La novedad del sistema es la estrecha integración de los módulos
consecutivos: generación de las regiones de interés utilizando visión estéreo,
detección basada en la forma, la clasificación usando la textura y verificación
apoyada en estéreo. Por ejemplo, la detección fundamentada en la forma, activa
una combinación ponderada de los clasificadores basados en la textura, cada uno
sintonizado de forma particular. El rendimiento de módulos individuales y su
interacción se analiza por medio de la Característica Operativa del Receptor (ROC -
Receiver Operating Characteristic). Una técnica de optimización secuencial permite
la combinación sucesiva de las ROC individuales, proporcionando los parámetros
de ajuste del sistema optimizándolo de una manera sistemática.
Wojek et al. [17] proponen un modelo para realizar el seguimiento de objetos por
un observador móvil con una sola cámara. Para ello presenta un modelo de escena
3D probabilístico que abarca la detección de múltiples clases de objetos,
seguimiento, etiquetado de la escena, y relaciones geométricas en 3D. El modelo
3D es capaz de representar interacciones complejas como la oclusión entre objetos,
la exclusión física y el contexto geométrico. La inferencia permite recuperar el
contexto de la escena y realizar el seguimiento multi-objeto 3D de un observador
móvil, para objetos de varias categorías, utilizando un solo video.
26
ANTECEDENTES
27
CAPÍTULO 2
28
ANTECEDENTES
29
CAPÍTULO 2
La extracción del fondo: Esta técnica consiste en comparar píxel a píxel con
el fondo las imágenes que van apareciendo [36]. Como resultado se van
identificando regiones donde se encuentran los objetos en movimiento que
son lo que en un principio no aparecían. Para que esta metodología
funcione adecuadamente es necesario disponer de una buena imagen de
fondo con la que comparar y así evitar los problemas derivados de cambios
de iluminación, objetos extraños, etc. También se va actualizando la imagen
de fondo cada cierto tiempo para así adaptarla a las nuevas condiciones y
evitar falsas detecciones.
La utilización de flujo óptico: Esta técnica utiliza los vectores que definen el
movimiento relativo de los objetos con respecto al observador [39]. Son
técnicas muy complejas computacionalmente y requieren hardware especial
por lo que no se suelen utilizar en videos reales. Como ventaja, estos
mecanismos permiten detectar los objetos en movimiento incluso si la
imagen procede de una cámara móvil.
30
ANTECEDENTES
31
CAPÍTULO 2
32
ANTECEDENTES
Como ventajas, este método es más robusto que los anteriores ya que
conoce a priori los contornos de los objetos y se han obtenido buenos
resultados incluso en situaciones de oclusión. Como contraposición, estos
algoritmos requieren del diseño de modelos previos y tienen una carga
computacional alta.
Una región en movimiento puede ser un objeto u otro en función del escenario. En
el control de tráfico, por ejemplo, los objetos podrán ser vehículos, peatones,
bicicletas, un árbol, etc. En paralelo al seguimiento del objeto se realiza la
clasificación de los objetos. Para la identificación y etiquetado de los objetos se
utilizan principalmente dos mecanismos: el etiquetado basado en la forma de los
mismos y utilizando sus patrones de movimiento [7].
33
CAPÍTULO 2
34
ANTECEDENTES
35
CAPÍTULO 2
36
ANTECEDENTES
37
CAPÍTULO 2
Sin embargo, todos los casos anteriores implican una alta carga computacional, ya
que los algoritmos operan directamente sobre las imágenes. Esto significa que, o
bien todas las cámaras tienen que incluir procesadores de alto rendimiento o la
señal de video tiene que ser enviada al centro de control, donde se ejecutan los
algoritmos inteligentes. Para redes de vigilancia densas (que normalmente es el caso
de los entornos inteligentes), esto es muy ineficiente, ya que las cámaras inteligentes
son caras o se requiere un enorme ancho de banda para el envío del video.
38
ANTECEDENTES
Por una parte es imprescindible identificar el mismo objeto dentro de todas las
imágenes que visualizan la misma escena. Para ello existen distintos métodos [7].
Hay autores como Cai et al. [93] que utilizan la localización del objeto, la
intensidad o la geometría, otros como Krumm et al. [94] basan el reconocimiento
en el color o autores como Javed et al. [95] establecen relaciones espaciales entre
los FOV para determinar las correspondencias entre las imágenes.
Cuando se integran en los Smart Spaces, estas redes de sensores aportan a los
sistemas inteligentes la posibilidad de visualización y, combinado con su
inteligencia, permiten detectar e identificar las diferentes situaciones anormales que
puedan surgir. El máximo problema es que para cubrir áreas extensas se necesita el
despliegue de gran cantidad de cámaras, con lo que un operador humano no
puede analizarlas individualmente y requieren de algoritmos de procesado
39
CAPÍTULO 2
Además, en los últimos años están apareciendo nuevas propuestas que contemplan
como complemento a la información visual el procesado de los sonidos del entorno.
En el proyecto PRISMATICA (PRo-active Integrated Systems for Security Management
by Technological, Institutional and Communication Assistance, FP5; 2000-2005)
[97][98], por ejemplo, se utilizan algoritmos de procesado de video y audio para
mejorar la seguridad de los pasajeros en el transporte público.
2.2 Conclusiones
En los últimos años el reconocimiento de escenas dinámicas se está convirtiendo en
una de las principales áreas de investigación. Es por ello que se han financiado
diferentes iniciativas de este campo invirtiendo muchos esfuerzos sobre todo en
videovigilancia. Existen además multitud de publicaciones que analizan distintas
secuencias de video pero la mayoría de las aplicaciones están destinadas también a
este fin.
Por otro lado los sistemas de videovigilancia modernos cada vez tienen mayores
demandas. Cobertura de espacios amplios, escenarios complejos, redes de sensores
heterogéneas o funcionamiento en tiempo real son algunos de los requisitos que se
imponen a los nuevos sistemas de videovigilancia autónomos.
40
ANTECEDENTES
Por otro lado, el despliegue de sensores visuales para cubrir áreas extensas consigue
mejoras con respecto a los sistemas monocámara ya que se consiguen eliminar
problemas de apreciación como la oclusión. La visualización de la escena desde
distintas localizaciones proporciona diferentes perspectivas de los objetos y por lo
tanto mejores resultados. Es muy importante en estos casos colocar las cámaras de
manera adecuada para evitar zonas muertas que no se visualicen o información
redundante que aumenta la complejidad del sistema y el coste.
Detectores de humo, sensores de localización GPS, etc., son algunas de las fuentes
de información alternativas a la visual que pueden aportar información adicional
sobre los entornos y que, contemplándolos en los sistemas de videovigilancia
pueden mejorar los resultados. Sin embargo, el procesado de fuentes heterogéneas
supone un reto que la mayoría no es capaz de afrontar.
41
CAPÍTULO 2
42
3
3 REQUISITOS Y DISEÑO DE
LA ARQUITECTURA
43
CAPÍTULO 3
Para evitar que una vez desarrollado el sistema aparezcan estas limitaciones, antes
de comenzar a seleccionar las tecnologías y la implementación, es necesario definir
de forma clara los requisitos del mismo. Estas exigencias se toman como punto de
partida para diseñar, a alto nivel, la arquitectura que incluye todas las
características. Estos estudios y diseños previos a la implementación del sistema se
llevarán a cabo en este Capítulo.
Este Capítulo se encuentra dividido en tres secciones. Los requisitos del sistema son
analizados en la Sección 3.1. En la Sección 3.2 se diseña la arquitectura del sistema
especificando los principales componentes de la infraestructura y su funcionalidad.
Finalmente, en la Sección 3.3 se exponen las principales conclusiones del Capítulo.
44
REQUISITOS Y DISEÑO DE LA ARQUITECTURA
3.1 Requisitos
Como aparece recogido en la introducción, el objetivo fundamental de esta Tesis
Doctoral es el diseño y desarrollo de un sistema inteligente y autónomo de
interpretación de escenarios de diferentes dominios.
Para ello, los principales requisitos del sistema, algunos de ellos impuestos por el
propio proyecto HuSIMS, son:
Las cámaras utilizadas deben ser unidades sencillas, con poca resolución y
capacidad de proceso limitada, que hace imposible la utilización de técnicas
avanzadas como reconocimiento de caras u objetos. Para la identificación de
los distintos elementos se emplea la información de la que se dispone,
básicamente tamaños, posiciones y velocidades de los objetos en movimiento
ya que van a ser éstas las únicas regiones que se van a poder procesar.
45
CAPÍTULO 3
46
REQUISITOS Y DISEÑO DE LA ARQUITECTURA
Una posible solución a este problema es utilizar algoritmos de visión artificial para
detectar la presencia de objetos conocidos ante la cámara. La bibliografía muestra
avances sensibles en este campo, tales como [56]-[59].
Otra solución es emplear análisis semántico de los datos, es decir, dar una
interpretación, con significado acorde a la percepción humana del mundo real, de
lo que está pasando en la escena. En lugar de, por ejemplo, utilizar parámetros
matemáticos y/o estadísticos para determinar sucesos que están fuera de lo normal,
el análisis semántico está enfocado en caracterizar la información de la señal de
video según un modelo de conocimiento del mundo real, es decir, identificando
objetos con significado, tales como peatones, calzadas, incendios, coches, etc.
47
CAPÍTULO 3
Para llevar a cabo estas tareas el sistema realiza un proceso en dos etapas:
aprendizaje y operación.
48
REQUISITOS Y DISEÑO DE LA ARQUITECTURA
en la escena actual y tratar para discernir las situaciones normales de las alarmas.
Se aplica sobre la caracterización de zonas de la escena obtenida en la etapa
anterior y la información en tiempo real de los objetos en movimiento, que de
nuevo, a través de su tamaño relativo, se asignan a los diferentes actores
contemplados.
49
CAPÍTULO 3
50
REQUISITOS Y DISEÑO DE LA ARQUITECTURA
Una vez etiquetadas las distintas zonas descubiertas se pasa a modo funcionamiento
(el módulo de detección de rutas deja de estar activo). En esta etapa el módulo de
modelado ontológico toma como entrada las regiones ya clasificadas y los
parámetros de los objetos que se van descubriendo (cada nueva detección de
objetos se produce una proceso de razonado), clasificando los nuevos. Una vez
conocidos los objetos el mismo proceso de inferencia determina si se han producido
situaciones de alarma ya que conoce los comportamientos habituales de los
distintos elementos incluidos en la ontología.
En esta Tesis Doctoral, para las tareas realizadas por el módulo de sensorización, se
van a utilizar sensores comerciales proporcionados por uno de las empresas
participantes en el proyecto HuSIMS. Por tanto, el trabajo realizado se centra en el
diseño e implementación del proceso de detección de rutas y el modelado
ontológico e inferencia.
3.2.2.1 Sensorización
Durante esta etapa una red de sensores formada por cámaras de vigilancia
inteligentes y/o sensores (de temperatura y detectores de movimiento, por ejemplo)
obtiene la información de la escena. Las propias cámaras ejecutan algoritmos de
detección de movimiento para transformar el flujo de video en paquetes de datos
que contienen parámetros de los diferentes objetos móviles (velocidad, posición,
51
CAPÍTULO 3
tamaño, etc.). Es muy importante tener en cuenta que las cámaras que se van a
utilizar captan imágenes de baja resolución.
Las imágenes monitorizadas por las cámaras son procesadas en ellas mismas por lo
que, salvo petición expresa, nunca se envía el video capturado. Con ello se
consigue que no sean visualizadas o procesadas por ningún operador humano
permitiendo mantener la privacidad de las personas captadas.
Para identificar las rutas, el módulo contiene información acerca de cada una de las
trayectorias de los objetos, es decir, la historia de puntos a través de la que se ha
movido. Cuando el móvil desaparece de la imagen, esa trayectoria se agrupa con
la ruta más similar de las identificadas con anterioridad o genera una nueva ruta si
no hay correspondencia con ningún grupo previo.
52
REQUISITOS Y DISEÑO DE LA ARQUITECTURA
El objetivo de esta etapa es traducir los parámetros sintácticos de los objetos, las
rutas, los sumideros y fuentes obtenidas por las cámaras y módulo de Detección de
Rutas en clases semánticas ("coche" en lugar de "objeto", “carretera” en lugar de
“ruta”), realizar un modelo de la escena e identificar cualquier situación de alerta
(un "coche está en la acera") de acuerdo con la ontología y reglas semánticas (un
modelo de conocimiento formal especificado por un humano).
53
CAPÍTULO 3
O1, O3 y O4 están en R1
R1 es una Carretera
O2 es una Persona
O2 está detenida en R1
A continuación, el razonador identifica una alarma al detectar que O2, al ser una
Persona está detenida en un lugar donde no debe estar.
Una vez detectadas todas las alarmas de la escena actual el Detector de Alarmas las
procesa y muestra por pantalla.
54
REQUISITOS Y DISEÑO DE LA ARQUITECTURA
3.3 Conclusiones
Los sistemas de caracterización de situaciones y comportamientos actuales
presentan ciertas restricciones en su funcionamiento. La arquitectura presentada
parte de la que quizá es la mayor limitación de los sistemas existentes hasta ahora,
la falta de flexibilidad para adaptarse a diferentes dominios. No es tarea sencilla
diseñar un mecanismo que pueda adaptarse fácilmente a las distintas situaciones y
comportamientos que puedan producirse dentro de las Smart Cities.
Con objeto de conseguir que la adaptación sea lo más sencilla y automática posible
ésta se realiza utilizando semántica. Mediante un modelo del dominio de
conocimiento denominado ontología y un conjunto de reglas que lo complementan
se consigue la independencia del sistema del dominio de funcionamiento.
55
CAPÍTULO 3
56
4
4 PROCESADO DE IMAGEN:
REDES DE SENSORES
VISUALES INTELIGENTES
Dentro de HuSIMS se utilizan sensores visuales con una sensibilidad óptima. Estos
sensores pueden funcionar incluso en condiciones visuales extremas, tanto en
interiores como al aire libre, independientemente de la iluminación y de la
57
CAPÍTULO 4
Este Capítulo se encuentra dividido en cuatro secciones. La Sección 4.1 hace una
breve introducción de la evolución de los sistemas de visualización utilizados en
videovigilancia para resaltar la importancia del procesado de imagen con el fin de
conseguir una detección automática. En la Sección 4.2 se describe el
funcionamiento de los sensores inteligentes empleados en el proyecto HuSIMS. En la
Sección 4.3 se definen las tecnologías utilizadas para la transmisión de la
información procedente de las redes de sensores al centro de control. Finalmente,
en la Sección 4.4 se exponen las principales conclusiones del Capítulo.
58
PROCESADO DE IMAGEN
Otro enfoque destinado a reducir la monitorización de los entornos son los sensores
de vigilancia híbridos. Estos sensores permanecen en suspensión hasta que se
activan cuando detectan movimiento. Una vez más, estos sensores sólo son un
instrumento para la grabación de imagen o la transmisión de la misma ya que no
disponen de capacidad de análisis.
Aunque hay sistemas que afirman que realizan un análisis automatizado de video
para la identificación de personas sospechosas o la detección de objetos perdidos
en lugares concurridos, estos productos todavía tienen que penetrar en el mercado y
ganar fuerza comercial.
59
CAPÍTULO 4
La arquitectura está pensada para maximizar los datos obtenidos a partir de cada
píxel, permitiendo la reducción de la resolución del sensor visual y la potencia del
procesador. El algoritmo utilizado en este proyecto se basa en un procesamiento en
tres capas: análisis a nivel de píxel, fase de segmentación y capa de análisis de
objetos y movimiento.
Una innovación que introduce este diseño es el procesado a bajo nivel o píxel. Esta
parte es la que demanda mayor carga computacional por lo que es necesario que
60
PROCESADO DE IMAGEN
sea lo más eficiente posible. Este enfoque requiere de una simplificación de los
bloques de cálculo, en contraste con los mecanismos tradicionales de
procesamiento de imágenes que tienden a considerar el dispositivo de adquisición
de imágenes como una herramienta de medición y el procesamiento de sus datos
como una aplicación de herramientas matemáticas rigurosas, tales como detectores
de bordes gaussianos, análisis de Fourier, etc. Estas operaciones necesitan
aritmética de punto flotante y complejas arquitecturas o hardware específico, tales
como DSPs (Digital Signal Processor) o FPGAs (Field Programmable Gate Array) con
consumos elevados de potencia.
61
CAPÍTULO 4
Figura 4.1. Algoritmo de “píxel caliente”: muestra los umbrales superior e inferior y su
comportamiento adaptativo como una función del perfil de intensidad de píxel [116].
Por otro lado, es posible completar la información de las cámaras con otros tipos de
sensores, tales como detectores de humo, humedad y/o acelerómetros, para
62
PROCESADO DE IMAGEN
En escenarios al aire libre, las redes inalámbricas son la mejor solución. Las
tecnologías inalámbricas como Wi-Fi (802.11) y WiMAX (802.16) permiten agregar
y colocar cámaras y sensores en lugares que antes eran inaccesibles, y ofrecen una
calidad de servicio (QoS – Quality of Service), de alta capacidad y disponibilidad,
mecanismos de cifrado de datos y conectividad de baja latencia esencial para
transmisiones en tiempo real.
Uno de los principales objetivos de HuSIMS es que el sistema sea rentable y pueda
desplegarse en zonas amplias y heterogéneas. El despliegue de soluciones híbridas
que incluyen tramos inalámbricas combinados con espacios cableados (por ejemplo
sensores visuales con Wi-Fi vinculados a la red de la línea eléctrica tecnologías PLC
(Power Line Communications)) permite un despliegue inalámbrico de bajo coste y
rápido reutilizando el cableado existente.
Por otro lado, para el proyecto se han desarrollado redes con características SON
(Self-Organizing Networks) como la auto-configuración para conseguir despliegues
más rápidos o la posibilidad de reducir el impacto ante fallos buscando de forma
automática caminos alternativos para el envío de la información. En lugar de utilizar
redes de malla cuyo rendimiento se degrada rápidamente en escenarios multi-
punto, el sistema emplea nodos de acceso inalámbrico punto a multipunto basados
en el protocolo 802.11n. En cuanto a la planificación de la red, los sensores
siempre son capaces de llegar a más de un nodo de acceso con el fin de
proporcionar rutas redundantes de acceso al centro de control. Por otra parte, en
interiores, las tecnologías de comunicaciones que se utilizan son Wi-Fi y PLC una
como la infraestructura de seguridad de la otra con el fin de disponer siempre de
conectividad.
63
CAPÍTULO 4
4.4 Conclusiones
En este Capítulo se han introducido los sensores visuales inteligentes, la alternativa
actual a las cámaras de videovigilancia tradicionales. Estos sensores tienen la
característica especial de realizar el procesado de la imagen que captan ellos
mismos, sin necesidad de transmitir la imagen a un centro de control. Esta ventaja
permite mantener la privacidad personal y requiere anchos de banda de transmisión
bajos, ya que no es necesaria una transmisión de la imagen en alta resolución en
tiempo real sino sólo los resultados del procesado realizado en formato texto.
64
5
5 MODELADO ESPACIAL DE
LA ESCENA: DETECCIÓN
DE RUTAS
65
CAPÍTULO 5
66
DETECCIÓN DE RUTAS
67
CAPÍTULO 5
entrada y salida, zonas de parada y rutas o caminos que siguen los objetos en su
movimiento.
Como zonas de entrada y de salida se señalan aquellas franjas por las cuales los
objetos normalmente aparecen y desaparecen de la escena. Normalmente son
zonas coincidentes (salvo las encontradas en los bordes del campo de visión de la
cámara) seleccionando para su representación modelos GMMs (Gaussian Mixture
Models) en 2D. Como mecanismo de aprendizaje, en [122] Makris y Ellis realizan la
comparación entre los algoritmos de clustering K-means [123] y EM (Expectation–
maximization) [124] decantándose al final de su estudio por el algoritmo EM por su
comportamiento frente al ruido.
En cuanto a las zonas de parada, éstas se entienden como localizaciones en las que
las velocidades son bajas o muy bajas respecto a unas predefinidas [2] o aquellas
en las que, dentro de un área, el objeto permanece en ellas más de unos segundos
[125]. En algunos casos las zonas de parada pueden necesitar para su
caracterización una propiedad adicional que incluya la duración de la detección en
cada una de las zonas, que puede ser aproximada por una función exponencial [2].
Estas zonas son utilizadas para filtrar el ruido y falsos positivos en las rutas ya que
sólo consideran válidas aquellas que empiezan y acaban en una región considerada
como entrada/salida.
Una vez definidos los puntos de interés, se pasa a la definición de los caminos. Para
la determinación de las rutas existentes se utilizan los parámetros de movimiento de
los objetos que realmente es una secuencia de medias que variará con el tiempo,
típicamente la posición del objeto y su velocidad. A partir de estos parámetros,
Morris y Trivedi en [126] proponen un modelo de tres pasos, que habitualmente es
el utilizado por los diferentes autores para realizar este procedimiento. Preprocesado
de las trayectorias, agrupamiento de los caminos similares y modelado de las rutas
descubiertas son las fases a seguir. Los autores en su estudio hacen una
recopilación de las técnicas que la comunidad científica utiliza para completar con
éxito las tres fases. A continuación se recopilan algunas de las que proponen.
Las distintas velocidades de los objetos y la variación de las mismas con el tiempo
(para una frecuencia de muestreo del video predefinida), hacen que se obtengan
trayectorias de longitudes desiguales dentro de la misma ruta. Ante este problema,
la mayoría de las investigaciones combinan la normalización de trayectorias con
una reducción dimensional (habitualmente reducir las trayectorias a curvas en 2D),
68
DETECCIÓN DE RUTAS
Hidden Markov Model (HMM): asume que las trayectorias se producen por
procesos estocásticos pudiendo utilizar este modelado para caracterizar las
dependencias temporales entre los distintos puntos [135].
69
CAPÍTULO 5
longitud. Ésto hace que no sea necesario el preprocesado previo para realizar la
agrupación de trayectorias para formar rutas. Entre las técnicas utilizadas a la hora
de determinar la distancia mínima existente entre trayectorias destacan la Distancia
Euclidea [139], Dynamic Time Warping (DTW) [140][141], Longest Common
Subsequence (LCSS) [142][143] y la Distancia de Hausdorff [132][144]. En [69][70]
se realiza una comparativa de las diferentes técnicas para tratar de determinar, a
través de la experimentación, cuál es la más robusta frente al ruido y eficiente para
escenarios de videovigilancia en exteriores, llegando a la conclusión de que la
mejor técnica la determina el escenario concreto.
Alternativas al cálculo de la similitud entre rutas son las técnicas de clustering que,
en este caso, sí que requieren preprocesado. Hay distintas técnicas empleadas para
la realización de este proceso recopiladas por Jain [145] y Berkhin [146] como
indican Morris y Trivedi en [126]. Entre ellas se encuentran:
Mejora iterativa: realiza una agrupación inicial que se va refinando con cada
iteración. Típico de este grupo es el algoritmo de clustering K-Means
[137][138] (o su variante FCM-Fuzzy c-Means [131]). Este algoritmo,
conocido el número de grupos, selecciona de manera aleatoria el centro de
los mismos y realiza grupos de muestras según la cercanía de las mismas a
esos centros. En nuevas iteraciones, con los grupos establecidos se
recalculan nuevos centros y se reasignan las muestras a este nuevo centro.
Este proceso se repite hasta lograr la convergencia.
70
DETECCIÓN DE RUTAS
permite que se pueda “cortar el árbol” por donde se desee para establecer el
número de agrupaciones que interese.
Una vez realizado el agrupamiento de las trayectorias en una ruta se lleva a cabo la
validación del mismo. Este paso es muy importante ya que se debe verificar la
calidad del camino aprendido ya que a priori se desconoce el número real de rutas
en la escena. Para ello existen diferentes técnicas, entre las que destacan los
procedimientos de combinación por acumulación para agrupar clusters similares.
Otras técnicas buscan el número correcto de clusters mediante la minimización o
maximización de un criterio óptimo (partiendo de un número inicial de clusters, lo
van variando hasta encontrar el que mejor ajusta ese criterio). En este grupo se
encuentra el TSC (Tightness and Separation Criterion) [131] o el Bayesian
Information Criterion o Criterio de Información Bayesiano (BIC) [151].
Una vez modelada la escena como composición de diferentes zonas se puede pasar
a analizar los comportamientos y actividades de los objetos. Mediante la
observación de la escena, un sistema puede ser capaz de determinar cercados
virtuales, perfiles de velocidad, clasificar rutas, detecciones falsas, análisis de
actividades y caracterizar la interacción entre objetos.
71
CAPÍTULO 5
72
DETECCIÓN DE RUTAS
Sumpter y Bulpitt [150] utilizan esta metodología pero van un paso más allá. Utilizan
la salida a modo de realimentación para la capa de neuronas de fuga para
aprender los patrones de activación.
73
CAPÍTULO 5
Rutas: zonas de la escena por las que pasan los objetos. Cada ruta puede
considerarse como un grupo de trayectorias similares.
Por otro lado, dependiendo del dominio del espacio que se esté caracterizando,
estos conceptos tienen significados diferentes. Si, por ejemplo, se está visualizando
una calle, las Rutas serán las carreteras y las aceras mientras que las fuentes y
sumideros se encontraran en los bordes de las imágenes, semáforos, paradas de
autobús, etc.
La dirección de la ruta está marcada en la Figura 5.1 con una punta de flecha al
final. Así, un camino en el que los objetos viajan en ambas direcciones esta
representado por dos rutas, una para cada dirección. Las envolventes de las rutas se
74
DETECCIÓN DE RUTAS
obtienen utilizando los valores de anchura y altura dados por la cámara de los
objetos que se desplazan por ellas.
75
CAPÍTULO 5
y pasa a ser una “trayectoria cerrada” (Ti = {ti1 ... tin}) cuando concluye el
movimiento y desaparece.
Además, el sensor visual proporciona otros parámetros del objeto como sus
dimensiones o velocidad en cada momento. De esta forma, para Oi, la evolución
de su anchura (width) y altura (height), por ejemplo, están recogidos en los vectores:
Por otra parte aparece el concepto de “ruta”. Una ruta es un conjunto de una o
varias trayectorias cerradas. Las rutas incluyen un parámetro denominado “strength”
(S) o fuerza que indica el número de trayectorias agrupadas en ella. Además, como
se comentó en la Sección 5.3.1, las rutas están caracterizadas por una secuencia de
puntos centrada (X, Y) y dos envolventes (E1, E2). Igualmente, se caracteriza por un
vector de direcciones (D). Así pues, la ruta Rj posee los siguientes parámetros:
Si ∈ -{0} (5.10)
Además, las rutas también contienen el conjunto de parámetros de los objetos que
se agrupan dentro de las trayectorias (tamaño medio, velocidad media máxima y
velocidad media promedio, en el caso de control de tráfico u otras para otros
dominios). Esto ayuda al Traductor Semántico a identificar el tipo de objetos que
utilizan esa ruta, y así asignarle un significado propio. Por ejemplo, en un escenario
de control de tráfico, rutas con tamaño y la velocidad superior que la media de
76
DETECCIÓN DE RUTAS
todas las rutas, pueden ser consideradas candidatas a ser carreteras y las demás,
aceras.
Por otro lado, la distancia entre puntos consecutivos de una trayectoria varía
considerablemente con la velocidad de los objetos. Por ello se interpolan
linealmente las trayectorias para que todas tengan N muestras y así normalizarlas y
hacerlas independientes de la velocidad. Es decir, cuando un objeto desaparece de
la imagen, el vector con los puntos por los que ha pasado su centro se considera su
trayectoria cerrada. Esta trayectoria se vuelve a muestrear para que contenga sólo
un número fijo de puntos N (configurable).
Para medir esta semejanza entre trayectorias se pueden utilizar varios métodos que
abarcan desde los más simples como la distancia Euclidea hasta otros más
complejos como DTW (Dynamic Time Warping) y LCSS (Longest Common
Subsequence). En la literatura hay autores como Zhang et al. en [70] y Morris y
Trivedi [69] que estudian esta problemática y tratan de determinar cuál es el sistema
de clustering de trayectorias más adecuado. Sin embargo, el método a utilizar
depende de la escena a analizar consiguiéndose diferentes rendimientos para cada
método en función de la situación y no pudiéndose seleccionar un mecanismo
óptimo.
77
CAPÍTULO 5
Donde:
78
DETECCIÓN DE RUTAS
calcula la media y es ese el valor que se compara con el umbral establecido para
determinar la semejanza de las direcciones de las trayectorias.
dang=(ΣNi=1|θi-φi|)/N (5.15)
79
CAPÍTULO 5
S1 =1 (5.21)
80
DETECCIÓN DE RUTAS
ii. Si los dos valores están por debajo del umbral para varias de
las rutas, la trayectoria se agrupa con aquella más cercana del
modo que se describirá en la Sección 5.3.2.2.
Cuando una nueva trayectoria coincide con una ruta, los puntos de la ruta
actualizada se calculan como la media de los de la trayectoria y los de la ruta
antigua ponderándola con el parámetro “strength”. De esta manera las rutas más
establecidas varían menos que las que contienen pocas trayectorias y todas las
trayectorias que forman la misma ruta tienen el mismo peso.
81
CAPÍTULO 5
Sj (5.30)
Sj=Sj+1 (5.35)
82
DETECCIÓN DE RUTAS
Se realiza una búsqueda, dentro de todas las rutas, de trayectorias (en este caso
rutas con peso uno) más pequeñas que las incluyen eliminando estos “trozos”
cuando haya coincidencia. Para ello cada ruta se divide en sub-rutas y, utilizando la
distancia de Hausdorff y la diferencia angular, se comparan con las otras rutas. Si
en algún caso estos valores son inferiores a los umbrales establecidos se elimina la
ruta corta (la sub-ruta con la que se compara pertenece a la ruta más larga).
83
CAPÍTULO 5
marcados con x) los sumideros. Además, aprecian las zonas de fuentes de objetos
señaladas con un rectángulo blanco (que agrupa los puntos cian).
84
DETECCIÓN DE RUTAS
Existen diversos algoritmos de clustering que se pueden aplicar para definir las
agrupaciones en este tipo de sistemas. Herramientas como MATLAB incluyen, de
forma nativa, un toolbox para realizar este tipo de operaciones. En concreto
MATLAB, en el apartado de estadística, dispone de una función que realiza el
algoritmo Kmeans. Sin embargo, para la utilización de otros algoritmos es necesario
recurrir a implementaciones adicionales. Fuzzy Clustering and Data Analysis Toolbox
es un conjunto de funciones de MATLAB desarrolladas por Balazs Balasko, Janos
Abonyi and Balazs Fiel pertenecientes al Department of Process Engineering de la
Universidad de Veszprem en Hungría.
85
CAPÍTULO 5
Analizando cada uno de ellos, se puede ver que la única diferencia entre S, SC y XB
es la forma de medir la separación de los grupos. Entre estos tres índices, S y SC
son los más usados. Además, en el caso de tener clusters solapados, los índices DI y
ADI no son fiables ya que tienen que ser recalculados con métodos hard clustering.
Hay que mencionar que ningún índice es concluyente por sí mismo, sino que hay
que comparar los resultados para todos los posibles números de clusters de todos y
cada uno de ellos para llegar a encontrar el k óptimo, con lo que no es una
solución eficiente.
En el caso que se está tratando se desconoce a priori del número de clusters, que
resulta crítico ya que el cálculo del mismo lleva asociado un elevado coste
computacional.
86
DETECCIÓN DE RUTAS
los que sus puntos son o puntos centrales (un grupo puede tener más de un punto
central) o puntos borde y el conjunto de todos los puntos marcados como ruido se
consideran valores atípicos. DBSCAN es además insensible al orden de los puntos.
En la Figura 5.7 se puede ver el funcionamiento del algoritmo. Partiendo del punto
P1, se encuentra que para ε hay dos puntos vecinos (P2 y P3) con lo cual P1 es un
punto central y se comienza a generar el cluster C1 con estos tres valores. Haciendo
el mismo proceso con los dos puntos vecinos, P2 es un punto borde (sólo tiene P1
como vecino) y P3 es punto central también (tiene P1 y P4 como vecinos). Después,
analizando P4 se determina que es un punto de borde. Además, P4 es densamente
alcanzable por P1 y P2 es densamente alcanzable por P3. El cluster C1 queda formado
por los puntos P1, P2, P3 y P4. Los puntos centrales aparecen representados en color
verde y los puntos de borde en amarillo. De igual modo, siguiendo con el resto de
puntos, se determina que hay otro cluster C2 y dos puntos marcados como ruido
(representados en rojo).
En las Figura 5.8 y Figura 5.9, se observan ejemplos de la utilización del algoritmo
DBSCAN con parámetros minPoints=2 y ε=25 para dos escenarios diferentes, uno
sintético y un video real del MIT - Massachusetts Institute of Technology. Los puntos
de las fuentes y sumideros se representan con cruces cian y magenta
respectivamente y los clusters se representan con cuadrados.
87
CAPÍTULO 5
Figura 5.8. Ejemplo de detección de fuentes y sumideros con el algoritmo DBSCAN en un video
sintético.
También se muestra en la Figura 5.10 como hay puntos atípicos que no pertenecen
a ningún cluster. En algunas ocasiones simplemente son espurios mal detectados
por el sistema de procesamiento de imagen o fenómenos puntuales, pero en otros
88
DETECCIÓN DE RUTAS
Figura 5.9. Ejemplo de detección de fuentes y sumideros con el algoritmo DBSCAN en un video real.
Figura 5.10. Ejemplo de detección de ruido con el algoritmo DBSCAN en un video real.
89
Número de
Número Número de
Número de rutas % rutas % rutas
Descripción del video N de rutas
rutas identificados identificadas erróneas
objetos identificadas
erróneamente
10 58 4 4 0 100% 0%
carriles, dos carriles para
cada sentido. 20 58 4 4 0 100% 0%
Un video real de una 5(coches) 4(coches) 0(coches) 80%(coches) 0%(coches)
intersección compleja, con 10 37
6(personas) 5(personas) 0(personas) 83%(personas) 0%(personas)
tres vías para vehículos
con dos direcciones y 5(coches) 4(coches) 0(coches) 80%(coches) 0%(coches)
20 37
varias aceras. 6(personas) 5(personas) 0(personas) 83%(personas) 0%(personas)
CAPÍTULO 5
Tabla 5.1. Comportamiento del detector de rutas.
DETECCIÓN DE RUTAS
5.5 Validación
El comportamiento del algoritmo se evalúa en términos de precisión en la
identificación de ruta. Para ello, se analizan cuatro videos diferentes con el detector
de rutas (dos videos sintéticos y dos reales, uno del proyecto ITEA CANDELA
(disponible en http://www.multitel.be/image/research-development/research-
projects/candela.php) y otro del MIT - Massachusetts Institute of Technology
(disponible en http://www.ee.cuhk.edu.hk/ ~ xgwang / MITtraffic.html)),
comparando, mediante la observación, las trayectorias identificadas con las
trayectorias reales que deben ser detectadas. Para ello se superponen las zonas
descubiertas con la imagen real, facilitando así la determinación de los errores en el
proceso de descubrimiento de rutas y especificando el porcentaje de rutas
correctamente identificados y el porcentaje de caminos erróneos (para un
funcionamiento ideal, estos datos es 100% y 0% respectivamente).
La Tabla 5.1 recoge los resultados del análisis. También se ha incluido el número
de objetos que aparecen en cada uno de los videos y el número de puntos N de
cada trayectoria/ruta considerado para cada ejecución.
Evaluando la precisión, los números obtenidos para escenas sencillas, como las que
se esperan para carreteras con carriles bien definidos, son muy buenos. Es fácil
identificar todos los carriles sin errores al ejecutar el algoritmo con 10 o más puntos
por trayectoria. En las escenas más complicadas, las tasas siguen siendo buenas
pero, a medida que aumenta la complejidad del escenario son necesarios mayor
número de objetos para conseguir las mismas precisiones.
5.6 Conclusiones
Los sensores inteligentes que se utilizan proporcionan parámetros de movimiento de
los objetos que captan, no imágenes. Esto hace que se descarten mecanismos
basados en procesamiento de la imagen mediante algoritmos de visión artificial y/o
comparación con modelos predefinidos para determinar las zonas de la imagen.
91
CAPÍTULO 5
Para la identificación de las distintas regiones se utilizan filtros que eliminan ruido en
las rutas (desechando trayectorias de objetos con pocos puntos o de dimensiones
reducidas), interpolación para facilitar la comparación de trayectorias, una
modificación de la distancia de Hausdorff como técnica para medir la similitud entre
trayectorias, y el algoritmo de clustering DBSCAN para agrupar en regiones los
puntos de entrada y salida de objetos.
92
6
6 MODELADO SEMÁNTICO
DE ESPACIOS
93
CAPÍTULO 6
De esta forma se establece una clara separación entre los datos de bajo nivel y el
modelo de la base de conocimientos. Este enfoque presenta varias ventajas. Por un
lado, el modelo se hace independiente de las técnicas y herramientas utilizadas para
extraer la información de bajo nivel, por lo que puede ser actualizado y mejorado
de forma separada. Por otro lado, es posible modificar también los algoritmos y
métodos para la extracción de datos de manera independiente, y fuentes de datos
adicionales pueden ser incluidas con pocos cambios.
Por otro lado, una vez caracterizada la escena, etiquetadas las distintas zonas de la
misma y los objetos que en ella aparecen, es fácil ir un poco más allá y utilizar toda
esta información para informar a un posible usuario de situaciones de su interés o
directamente, aplicándolo a videovigilancia, notificar alertas.
94
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
6.1 Semántica
La representación y tratamiento de datos mediante el uso de la semántica es una
disciplina de relativa novedad [176]. Esta metodología se introdujo inicialmente
mediante su aplicación en la Web ya que un modelado uniforme del conocimiento
disponible permitía establecer relaciones entre conceptos para realizar búsquedas o
ejecutar servicios Web mejorando lo resultados. Así nació la denominada Web
Semántica [81].
95
CAPÍTULO 6
Las ontologías son estructuras que representan de manera formal las relaciones
existentes entre los miembros definidos en ella. Por una parte se divide en clases o
categorías que agrupan a los individuos y por otra define las propiedades utilizadas
para describirlos y relacionarlos. Hay que diferenciar muy bien entre clases e
individuales o instancias de objetos. Una clase incluye un esquema con las
características de los individuos que contiene y un individual o instancia es un objeto
concreto que pertenece a una o varias clases y por tanto tiene las propiedades que
se asignan a los objetos de esa clase.
Esto puede verse en la Figura 6.1. Por una parte aparecen dos individuales “Juan” y
“Manuel”, individuos concretos, que pertenecen a la clase “Personas”. Y por otra,
dentro de esta clase se ha definido una propiedad de sus miembros que es
“esHijoDe” que, en este caso establece una relación entre ambos elementos.
96
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
Éstas proporcionan nuevos datos al razonador, relaciones, límites, etc., que o bien
no ha sido posible definir en la propia ontología o se han incluido posteriormente
como complemento a las definiciones ontológicas iniciales. Gracias a ellas se dota
al razonador de una mejor capacidad de asimilación de los datos y por lo tanto de
creación de conocimiento.
Por último el razonador, componente que se encarga de, a partir de las relaciones
existentes en la ontología y las instrucciones indicadas en las reglas, obtener nuevas
relaciones y categorías de los contenidos incluidos en dicho modelo de
conocimiento.
97
CAPÍTULO 6
6.2 Ontologías
El término ontología, proveniente de los términos griegos “ontos” (existencia) y
“logos” (estudio), ha ido ganando importancia impulsado por el aumento de la
utilización de la semántica en diversos ámbitos de la ciencia. Comenzó a utilizarse
en filosofía, pero poco a poco fue adquiriendo significado propio en las ciencias de
la computación, para denominar a la representación conceptual que permite la
comunicación entre sistemas y con el usuario.
98
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
Determinan las relaciones entre clases e individuos dentro de las mismas con
el objetivo de poder crear nuevas relaciones durante el proceso de
inferencia.
99
CAPÍTULO 6
Las primeras técnicas utilizadas para este propósito se basaban en marcos y lógica
de primer orden, mecanismos considerados de AI [183]. A pesar de ser técnicas de
modelado antiguas, sus fundamentos siguen siendo utilizados o han sido adoptados
como base de otros métodos que se aplican en la actualidad. En concreto, todavía
se emplean las definiciones de las cinco categorías en las cuales se dividen los datos
dentro de la ontología [178]. Aunque ya se habían introducido algunos de estos
conceptos básicos previamente, hay que tener muy claro la diferencia entre ellos
para usarlos adecuadamente y entender correctamente el modelo ontológico:
100
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
Se podría definir por tanto el TBox como la parte de la lógica que incluye las
propiedades o relaciones entre clases de la ontología, mientras que el ABox
contiene los individuales o conceptos de la escena y sus relaciones.
Por otro lado, una de las principales razones por la que se utiliza la técnica UML
para el modelado del conocimiento es que, debido a sus orígenes y a su facilidad
de comprensión, su uso se ha extendido dentro de la comunidad de desarrolladores
de software. Esto proporciona a este tipo de métodos una gran cantidad de
herramientas para realizar el modelado. Este tipo de técnica es utilizada
conjuntamente con OCL (Object Constraint Language) para representar los
conceptos, propiedades y jerarquización de los individuales.
101
CAPÍTULO 6
Figura 6.4. Esquema de un sistema configurado para realizar persistencia semántica [188].
102
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
6.3 Lenguajes
Una de las funciones principales de los lenguajes semánticos es la de codificar el
modelo de conocimiento contenido en una ontología. Existe una gran variedad de
lenguajes para realizar esta tarea pero los más utilizados son OIL (Ontology
Inference Layer) [190], la combinación de DAML (DARPA Agent Markup Language -
http://www.daml.org/) + OIL [182], RDF (Resource Description Framework -
http://www.w3.org/RDF/) y OWL (Web Ontology Language -
http://www.w3.org/TR/owl-features/).
Para la selección del lenguaje más adecuado para cada ontología hay que tener en
cuenta dos aspectos fundamentales:
103
CAPÍTULO 6
104
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
Figura 6.6. Relación entre los diferentes niveles del lenguaje OWL.
105
CAPÍTULO 6
Por último, OWL Full es más expresivo que el anterior y su enfoque se centra en esa
característica siendo menos importante el procesamiento de datos. La diferencia con
OWL DL, sobre todo, es la posibilidad de este lenguaje de definir varios niveles
jerárquicos dentro de las clases, consiguiendo que la ontología pueda diferenciar
mejor entre los distintos niveles de la misma.
La relación entre los tres niveles del lenguaje puede verse en la Figura 6.6.
6.4 Reglas
En la literatura existen varios trabajos como [193]-[196], que presentan un estudio
de nuevas propuestas para el uso de reglas de inferencia o de cómo influye la
aplicación de las mismas a la hora de realizar consultas.
Las reglas son expresiones en lenguaje semántico que permiten crear relaciones
entre entidades de la ontología. Se utilizan como apoyo o conocimiento extra del
razonador. Esta información le deja inferir relaciones que no habían podido ser
expresadas en la propia ontología.
Las reglas de inferencia están formadas por dos partes diferenciadas. En primer
lugar establecen unas relaciones entre las clases u objetos, llamadas premisas, que
cuando se cumplen hacen que se llegue a un resultado o conclusión.
si tenemos dos individuales “a” y “b” donde “a” tiene de padre a “b” y a la vez la
entidad “b” tiene de hermano a “c”, una consecuencia de ello es que el sujeto “a”
tiene de tío al objeto ”c”.
106
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
En este caso Jena [189][197] proporciona la capacidad de trabajar con RDF, OWL
y realizar consultas SPARQL (SPARQL Protocol and RDF Query Language). La
sintaxis de las reglas generadas para su aplicación en Jena, denominadas Jena
Rules [198][199], es específica para esta aplicación. La estructura se basa en la de
RDF fundamentada en sujeto-predicado-objeto. Un ejemplo de la misma regla pero
escrita para Jena sería:
6.5 Razonadores
La ontología, gracias al lenguaje semántico, modela conocimiento a través de las
relaciones entre diferentes entidades. Sin embargo, la generación de nuevas
conexiones y por lo tanto conocimiento es una de las características principales del
pensamiento humano. Es aquí donde entran en escena los razonadores.
Los primeros sistemas que utilizan reglas como complemento son los descritos en
[200]. Éstos cuentan con una arquitectura basada en tres puntos: una base de
conocimiento, una de reglas y, por supuesto, el razonador.
Puede ocurrir que ciertas reglas, aunque bien definidas, lleven a generar una
situación no deseable como un conflicto o inconsistencia. Para ello existen diferentes
medidas o protocolos que intentan evitarlo determinando la prioridad entre las
reglas. Entre ellos destacan los siguientes:
107
CAPÍTULO 6
Regla más novedosa: se aplica primero la que contenga las condiciones que
impliquen el uso de datos más nuevos.
Regla más antigua: contraria a la anterior, se elige la regla con los datos
más viejos.
Ésta se puede realizar de dos formas distintas: hacia adelante o hacia atrás.
En el primero de los casos este proceso implica que el razonador crea unas
relaciones inferidas coherentes con los datos iniciales. Es el proceso más lógico. Se
selecciona una condición establecida y se realiza el razonado.
108
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
109
CAPÍTULO 6
Por otra parte, como complemento del proceso de modelado semántico, es muy
sencillo incluir reglas adicionales en el modelo para conocer si el comportamiento
de un objeto es normal o se encuentra en una situación excepcional. Por ejemplo,
una regla puede especificar que, si se detecta un objeto clasificado como Vehículo
circulando por una ruta de la clase Acera, se lanza una alarma que especifica esta
incidencia.
110
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
En el dominio del tráfico, por ejemplo, la ontología incluye la clase Vehículo con
propiedades como Velocidad o Tamaño. En un escenario específico aparece, por
ejemplo, un objeto Objeto1 que pertenece a la clase Vehículo que tiene una
Velocidad de 50 km/h y un individual Objeto2 identificado como perteneciente a la
clase Peatón con una Velocidad de 4km/h.
Por otro lado, las reglas de inferencia son una serie de condiciones y operaciones
lógicas que se ejecutan sobre la ontología populada durante el proceso de
razonado, y que, en función de los individuales y las propiedades de los mismos, se
activan o no generando una salida y otra. Por ejemplo, la ontología posiciona los
objetos de la clase Vehículo dentro de los de la clase Localización, es decir, tienen
la propiedad Localizado_en. Si un Objeto1 de la clase Vehículo está Localizado_en
111
CAPÍTULO 6
un individual Ruta1 de la clase Localización y hay una regla que indica que si un
Vehículo se encuentra en una Acera, la situación es de alarma y hay dos
posibilidades:
En esta Tesis, el razonado semántico se realiza tomando como base tres ontologías,
que se dividen en dos categorías. Dos ontologías son genéricas e independientes
del dominio de funcionamiento y la otra es específica del ámbito de estudio, en este
caso de ejemplo, una ontología concreta para el control de tráfico.
Las ontologías generales sirven como base para la inclusión en el modelo semántico
de los distintos individuales detectados en movimiento en la escena y las diferentes
rutas o zonas determinadas en la fase de caracterización espacial, por tanto, son
independientes del campo de aplicación. Estos individuales o zonas pertenecen a
una u otra clase en función de la ontología específica y las reglas adicionales que se
apliquen. Es decir, un objeto en movimiento tiene una serie de características como
son la posición dentro de la escena, la dirección de movimiento, una velocidad,
etc., independientes del dominio de funcionamiento del sistema. Es la ontología
específica y las reglas las que determinan que este objeto es un vehículo, si se
trabaja en el dominio particular del control del tráfico o un lobo si el sistema
monitoriza un espacio nacional protegido.
Pero, ¿por qué esta diferenciación? Una limitación de las ontologías y las reglas, es
que el razonador sólo se basa en la información de la que dispone en un momento
concreto para realizar el proceso de inferencia. Esto hace que en muchas ocasiones
tras este proceso se llegue a conclusiones erróneas. Por ejemplo, si en un momento
determinado un peatón está localizado en una ruta (donde, en el momento actual,
no existen otros objetos), esta ruta en este proceso de inferencia se considera una
acera sin tener en cuenta si previamente han pasado por ella multitud de vehículos.
Para evitar estos problemas es necesario utilizar ontologías persistentes que
posibilitan el almacenamiento de históricos y proporcionan mejores resultados.
Sin embargo, ¿es necesario almacenar todas las propiedades de todos los objetos
que van apareciendo en la escena? Cuando un objeto aparece en la escena se
112
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
Por una parte, de forma general e independiente del dominio, todos los objetos en
movimiento y las localizaciones disponen de los mismos parámetros, que sirven
como base en el proceso de razonamiento y, por otro lado, las deducciones a las
que se llegue después del procesado de los mismos, va a clasificarlos dentro de una
u otra clase del dominio de la escena. Es esta información inferida la que es
almacenada para que sirva de entrada en nuevos procesos de razonado y por tanto
requiere la utilización de una ontología persistente. Sin embargo, las características
de un objeto o ruta en un fotograma concreto es información “volátil” y por tanto
las ontologías que las definan no necesitan esa propiedad. Por otro lado, objetos y
regiones son modelados utilizando dos ontologías diferentes ya que son conceptos
diferentes aunque entre ellos existan relaciones.
113
CAPÍTULO 6
114
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
Esta ontología contiene las siguientes propiedades que son asignadas a los
individuales de la clase OBJECT:
115
CAPÍTULO 6
Object Property
Path: Pertenecen a esta clase todas las zonas de la escena por las que se
mueven los objetos. Es decir, son individuales de la clase Path las rutas
determinadas en el proceso de caracterización de espacios.
Source: Engloba las zonas por las que aparecen los objetos en la escena. En
este caso, son individuales de esta clase las fuentes detectadas.
Sink: Engloba las zonas por las que habitualmente desaparecen los objetos
de la escena. Son individuales de esta clase los sumideros determinados
durante el proceso de detección de rutas.
116
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
En este caso las propiedades, definidas todas de tipo Data Property, son las
siguientes:
Tal y como se define en la Sección 5.3.1, cada ruta está caracterizada por una
secuencia de puntos centrada y dos envolventes que representan el tamaño medio
de la ruta. Así pues:
117
CAPÍTULO 6
Por otro lado se encuentra la ontología específica del dominio de aplicación. Este
tipo de ontologías se crea como complemento de las anteriores y su objetivo es
dotar a éstas de unas etiquetas específicas que describan la escena en lenguaje
formal. Esta ontología es persistente, característica que no influye en el diseño de la
misma y que permite el almacenamiento de forma transparente en una base de
datos relacional, aportando funcionalidades adicionales al sistema y posibilitando
una caracterización de escenas más fiable.
A modo de ejemplo, se diseña esta ontología para el modelado del dominio del
control de tráfico. Hay que tener en cuenta que se utiliza como complemento de las
dos anteriores con lo que, en el caso de tener los modelos generales clases ya
definidas, éstas han de especificarse con el mismo nombre.
118
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
2.Por otro lado se encuentra la clase LOCATION. En ella están definidas las
subclases correspondiente al tipo de rutas que se pueden encontrar en este
campo de aplicación:
119
CAPÍTULO 6
3. Por último se define la clase ALARM. Esta clase está diseñada para dotar al
sistema de la capacidad de determinar e identificar, de manera semántica, las
diversas situaciones anómalas que puedan darse en una escena. En la Figura
6.7 se incluyen dentro de OBJECT porque están relacionadas con el
comportamiento de un objeto concreto. Dicha clase contiene varias subclases:
Object Property:
120
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
Data Property:
121
CAPÍTULO 6
122
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
123
CAPÍTULO 6
Por tanto, va a ser necesaria una regla de inferencia que evalúe las
probabilidades para que, en caso de que se cumplan las premisas
establecidas, se asigne el objeto a una determinada clase. Así pues, si la
propiedad probabilityPedestrian de Objeto1 es 21 y la probabilityVehicle es
5, y las premisas establecen que si la probabilityPedestrian es mayor de 17 y
la diferencia de probabilidades es mayor de 15 se llega a la conclusión de
que Objeto1 es un peatón, incluyendo además en la ontología la tripleta
Objeto1 hasType Pedestrian.
Recalcular valores de cada clase de objeto que han transitado las distintas
localizaciones.
Para determinar si una ruta detectada pertenece a una clase u otra y así
etiquetarla va a ser necesario, además de conocer características de la
misma como su anchura, saber la clase de objetos que por ella transitan. En
el dominio del control de tráfico, una ruta concreta es identificada como
acera, si por ella circulan sobre todo peatones, por ejemplo. A cada ruta
descubierta durante el proceso de modelado espacial, se le asignan
propiedades con el número de objetos de cada posible clase determinada
por el dominio de aplicación. En el campo del control de tráfico, por una
ruta pueden circular peatones o vehículos con lo que cada ruta dispone de
las propiedades hasNumberVehicle y hasNumberPedestrian que inicialmente
124
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
Identificar la clase de ruta que es una zona pudiendo etiquetarla así para un
determinado dominio.
Al igual que sucede en el caso de los objetos, cuando por una ruta concreta
han pasado un número de objetos de una clase o la diferencia entre los que
han circulado de los distintos tipos supera un umbral, se determina la clase a
la que pertenece la ruta.
Para realizar este borrado se pueden definir esquemas de tripletas que digan
al sistema que realice el borrado. Por ejemplo, si en un momento puntual el
sistema de reglas genera a modo de conclusión las siguientes tripletas:
Objeto1 removeValue 6
El sistema determina que tiene que borrar del modelo persistente la tripleta:
Objeto1 probabilityPedestrian 6
Una única tripleta no es suficiente para que se entienda que hay que realizar
el borrado ya que no incluye palabras clave que se lo indiquen. Si estas
palabras clave sólo están presentes en el sujeto, predicado u objeto de una
125
CAPÍTULO 6
Este tipo de regla es, en el campo del control de tráfico, la que concluye que
Objeto1 tiene la propiedad hasAlarm con valor
pedestrianCrossingInappropriately cuando Objeto1 de tipo peatón está
localizado en una ruta Ruta1 que no es de la clase Sidewalk ni Crosswalk. La
regla de inferencia que se ejecuta en ese caso es similar a la incluida en la
Figura 6.12.
Los propósitos indicados sólo son algunas de las posibilidades que ofrecen las
reglas de inferencia, que pueden aumentar su complejidad o completarse con otras
para conseguir resultados adicionales.
Por otro lado, en todos los casos las reglas de inferencia son específicas del dominio
de conocimiento y, para mejorar la modularidad del mecanismo propuesto y así
facilitar su adecuación a un nuevo campo de aplicación, se incluyen en un fichero
de texto plano.
126
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
En primer lugar se crea una base de datos relacional donde debe estar almacenada
la ontología persistente. Para la generación de la misma se utiliza el modelo
diseñado para el ámbito de aplicación y que es un esquema que poco a poco se va
populando con los distintos resultados obtenidos de los procesos de inferencia.
Figura 6.13. Esquema de la ontología persistente para el dominio del control de tráfico.
127
CAPÍTULO 6
En este esquema se crean y generan instancias con los individuales que se detectan
en el fotograma actual, incluyendo las propiedades de los mismos. Esta ontología es
volátil y cuando finaliza el proceso de inferencia del fotograma la información de
todos los individuales del momento actual se pierde.
128
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
129
CAPÍTULO 6
Los tres esquemas con el conocimiento se importan dentro de un único modelo que,
en combinación con el conjunto de reglas de inferencia es procesado por un
razonador genérico basado en reglas. La información adicional generada en este
proceso sirve como entrada para la actualización del modelo persistente y permite
la detección de situaciones anómalas. En la Figura 6.18 se muestra el
procedimiento.
130
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
131
CAPÍTULO 6
132
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
En la Figura 6.20 se puede ver como, con las propiedades actuales de la ruta Ruta1
y las inferidas previamente (hasNumberVehicle y hasNumberPedestrian, el razonador
etiqueta el objeto como Road.
6.7 Validación
Protégé, la herramienta de edición de ontologías utilizada permite realizar la
validación de la ontología utilizando los razonadores de los que dispone. La
evaluación que realiza incluye tres aspectos:
133
CAPÍTULO 6
En el caso de esta Tesis Doctoral, se han validado las tres ontologías por separado
utilizando el razonador Pellet proporcionado por la herramienta ya que es el de uso
más extendido.
6.8 Conclusiones
El uso de ontologías para el modelado semántico y la caracterización de escenas
proporciona una serie de ventajas que no se consiguen empleando otros
mecanismos y tecnologías.
134
CARACTERIZACIÓN SEMÁNTICA DE ESPACIOS
135
CAPÍTULO 6
136
7
7 INTEGRACIÓN Y PRUEBAS
DEL SISTEMA
137
CAPÍTULO 7
aplicación del sistema a otros dominios distintos al utilizado hasta ahora como
ejemplo. Finalmente, en la Sección 7.5 se exponen las principales conclusiones.
7.1 Integración
En las secciones 4, 5 y 6 se describe el diseño propuesto para la caracterización
semántica de escenarios. La arquitectura es modular, de manera que cada bloque
tiene su función particular para así comprender mejor el cometido de los mismos,
aportar escalabilidad al sistema y facilitar su adaptabilidad a diferentes campos de
aplicación.
138
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
7.1.1 Sensorización
El primer módulo es el encargado de la Sensorización. El video captado por el
propio sensor inteligente es procesado por él mismo, proporcionando información
acerca de los objetos de movimiento que aparecen en la escena. En la Figura 7.2
se pueden ver los diferentes subbloques de los que está compuesto y la información
obtenida en cada uno de ellos.
Para cada fotograma, se envía un archivo XML, a través de la red, con las
características de todos los objetos detectados en él. De cada elemento se incluye su
anchura, altura, posición (x, y), área, velocidad, dirección del movimiento, etc. Así
mismo, cada objeto tiene un identificador único para permitir su seguimiento a lo
largo de la escena.
En la Figura 7.3 aparece un ejemplo sencillo de XML para una escena en la que
solo hay un objeto en movimiento y un despliegue de dos sensores en la zona. Las
etiquetas <Objects> y </Objects> delimitan la información aportada por el sensor
visual y entre <Sensors> y </Sensors> la procedente de otros sensores. Dentro de
cada par de etiquetas <Object> y </Object> se incluyen los parámetros del
objeto detectado, de manera que, por cada elemento en movimiento descubierto,
aparecerá un par de estas marcas con su propia información. En el caso del resto
de sensores el proceso es similar salvo que, en este caso, la información
proporcionada por cada sensor aparece entre las etiquetas <Sensor>y </Sensor>.
Además, las etiquetas <ID></ID> y <SensorID></SensorID> delimitan los
identificadores que distinguen cada objeto y sensor respectivamente de manera
única.
139
CAPÍTULO 7
140
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
Figura 7.3. Ejemplo de fichero XML que el módulo de Sensorización envía al Detector de Rutas.
141
CAPÍTULO 7
SAX (Simple API for XML - http://www.saxproject.org/) es una API de Java que
permite la lectura secuencial de documentos XML. En este caso la API
funciona con eventos (SAX los va lanzando según recorre el documento y
detecta las distintas etiqueta)s. El fichero se va leyendo de manera secuencial
y no permite volver atrás.
142
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
En este caso se hace uso de Stax porque DOM y SAX son API's antiguas y para
utilizar JAXB se necesita generar un XSD (XML Schema Definition -
http://www.w3.org/TR/2012/REC-xmlschema11-1-20120405/), esquema del XML
a procesar, con lo que, si se realiza una modificación del mismo agregando una
nueva etiqueta, hay que realizar un nuevo XSD que la contemple, con el
consiguiente tiempo de desarrollo y la posibilidad de cometer errores, algo habitual
en esta tarea. Los objetos Java formados se envían al Algoritmo de Detección de
Rutas donde se les aplican algoritmos para la detección de regiones, ampliamente
descritos en la Sección 5 Modelado Espacial de la Escena: Detección de Rutas. Se
utiliza MATLAB para el procesamiento, en vez de realizar la implementación en
Java, por su potencia de cálculo para trabajar con gran cantidad de datos en
tiempo real. Para poder llevar a cabo este intercambio de información entre Java y
MATLAB se emplea MATLAB Builder JA
(http://www.mathworks.es/products/javabuilder/), que permite crear clases Java
desde MATLAB. Estas clases se integran en los programas Java y se pueden
desplegar en cualquier ordenador sin necesidad de tener MATLAB instalado,
simplemente utilizando el MATLAB Compiler Runtime (MCR). Sólo se ejecutan estos
algoritmos cuando el sistema está en modo aprendizaje identificando las distintas
zonas que aparecen en la imagen y determinando los valores correctos o normales
de los objetos que transcurren por la escena.
143
CAPÍTULO 7
clasificado las distintas zonas de la escena, se van identificando los nuevos objetos
que aparecen y se señalan las situaciones de alerta.
144
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
Figura 7.5. Implementación e integración del módulo que realiza el modelado ontológico.
145
CAPÍTULO 7
Para realizar todo el proceso se utiliza el framework Jena que maneja todas las
operaciones semánticas realizadas en Java.
Jena es un marco de código abierto para la Web Semántica escrito en Java basado
en las recomendaciones de W3C para RDF y OWL. Proporciona distintas APIs que
permiten el procesamiento de documentos escritos en ambos lenguajes Además
admite el uso de distintos tipos de razonadores así como la realización del proceso
de inferencia ontológico. Dentro de estas posibilidades se incluye un razonador
genérico basado en reglas que posibilita el razonado cuando se incluyen reglas
como complemento al modelo ontológico. Jena facilita también soporte para la
consulta de modelos RDF mediante RDQL y SPARQL.
Así mismo, las ontologías diseñadas están escritas en lenguaje OWL, lenguaje
estándar de marcado para publicar y compartir datos usando ontologías en la Web
Semántica, utilizando la herramienta de código libre Protégé.
En este proceso se realiza la clasificación de los distintos objetos y zonas. Este nuevo
conocimiento servirá como realimentación en la ontología persistente para futuros
razonamientos. Además, identifica si se está produciendo una alarma, concretando
al bloque Detector de Alarmas la información que posee de la misma (el tipo de
evento, localización de la incidencia, etc.), para generar un fichero XML (Figura 7.6)
que se envía a los servicios de emergencia o al centro de control según se haya
definido para esa alerta concreta.
146
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
147
CAPÍTULO 7
148
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
149
CAPÍTULO 7
150
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
Este escenario muestra un área del extrarradio de una ciudad. Corresponde a una
carretera de cuatro carriles, dos para cada sentido separados por una mediana.
Además, la carretera dispone de arcenes en ambos lados. En este escenario sólo
van a circular vehículos.
Igual que en el caso anterior, para este escenario se utiliza un video sintético
grabado dentro del proyecto HuSIMS.
Este caso de uso corresponde a un área urbana que incluye una carretera de dos
carriles en el mismo sentido. A ambos lados la misma hay aceras por las que
transitan peatones. En la Figura 7.10 puede verse la imagen captada por la
cámara.
En este caso se emplea un trozo del videojuego Grand Theft Auto IV, especialmente
grabado para la validación de esta Tesis Doctoral. Es un juego de acción-aventura
de mundo abierto desarrollado por Rockstar North.
151
CAPÍTULO 7
Este caso de uso muestra en un video real una intersección urbana. Las imágenes
proceden del proyecto ITEA CANDELA (disponible en
http://www.multitel.be/image/research-development/research-
projects/candela.php).
Este escenario se recurre a un video real de vigilancia de tráfico del MIT (disponible
en http://www.ee.cuhk.edu.hk/ ~ xgwang / MITtraffic.html).
Podría tratarse de un área urbana de cualquier ciudad. Una cámara monitoriza una
escena compuesta por varias carreteras y aceras controladas por semáforos, un
carril bici y los vehículos y las personas que se desplazan sobre ellos. La Figura 7.13
captura la imagen de este video.
152
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
153
CAPÍTULO 7
Durante el proceso de aprendizaje (ver Figura 7.7), las reglas definidas permiten
identificar los nuevos individuales como vehículos utilizando para ellos los valores de
altura, anchura y velocidad. Según se van detectando las rutas durante el proceso
de aprendizaje, se van posicionando los objetos dentro de las mismas. En función
de la clase a la que estos pertenecen, el proceso de inferencia determina que los
distintos caminos son carreteras. Además, la dirección, velocidad, etc., de los
objetos establece las características típicas de la vía.
154
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
Figura 7.14. Ejemplo de razonamiento semántico para vehículo circulando fuera de vía.
155
CAPÍTULO 7
Para evitar errores, el sistema verifica que este evento sucede un período de tiempo
mínimo antes de avisar al centro de control o los servicios de emergencia
adecuados. Una de las ventajas del enfoque semántico es que la alarma incluye
información detallada sobre el suceso que la causó. En algunos casos la situación
podría no merecer la atención de un operador humano (porque sucede muy a
menudo o no es extremadamente peligrosa), por lo que el sistema decide
automáticamente que la alarma no debe avanzar a la consola de control, si así se
ha definido en la ontología. En otros, el sistema de vigilancia podría accionar
automáticamente actuadores automáticos, en función de la especificación de las
condiciones semánticas para las respuestas autonomas a cada tipo de alarma.
156
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
Recordar que las direcciones se definen tomando como referencia las agujas del
reloj (6.6.1.1.1 Modelado de los objetos en movimiento).
Figura 7.15. Ejemplo de razonamiento semántico para vehículo circulando en dirección errónea.
Para comprobar que el vehículo está en la dirección correcta para la vía en la que
se ubica, el razonador analiza el valor de su propiedad hasDirection (en este caso el
está circulando en dirección 7.0). Como la dirección del vehículo no coincide con la
apropiada para la carretera, se produce una alarma de tipo wrongDirectionVehicle.
157
CAPÍTULO 7
158
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
Figura 7.17. Ejemplo de razonamiento semántico para un peatón cruzando por la carretera.
159
CAPÍTULO 7
160
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
Núm. de Duración Tiempo de Núm. de objetos N Núm. de Tiempo medio Tiempo medio Tiempo medio
escenario (s) procesado total /Máx. rutas total de procesado para detección para modelado
(s) objetos en (por de rutas (por semántico (por
fotograma fotograma) fotograma) (ms) fotograma) (ms)
(ms)
162
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
163
CAPÍTULO 7
164
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
Del análisis de las figuras se puede determinar que el módulo de detección de rutas
es el que más tiempo de procesado consume durante el periodo de aprendizaje,
produciéndose incrementos momentáneos importantes cuando se descubren nuevas
trayectorias cerradas. Estos máximos no dependen de la complejidad del escenario
sino que aumentan en número cuanto mayor cantidad de objetos se identifican.
Cuando se está funcionado en modo operación, la mayor parte de los esfuerzos los
consume el modelado semántico, por lo que se va a analizar cómo influye el
número de objetos y rutas en el tiempo requerido por este módulo.
165
CAPÍTULO 7
Figura 7.24. Tiempo de procesado de cada fotograma en función del número de objetos, rutas de la
imagen y los puntos de las mismas.
166
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
Núm. Núm. Núm. rutas Núm.
Núm. Núm. Núm. Núm. Road Núm. Núm. % %
Sidewalk Crosswalk no identificadas
escenario rutas Road identificadas Sidewalk Crosswalk identificadas erróneas
identificadas identificadas identificadas erróneamente
1 4 4 4 0 0 0 0 0 0 100% 0%
2 5 2 2 2 2 1 1 0 0 100% 0%
3 5 2 2 1 1 1 1 0 0 100% 0%
4 7 4 3 0 0 3 2 2 0 71,5% 0%
5 9 9 7 0 0 5 3 4 0 71,5% 0%
2 58 18 18 40 40 0 0 100% 0%
3 25 14 14 11 11 0 0 100% 0%
4 37 29 29 18 18 0 0 100% 0%
La Tabla 7.2 recoge los valores obtenidos, incluyendo los falsos positivos (rutas
identificadas erroneamente) y las rutas no detectadas. Indicar que los datos se han
tomado tras una ejecución normal del sistema, es decir, el módulo detector de rutas
deja de procesar durante el tiempo de operación. Analizando los resultados puede
observarse que, para escenarios sencillos, en cuanto a la identificación y
clasificación de rutas se obtienen precisiones del 100%, valor que se reducen según
se complica la escena.
La Tabla 7.4 recoge los resultados obtenidos para los diferentes escenarios en la
detección e identificación de situaciones anómalas.
168
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
169
CAPÍTULO 7
Figura 7.25. Control de acceso: puerta abierta, acceso de una persona al recinto.
Así para detectar la apertura de la puerta, habitualmente estática, sólo hay que
determinar que el objeto de la escena que se mueve es de la clase “puerta”. Si,
además, se identifica un peatón que la cruza, movimiento no definido por el
detector de rutas durante el aprendizaje, se registra una alerta “accesoPersona” que
en función del horario y del día de la semana (laborable o no), se convierte en
alarma.
170
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
171
CAPÍTULO 7
172
INTEGRACIÓN Y PRUEBAS DEL SISTEMA
7.5 Conclusiones
Para verificar que el mecanismo propuesto es adecuado para el fin descrito, se ha
testeado en distintos escenarios urbanos e interurbanos para el control de tráfico y
la detección de infracciones en estos entornos. Con ello, se ha determinado tanto la
eficiencia del sistema para su funcionamiento en tiempo real en diferentes
escenarios, como la precisión en la caracterización de las escenas e identificación
de alarmas, obteniendo resultados satisfactorios en ambos casos. Así pues, el
algoritmo descrito permite la interpretación de diferentes escenas de video de
diferente grado de complejidad en tiempo real.
Para finalizar, indicar que el sistema puede adaptarse de forma sencilla para su
funcionamiento en diferentes campos de aplicación. Además, hace uso, no sólo de
la información de movimiento proporcionada por los sensores visuales, sino que
también puede incluir otros datos del entorno, muy adecuado para su uso dentro de
las Smart Cities.
173
CAPÍTULO 7
174
8
8 CONCLUSIONES Y LÍNEAS
FUTURAS
175
CAPÍTULO 8
176
CONCLUSIONES Y LÍNEAS FUTURAS
La Tabla 8.1 recoge una comparativa entre los mecanismos actuales y las
aportaciones de esta Tesis Doctoral.
177
CAPÍTULO 8
Caracterización de
Recurren a la semántica sólo para Es semántico el razonamiento,
escenarios puramente
realizar el modelado de la escena identificación de objetos y
semántica utilizando las
utilizando otros mecanismos para lanzamiento de alarmas.
ontologías y reglas
identificar los objetos.
desarrolladas.
Se vale de la aplicación de
Utilización de No utilizan ontologías persistentes persistencia a las ontologías para
ontologías persistentes sino que emplean el razonamiento disponer de información de los
para el modelado de sobre los datos de la escena en el históricos y poder realimentar el
escenarios. momento actual. sistema con los resultados de
procesos de inferencia previos.
Los métodos existentes no incluyen
todas las características, en
algunos casos sólo alguna de El sistema posee todas las
ellas, habitualmente: siguientes características:
-Para la identificación de objetos -Sólo utiliza los parámetros de
suelen utilizar la forma, color, etc., movimiento de los objetos. No
para compararlos con imágenes utiliza parámetros adicionales
preestablecidas que sirven como como la forma, color, etc., por lo
Diseño e
modelo. que puede funcionar con
implementación de un
-Utilizan básicamente información imágenes de baja resolución
sistema integrado que a
visual y no pueden procesar la mejorando la privacidad.
partir de imágenes,
información heterogénea -Puede incluir información no sólo
incluso de baja
procedente de sensores del procedente de cámaras de video
resolución, indique, en
entorno. sino también es capaz de utilizar
lenguaje natural, la
-Suelen determinar los la procedente de otros sensores
situación de alarma.
comportamientos de los objetos que la complementen.
que aparecen en la escena no las -Identifica las situaciones
situaciones de alarma. anómalas en lenguaje natural.
-Los sistemas están centrados para -El sistema se adapta fácilmente
su funcionamiento en escenarios para funcionar en diferentes
controlados y su adaptación a dominios.
nuevas escenas suele ser
compleja.
178
CONCLUSIONES Y LÍNEAS FUTURAS
179
CAPÍTULO 8
8.2.2 Publicaciones
- Calavia, L., Baladrón, C., Aguiar, J. M., Carro, B., & Sánchez-Esguevillas, A.
(2012). A Semantic Autonomous Video Surveillance System for Dense Camera
Networks in Smart Cities. Sensors, 12(8), 10407-10429. ISSN 1424-8220.
Digital Object Identifier: 10.3390/s120810407.
Índice de impacto: 1.953 (Journal Citation Report ISI)
Área: Instruments & Instrumentation
Posición: #9/57 (Q1)
Año: 2012
- Fernández, J., Calavia, L., Baladrón, C., Aguiar, J. M., Carro, B., Sánchez-
Esguevillas, A., Alonso-López, J. A., & Smilansky, Z. (2013). An Intelligent
Surveillance Platform for Large Metropolitan Areas with Dense Sensor
Deployment. Sensors, 13(6), 7414-7442. ISSN 1424-8220. Digital Object
Identifier: 10.3390/s130607414.
Índice de impacto: 1.953 (Journal Citation Report ISI)
Área: Instruments & Instrumentation
Posición: #9/57 (Q1)
Año: 2012
Sin embargo, otros artículos incluyen investigaciones transversales que sirven como
base para la toma de decisiones y selección de tecnologías:
- Baladrón, C., Aguiar, J. M., Calavia, L., Carro, B., Sánchez-Esguevillas, A., &
Hernández, L. (2012). Performance Study of the Application of Artificial Neural
Networks to the Completion and Prediction of Data Retrieved by Underwater
Sensors. Sensors, 12(2), 1468-1481. ISSN 1424-8220. Digital Object
Identifier: 10.3390/s120201468
Índice de impacto: 1.953 (Journal Citation Report ISI)
Área: Instruments & Instrumentation
Posición: #9/57 (Q1)
Año: 2012
180
CONCLUSIONES Y LÍNEAS FUTURAS
- Baladrón, C., Aguiar, J. M., Carro, B., Calavia, L., Cadenas, A., & Sanchez-
Esguevillas, A. (2012). Framework for Intelligent Service Adaptation to User’s
Context in Next Generation Networks. IEEE Communications Magazine, 50(3),
18-25. ISSN: 0163-6804. Digital Object Identifier:
10.1109/MCOM.2012.6163578.
Índice de impacto: 3.661(Journal Citation Report ISI)
Área: Telecommunications
Posición: #3/77 (Q1)
Año: 2012
- Hernández, L., Baladrón, C., Aguiar, J. M., Calavia, L., Carro, B., Sánchez-
Esguevillas, A., Cook, D. J., Chinarro, D., & Gómez, J. (2012). A Study of the
Relationship between Weather Variables and Electric Power Demand inside a
Smart Grid/Smart World Framework. Sensors, 12(9), 11571-11591. ISSN
1424-8220. Digital Object Identifier: 10.3390/s120911571.
Índice de impacto: 1.953 (Journal Citation Report ISI)
Área: Instruments & Instrumentation
Posición: #9/57 (Q1)
Año: 2012
- Baladrón, C., Aguiar, J. M., Cadenas, A., Calavia, L., Carro, B., & Sánchez, A.
(2012). User Oriented Environment for Management of Convergent Services.
IEEE Communications Magazine, 50(11), 142-149. ISSN: 0163-6804. Digital
Object Identifier: 10.1109/MCOM.2012.6353694.
Índice de impacto: 3.661(Journal Citation Report ISI)
Área: Telecommunications
Posición: #3/77 (Q1)
Año: 2012
- Hernández, L., Baladrón, C., Aguiar, J. M., Calavia, L., Carro, B., Sánchez-
Esguevillas, A., García, P., & Lloret, J. (2013). Experimental Analysis of the
Input Variables’ Relevance to Forecast Next Day’s Aggregated Electric Demand
Using Neural Networks. Energies, 6(6), 2927-2948. ISSN 1996-1073. Digital
Object Identifier: 10.3390/en6062927.
Índice de impacto: 1.844 (Journal Citation Report ISI)
Área: Energy & Fuels
Posición: #38/81 (Q2)
Año: 2012
181
CAPÍTULO 8
- Hernández, L., Baladrón, C., Aguiar, J. M., Calavia, L., Carro, B., Sánchez-
Esguevillas, A., Sanjuán, J., González, A., & Lloret, J. (2013). Improved Short-
Term Load Forecasting Based on Two-Stage Predictions with Artificial Neural
Networks in a Microgrid Environment. Energies, 6(9), 4489-4507. ISSN 1996-
1073. Digital Object Identifier: 10.3390/en6094489.
Índice de impacto: 1.844 (Journal Citation Report ISI)
Área: Energy & Fuels
Posición: #38/81 (Q2)
Año: 2012
- Martínez, A., Baladrón, C., León, A., García, C., Calavia, L., Aguiar, J. M., &
Caetano, J. (2009). New Business Models: User Generated Services. IEEE Latin
America Transactions, 7(3), 395-399. ISSN: 1548-0992. Digital Object
Identifier: 10.1109/TLA.2009.5336640.
- Calavia, L., Baladrón, C., Aguiar, J. M., Carro, B., & Sánchez-Esguevillas, A.
(2011). QoS Traffic Mapping between WiMAX and DiffServ Networks. Network
Protocols and Algorithms, 3(3), 67-79. ISSN 1943-3581. Digital Object
Identifier: 10.5296/npa.v3i3.1063.
8.2.2.3 Conferencias
- Baladrón, C., Calavia, L., Aguiar, J. M., Carro, B., Sánchez Esguevillas, A., &
Alonso, J. (2011). Sistema de Detección de Alarmas de Videovigilancia
Basado en Análisis Semántico. XXI Jornadas Telecom I+D, Santander
(España), 28, 29 y 30 Septiembre 2011. ISBN: 978-84-694-7808-0.
- Martínez, A., Baladrón, C., León, A., García, C., Caetano, J., Calavia, L., &
Aguiar, J. M. (2008). Nuevos Modelos de Negocio: Servicios Generados por
el Usuario. XVIII Jornadas Telecom I+D, Bilbao (España), 29-31 Octubre
2008. ISBN-13: 978-84-9860-135-0.
182
CONCLUSIONES Y LÍNEAS FUTURAS
- Pérez, E., Calavia, L., Gobernado, J., Aguiar, J. M., Baladrón, C., & Carro, B.
(2010). Plataforma para Búsqueda de Servicios en Entornos Móviles. XX
Jornadas Telecom I+D, Valladolid (España), 27, 28 y 29 Septiembre 2010.
ISBN 978-84-89900-38-7.
- Ruano, M. A., Baladrón, C., Aguiar, J. M., Calavia, L., Carro, B., & Sánchez
Esguevillas, A. (2010). Servicios Innovadores Sobre Televisión Digital Terrestre.
XX Jornadas Telecom I+D, Valladolid (España), 27, 28 y 29 Septiembre 2010.
ISBN 978-84-89900-38-7.
- Calavia, L., Baladrón, C., Aguiar, J. M., Carro, B., & Sánchez, A. (2011).
Mapeo de Calidad de Servicio entre redes DiffServ y WiMAX. XXI Jornadas
Telecom I+D, Santander (España), 28, 29 y 30 Septiembre 2011. ISBN: 978-
84-694-7808-0.
- Calavia, L., Baladrón, C., Aguiar, J. M., Carro, B., & García, M. (2011).
Sistema de Búsqueda Semántica Basado en Triple Space. XXI Jornadas
Telecom I+D, Santander (España), 28, 29 y 30 Septiembre 2011. ISBN: 978-
84-694-7808-0.
- Baladrón, C., Aguiar, J. M., Calavia, L., Carro, B., Cadenas, A., de las Heras,
R., & Sanchez-Esguevillas, A. (2011). Platform for ubiquitous mobile service
composition, management and delivery. Conference on Next Generation Web
Services Practices (NWeSP), 2011 7th International, 43–48, Salamanca
(España), 19-21 Octubre 2011. ISBN: 978-1-4577-1125-1.
183
CAPÍTULO 8
8.2.2.5 Premios
8.3 Conclusiones
Si bien a lo largo de los Capítulos precedentes se han ido presentado de forma
exhaustiva las conclusiones derivadas de los diferentes análisis y estudios realizados,
se exponen a continuación de forma resumida los principales resultados obtenidos a
lo largo del presente trabajo.
Para lograr este objetivo, el paradigma en el que se basa HuSIMS consiste en utilizar
un procesado sencillo en las cámaras que únicamente detecte objetos en
movimiento, transmitir el resultado de este procesado especificando una serie de
parámetros de los objetos detectados (posición, tamaño, velocidad, dirección, etc.),
y trasladar gran parte de la inteligencia al centro de control, donde se efectuará un
análisis combinado de dichos parámetros en busca de comportamientos anómalos.
184
CONCLUSIONES Y LÍNEAS FUTURAS
185
CAPÍTULO 8
186
CONCLUSIONES Y LÍNEAS FUTURAS
187
CAPÍTULO 8
188
CONCLUSIONES Y LÍNEAS FUTURAS
189
CAPÍTULO 8
190
9 GLOSARIO DE ABREVIATURAS
191
TESIS DOCTORAL
EM Expectation–maximization
E/R Entity/Relationship
GG Gath-Geva
GK Gustafson-Kessel
GM Gaussian Model
GMM Gaussian Mixture Model
GPS Global Positioning System
192
GLOSARIO DE ABREVIATURAS
PC Partition Coeficient
PCA Principal Components Analysis
pdf Probability Density Function
PDM Point-Distribution Model
PLC Power Line Communications
S Separation Index
SAX Simple API for XML
193
TESIS DOCTORAL
SC Partition Index
SOM Self-Organizing Map
SON Self-Organizing Network
SPARQL SPARQL Protocol and RDF Query Language
Stax Streaming API for XML
SWRL Semantic Web Rule Language
194
10 BIBLIOGRAFÍA
[1] Williamson, A., Lombardi, D. A., Folkard, S., Stutts, J., Courtney, T. K., &
Connor, J. L. (2011). The link between fatigue and safety. Accident Analysis &
Prevention, 43(2), 498-515.
[2] Makris, D., & Ellis, T. (2005). Learning semantic scene models from observing
activity in visual surveillance. IEEE Transactions on Systems, Man and
Cybernetics B, 35(3), 397–408.
[3] Piciarelli, C., & Foresti, G. L. (2006). On-line trajectory clustering for
anomalous events detection. Pattern Recognition Letters, 27(15), 1835–1842.
[4] Li, X., Hu, W., & Hu, W. (2006). A coarse-to-fine strategy for vehicle motion
trajectory clustering. In 18th International Conference on Pattern Recognition
(ICPR 2006). Hong Kong, China, 22-24 August 2006 (Vol. 1, pp. 591-594).
[5] Morris, B. T., & Trivedi, M. M. (2008). Learning, modeling, and classification
of vehicle track patterns from live video. Intelligent Transportation Systems, IEEE
Transactions on, 9(3), 425-437.
[6] Foresti, G. L., Micheloni, C., Snidaro, L., Remagnino, P., & Ellis, T. (2005).
Active Video-Based Surveillance System: The Low-Level Image and Video
Processing Techniques Needed for Implementation. IEEE Signal Processing
Magazine, 22(2), 25-37.
[7] Hu, W., Tan, T., Wang, L., & Maybank, S. (2004). A survey on visual
surveillance of object motion and behaviors. Transactions on Systems, Man,
and Cybernetics, part C: Applications and Reviews, 34(3), 334–352.
[8] Rota, N., & Thonnat, M. (2000). Video Sequence Interpretation for Visual
Surveillance. In IEEE Workshop Visual Surveillance. Dublin, Ireland, 1 July
2000 (pp. 325-332).
[9] Assfalg, J., Bertini, M., Colombo, C., Del Bimbo, A., & Nunziati, W. (2003).
Semantic annotation of soccer videos: automatic highlights identification.
Computer Vision and Image Understanding, 92(2), 285-305.
[10] Aguilera, J., Thirde, D., Kampel, M., Borg, M., Fernandez, G., & Ferryman, J.
(2006). Visual surveillance for airport monitoring applications. In 11th
195
TESIS DOCTORAL
Computer Vision Winter Workshop. Telč, Czech Republic, 6-8 February 2006
(pp. 6-8).
[11] Geiger, A., Lauer, M., & Urtasun, R. (2011). A generative model for 3d urban
scene understanding from movable platforms. In IEEE Conference on
Computer Vision and Pattern Recognition (CVPR). Colorado Springs, CO, USA,
20-25 June 2011 (pp. 1945-1952).
[12] Montemerlo, M., Becker, J., Bhat, S., Dahlkamp, H., Dolgov, D., Ettinger, S.,
... & Thrun, S. (2008). Junior: The stanford entry in the urban challenge.
Journal of Field Robotics, 25(9), 569-597.
[13] Scharstein, D., & Szeliski, R. (2002). A taxonomy and evaluation of dense two-
frame stereo correspondence algorithms. International journal of computer
vision, 47(1-3), 7-42.
[14] Felzenszwalb, P. F., Girshick, R. B., McAllester, D., & Ramanan, D. (2010).
Object detection with discriminatively trained part-based models. Pattern
Analysis and Machine Intelligence, IEEE Transactions on, 32(9), 1627-1645.
[15] Ess, A., Leibe, B., Schindler, K., & Van Gool, L. (2009). Moving obstacle
detection in highly dynamic scenes. In IEEE International Conference on
Robotics and Automation (ICRA'09). Kobe, Japan, 12-17 May 2009 (pp. 56-
63).
[16] Gavrila, D. M., & Munder, S. (2007). Multi-cue pedestrian detection and
tracking from a moving vehicle. International journal of computer vision, 73(1),
41-59.
[17] Wojek, C., Roth, S., Schindler, K., & Schiele, B. (2010). Monocular 3d scene
modeling and inference: Understanding multi-object traffic scenes. In
Computer Vision–ECCV 2010. Crete, Greece, 5-11 September 2010 (pp.
467-481).
[18] Wojek, C., & Schiele, B. (2008). A dynamic conditional random field model for
joint labeling of object and scene classes. In Computer Vision–ECCV 2008.
Marseille, France, 12-18 October 2008 (Vol. 5305, pp. 733-747).
[19] Sturgess, P., Alahari, K., Ladicky, L., & Torr, P. (2009). Combining appearance
and structure from motion features for road scene understanding. In British
Machine Vision Conference (BMVC). London, UK, 7-10 September 2009.
196
BIBLIOGRAFÍA
197
TESIS DOCTORAL
198
BIBLIOGRAFÍA
199
TESIS DOCTORAL
200
BIBLIOGRAFÍA
[61] Raman, R. M., Chandran, M. S., & Vinotha, S. R. (2011). Motion Based
Security Alarming System for Video Surveillance. In International Conference on
Computational Techniques and Artificial Intelligence (ICCTAI'2011). Pattaya,
Thailand, 7-8 October 2011.
[62] SanMiguel, J. C., & Martínez, J. M. (2012). A semantic-based probabilistic
approach for real-time video event recognition. Computer Vision and Image
Understanding, 116(9), 937-952.
[63] Craven, M., & Kumilien, J. (1999). Constructing Biological Knowledge Bases
by Extracting Information from Text Sources. In 7th International Conference on
Intelligent Systems for Molecular Biology. Heidelberg, Germany, 6-10 August
1999.
[64] Nguyen, N. T., Bui, H. H., Venkatsh, S., & West, G. (2003). Recognizing and
monitoring high-level behaviors in complex spatial environments. In
Proceedings of the 2003 IEEE Computer Society Conference on Computer
Vision and Pattern Recognition. Madison, WI, USA, 16-22 June 2003 (Vol. 2,
pp. II-620).
[65] Ivanov, Y. A., & Bobick, A. F. (2000). Recognition of visual activities and
interactions by stochastic parsing. Pattern Analysis and Machine Intelligence,
IEEE Transactions on, 22(8), 852-872.
[66] Remagnino, P., Shihab, A. I., & Jones, G. A. (2004). Distributed intelligence for
multi-camera visual surveillance. Pattern recognition, 37(4), 675-689.
[67] Ko, M. H., West, G., Venkatesh, S., & Kumar, M. (2008). Using dynamic time
warping for online temporal fusion in multisensor systems. Information Fusion,
9(3), 370-388.
[68] Kim, Y. T., & Chua, T. S. (2005). Retrieval of news video using video sequence
matching. In Proceedings of the 11th International Multimedia Modelling
Conference (MMM 2005). Melbourne, Australia, 12-14 January 2005 (pp.
68-75).
[69] Morris, B., & Trivedi, M. M. (2009). Learning Trajectory Patterns by Clustering:
Experimental Studies and Comparative Evaluation. In IEEE Conference on
Computer Vision and Pattern Recognition. Miami, FL, USA, 20-25 June 2009
(pp. 312–319).
[70] Zhang, Z., Huang, K., & Tan, T. (2006). Comparison of Similarity Measures for
Trajectory Clustering in Outdoor Surveillance Scenes. In 18th International
201
TESIS DOCTORAL
202
BIBLIOGRAFÍA
[80] Fensel, D. (2000). Ontologies: A silver bullet for knowledge management and
electronic commerce. Springer.
[81] Buitelaar, P., Cimiano, P., & Magnini, B. (2005). Ontology Learning from Text:
Methods, Evaluation and Applications. Frontiers in Artificial Intelligence and
Applications. IOS Press.
[82] Whitehouse, K., Liu, J., & Zhao, F. (2006). Semantic Streams: a Framework for
Composable Inference over Sensor Data. In The Third European Workshop on
Wireless Sensor Networks (EWSN), Springer-Verlag Lecture Notes in Computer
Science. Zurich, Switzerland, 13-15 February 2006 (pp. 5-20).
[83] Arslan, U., Emin Dönderler, M., Saykol, E., Ulusoy Ö., & Güdükbay, U.
(2002). A Semi-Automatic Semantic Annotation Tool for Video Databases. In
Proceedings of the Workshop on Multimedia Semantics. Milovy, Czech
Republic, 24-29 November 2002 (pp. 1-10).
[84] Nakamura, E. F., Loureiro, A. A. F., & Frery, A. C. (2007). Information fusion
for Wireless Sensor Networks: Methods, models and classifications. ACM
Computing Surveys, 39(3).
[85] Friedlander, D., & Poha, S. (2002). Semantic information fusion for
coordinated signal processing in mobile sensor networks. International Journal
of High Performance Computing Applications, 16(3), 235–241.
[86] Marraud, D., Cepas, B., & Reithler, L. (2009). Semantic Browsing of Video
Surveillance Databases through Online Generic Indexing. In Third ACM/IEEE
International Conference on Distributed Smart Cameras (ICDSC 2009), IEEE
Conference on Advanced Video and Signal Based Surveillance. Como, Italy,
30 August – 2 September 2009 (pp. 1-8).
[87] Francois, A. R, Nevatia, R., Hobbs, J., & Bolles, R. C. (2005).VERL: An
Ontology Framework for Representing and Annotating Video Events. IEEE
MultiMedia, 12(4), 76-86.
[88] Poppe, C., Martens, G., De Potter, P., & De Walle, R. V. (2012). Semantic web
technologies for video surveillance metadata. Multimedia Tools and
Applications, 56(3), 439-467.
[89] Faure, D., & N’Edellec, C. (1998). ASIUM: Learning sub-categorization frames
and restrictions of selection. In Proceedings of the 10th Conference on
Machine Learning– Workshop on Text Mining. Chemnitz, Germany, 21-23
April 1998.
203
TESIS DOCTORAL
[90] Tanev, H., & Magnini, B. (2006). Weakly Supervised Approaches for Ontology
Population. In Proceedings of 11th Conference of the European Chapter of the
Association for Computational Linguistics (EACL 2006). Trento, Italy, 3-7 April
2006 (pp. 129-143).
[91] Cimiano, P., & Völker. J. (2005). Towards large-scale,open-domain and
ontology-based named entity classification. In Proceedings of the International
Conference on Recent Advances in Natural Language Processing (RANLP
2005). Borovets, Bulgaria, 24 September 2005 (pp. 166–172).
[92] Pavlidis, I., Morellas, V., Tsiamyrtzis, P., & Harp, S. (2001). Urban surveillance
systems: from the laboratory to the commercial world. Proceedings of the IEEE,
89(10), 1478-1497.
[93] Cai, Q., & Aggarwal, J. K. (1996). Tracking human motion using multiple
cameras. In Proceedings of the 13th International Conference on Pattern
Recognition. Vienna, Austria, 25-29 August 1996 (Vol. 3, pp. 68-72).
[94] Krumm, J., Harris, S., Meyers, B., Brumitt, B., Hale, M., & Shafer, S. (2000).
Surveillance Multi-camera multi-person tracking for easyliving. In Proceedings
of the Third IEEE International Workshop on Visual Surveillance. Dublin,
Ireland, 1 July 2000 (pp. 3-10).
[95] Javed, O., Khan, S., Rasheed, Z., & Shah, M. (2000). Camera handoff:
tracking in multiple uncalibrated stationary cameras. In Proceedings of the
Workshop on Human Motion. Austin, TX, USA, 7-8 December 2000 (pp. 113-
118).
[96] Baladrón, C., Cadenas, A., Aguiar, J. M., Carro, B., & Sánchez-Esguevillas, A.
(2010). Multi-Level context management and inference framework for smart
telecommunication services. Journal of Universal Computer Science, 16,
1973–1991.
[97] Lo, B. P. L., Sun, J., & Velastin, S. A. (2003). Fusing visual and audio
information in a distributed intelligent surveillance system for public transport
systems. Acta Automatica Sinica, 29(3), 393-407.
[98] Velastin, S. A., Khoudour, L., Lo, B. P. L., Sun, J., & Vicencio-Silva, M. A.
(2004). PRISMATICA: A multi-sensor surveillance system for public transport
networks. In 12th IEE International Conference on Road Transport Information
and Control (RTIC 2004). London, UK, 20-22 April 2004 (pp. 19-25).
204
BIBLIOGRAFÍA
[99] Dee, H. M., Fraile, R., Hogg, D. C., & Cohn, A. G. (2008). Modelling scenes
using the activity within them. In Proceedings of the International Conference
on Spatial Cognition VI: learning, reasoning, and talking about space.
Freiburg, Germany, 15-19 September 2008 (pp. 394-408).
[100] Mallot, H. A., Biilthoff, H. H., Little, J. J., & Bohrer, S. (1991). Inverse
perspective mapping simplifies optical flow computation and obstacle
detection. Biological Cybernetics, 64, 177-185.
[101] Roberts, L. (2004). History of Video Surveillance and CCTV. WE C U
Surveillance. Disponible online: http://www.wecusurveillance.com/cctvhistory
(Última visita: Abril 2013).
[102] Belbachir, A. N., & Göbel, P. M. (2010). Smart Cameras: A Historical
Evolution. In A. N. Belbachir (Ed.), Smart Cameras (pp. 3-17). Springer US.
[103] Thompson, M. (1985). Maximizing CCTV Manpower. Security World, 22(6),
41-44.
[104] Rodger, R. M., Grist, I. J., & Peskett, A. O. (1994). Video motion detection
systems: a review for the nineties. In Proceedings of the Security Technology.
28th Annual 1994 International Carnahan Conference on Institute of Electrical
and Electronics Engineers. Albuquerque, NM, USA, 12-14 October 1994 (pp.
92-97).
[105] Michalopoulos, P., Wolf, B., & Benke, R. (1990). Testing and Field
Implementation of the Minnesota Video Detection System (AUTOSCOPE).
Transportation Research Record, 1287, 176-184.
[106] Kaneda, K., Nakamae, E., Takahashi, E., & Yazawa, K. (1990). An unmanned
watching system using video cameras. Computer Applications in Power, IEEE,
3(2), 20-24.
[107] Hampapur, A., Brown, L., Connell, J., Ekin, A., Haas, N., Lu, M., ... &
Pankanti, S. (2005). Smart video surveillance: exploring the concept of
multiscale spatiotemporal tracking. Signal Processing Magazine, IEEE, 22(2),
38-51.
[108] Rinner, B., & Wolf, W. (2008). An introduction to distributed smart cameras.
Proceedings of the IEEE, 96(10), 1565-1575.
[109] Rinner, B., Winkler, T., Schriebl, W., Quaritsch, M., & Wolf, W. (2008). The
evolution from single to pervasive smart cameras. In Second ACM/IEEE
205
TESIS DOCTORAL
206
BIBLIOGRAFÍA
[119] Tsai, L. W., Hsieh, J. W., Chuang, C. H., & Fan, K. C. (2008). Lane detection
using directional random walks. In 2008 IEEE Intelligent Vehicles Symposium.
Eindhoven, the Netherlands, 4-6 June 2008 (pp. 303-306).
[120] Fernyhough, J. H., Cohn, A. G., & Hogg, D. C. (1996). Generation of
Semantic Regions from Image Sequences. In B. Buxton & R. Cipolla (Eds.),
Computer Vision (pp. 475-478). Springer Berlin Heidelberg.
[121] Howarth, R. J., & Buxton, H. (1992). Analogical Representation of Spatial
Events for Understanding Traffic Behavior. In B. Neumann (Ed.), 10th European
Conference on Artificial Intelligence. Vienna, Austria, 3-7 August 1992 (pp.
785-789).
[122] Makris, D., & Ellis, T. (2003). Automatic learning of an activity-based semantic
scene model. In IEEE Conference on Advanced Video and Signal Based
Surveillance. Miami, FL, USA, 21-22 July 2003 (pp. 183-188).
[123] MacQueen, J. B. (1967). Some methods for classification and analysis of
multivariate observations. In L. Lecam & J. Neyman (Eds.), Proceedings of the
Fifth Symposium on Math, Statistics, and Probability. Berkeley, CA, USA, 21
June, 18 July 1965 (Vol. 1, pp. 281-297).
[124] Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). Maximum likelihood from
incomplete data via the EM algorithm. Journal of the Royal Statistical Society.
Series B (Methodological), 1-38.
[125] Brandle, N., Bauer, D., & Seer, S. (2006). Track-based finding of stopping
pedestrians-a practical approach for analyzing a public infrastructure. In IEEE
Intelligent Transportation Systems Conference (ITSC'06). Toronto, Canada, 17-
20 September 2006 (pp. 115-120).
[126] Morris, B. T., & Trivedi, M. M. (2008). A survey of vision-based trajectory
learning and analysis for surveillance. IEEE Transactions on Circuits and
Systems for Video Technology, 18(8), 1114–1127.
[127] Hu, W., Xiao, X., Fu, Z., & Xie, D. (2006). A system for learning statistical
motion patterns. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 28(9), 1450-1464.
[128] Hu, W., Xiao, X., Xie, D., Tan, T., & Maybank, S. (2004). Traffic accident
prediction using 3-D model-based vehicle tracking. Vehicular Technology, IEEE
Transactions on, 53(3), 677-694.
207
TESIS DOCTORAL
208
BIBLIOGRAFÍA
[138] Atev, S., Masoud, O., & Papanikolopoulos, N. (2006). Learning traffic patterns
at intersections by spectral clustering of motion trajectories. In 2006 IEEE/RSJ
International Conference on Intelligent Robots and Systems. Beijing, China, 9-
15 October 2006 (pp. 4851-4856).
[139] Fu, Z., Hu, W., & Tan, T. (2005). Similarity based vehicle trajectory clustering
and anomaly detection. In IEEE International Conference on Image Processing
(ICIP 2005). Genoa, Italy, 11-14 September 2005 (Vol. 2, pp. II-602).
[140] Keogh, E. J., & Pazzani, M. J. (2000). Scaling up dynamic time warping for
datamining applications. In Proceedings of the sixth ACM SIGKDD
international conference on Knowledge discovery and data mining. Boston,
MA, USA, 20-23 August 2000 (pp. 285-289).
[141] Rabiner, L., & Juang, B. H. (1993). Fundamentals of speech recognition.
Prentice Hall.
[142] Vlachos, M., Kollios, G., & Gunopulos, D. (2002). Discovering similar
multidimensional trajectories. In Proceedings of the 18th International
Conference on Data Engineering. San Jose, CA, USA, 26 February – 1 March
2002 (pp. 673-684).
[143] Buzan, D., Sclaroff, S., & Kollios, G. (2004). Extraction and clustering of
motion trajectories in video. In Proceedings of the 17th International
Conference on Pattern Recognition (ICPR 2004). Cambridge, UK, 23-26
August 2004 (Vol. 2, pp. 521-524).
[144] Lou, J., Liu, Q., Tan, T., & Hu, W. (2002). Semantic Interpretation of Object
Activities in a Surveillance System. In Proceedings 16th International Conference
on Pattern Recognition (ICPR’02). Québec City, Canada, 11-15 August 2002
(Vol. 3, pp. 777-780).
[145] Jain, A. K., Murty, M. N., & Flynn, P. J. (1999). Data clustering: a review. ACM
computing surveys (CSUR), 31(3), 264-323.
[146] Berkhin, P. (2006). A survey of clustering data mining techniques. In Grouping
multidimensional data (pp. 25-71). Springer Berlin Heidelberg.
[147] Lin, J., Vlachos, M., Keogh, E., & Gunopulos, D. (2004). Iterative incremental
clustering of time series. In Advances in Database Technology-EDBT 2004.
Crete, Greece, 14-18 March 2004 (pp. 106-122).
[148] Kohonen, T. (1990). The self-organizing map. In Proceedings of the IEEE,
78(9), 1464-1480.
209
TESIS DOCTORAL
[149] Johnson, N., & Hogg, D. (1996). Learning the Distribution of Object
Trajectories for Event Recognition. Image and Vision Computing. 14(8), 609-
615.
[150] Sumpter, N., & Bulpitt, A. (2000). Learning Spatio-Temporal Patterns for
Predicting Object Behavior. Image and Vision Computing. 18(9), 697-704.
[151] Jiao, L., Wu, Y., Wu, G., Chang, E. Y., & Wang, Y. F. (2004). Anatomy of a
multicamera video surveillance system. Multimedia systems, 10(2), 144-163.
[152] Basharat, A., Gritai, A., & Shah, M. (2008). Learning object motion patterns
for anomaly detection and improved object detection. In IEEE Conference on
Computer Vision and Pattern Recognition (CVPR). Anchorage, AK, USA, 23-28
June 2008 (pp. 1-8).
[153] Anjum, N., & Cavallaro, A. (2008). Multi-Feature Object Trajectory Clustering
for Video Analysis. IEEE Transactions on Circuits and Systems for Video
Technology, 18(11), 1555-1564.
[154] Reiss, M., & Taylor, J. G. (1991). Storing temporal sequences. Neural
networks, 4(6), 773-787.
[155] Boyd, J. E., Meloche, J., & Vardi, Y. (1999) Statistical Tracking in Video Traffic
Surveillance. In Proceedings of the Seventh International Conference on
Computer Vision. Kerkyra, Greece, 20-27 September 1999 (pp. 163-168).
[156] Sudderth, E., Hunter, E., Kreutz-Delgado, K., Kelly, P. H., & Jain, R. (1998).
Adaptive video segmentation: theory and real-time implementation. In DARPA
Image Understanding Workshop. Monterey, CA, USA, 20-23 November 1998
(Vol. 1, pp. 177-181).
[157] Wang, X., Tieu, K., & Grimson, E. (2006). Learning Semantic Scene Models by
Trajectory Analysis. In Proceedings of the 9th European Conference on
Computer Vision. Graz, Austria, 7-13 May 2006, (pp. 110–123).
[158] Huttenlocher, D. P., Klanderman, G. A., & Rucklidge, W. J. (1993).
Comparing images using the Hausdorff distance. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 15(9), 850-863.
[159] Balasko, B., Abonyi, J., & Feil, B. Fuzzy Clustering and Data Analysis Toolbox
for use with MATLAB. Department of Process Engineering University of
Veszprem, Hungría. http://www.abonyilab.com/software-and-
data/fclusttoolbox (Última visita: Noviembre 2012).
210
BIBLIOGRAFÍA
211
TESIS DOCTORAL
[171] Daszykowski, M., Walczak, B., & Massart, D.L. (2001). Looking for Natural
Patterns in Data. Part 1: Density Based Approach. Chemometrics and
Intelligent Laboratory Systems, 56(2), 83-92.
[172] Minsky, M. (1975). A framework for representing knowledge. In P.H. Winston
(Ed.), The Psychology of Computer Vision (pp. 211-217). McGraw Hill.
[173] Quillian, M. R. (1967). Word concepts: A theory and simulation of some basic
semantic capabilities. Behavioral Science, 12(5), 410-430.
[174] Newell, A. (1973). Production Systems: Models of Control Structures. Visual
Information Processing. New York: Academic Press.
[175] Hammer, E. M. (1998). Semantics for existential graphs. Journal of
Philosophical Logic, 27(5), 489-503.
[176] Fensel, D., McGuiness, D. L., Schulten, E., Ng, W. K., Lim, G. P., & Yan, G.
(2001). Ontologies and electronic commerce. Intelligent Systems, IEEE, 16(1),
8-14.
[177] Weigand, H. (1997). A multilingual ontology-based lexicon for news filtering|
the TREVI project. In IJCAI Workshop on Ontologies and Multilingual NLP.
International Joint Conference on Artificial Intelligence. Nagoya, Japan, 3
August 1997.
[178] Gruber, T. R. (1993). A translation approach to portable ontology
specifications. Knowledge acquisition, 5(2), 199-220.
[179] Hendler, J. (2001). Agents and the semantic web. Intelligent Systems, IEEE,
16(2), 30-37.
[180] Chandrasekaran, B., Josephson, J. R., & Benjamins, V. R. (1999). What are
ontologies, and why do we need them?. Intelligent Systems and Their
Applications, IEEE, 14(1), 20-26.
[181] Guarino, N., & Poli, R. (1995). Formal ontology, conceptual analysis and
knowledge representation. International Journal of Human Computer Studies,
43(5), 625-640.
[182] McGuinness, D. L., Fikes, R., Hendler, J., & Stein, L. A. (2002). DAML+ OIL:
an ontology language for the Semantic Web. Intelligent Systems, IEEE, 17(5),
72-80.
[183] Gomez-Perez, A., Corcho-Garcia, O., & Fernandez-Lopez, M. (2004).
Ontological engineering. Computing Reviews, 45(8), 478-479.
212
BIBLIOGRAFÍA
[184] Zhou, J., Ma, L., Liu, Q., Zhang, L., Yu, Y., & Pan, Y. (2006). Minerva: A
scalable OWL ontology storage and inference system. In The Semantic Web–
ASWC 2006. Beijing, China, 3-7 September 2006 (pp. 429-443).
[185] del Mar Roldan-Garcia, M., & Aldana-Montes, J. F. (2005). A Tool for Storing
OWL Using Database Technology. In Proceedings of the OWLED 2005
Workshop on OWL: Experiences and Directions. Galway, Ireland, 11-12
November 2005.
[186] Pan, Z., & Heflin, J. (2004). DLDB: Extending relational databases to support
semantic web queries. Lehigh University, Bethlehem PA, Department of
Computer Science and Electrical Engineering. http://www.dtic.mil/cgi-
bin/GetTRDoc?Location=U2&doc=GetTRDoc.pdf&AD=ADA451847 (Última
visita: Noviembre 2012).
[187] Khalid, A., Shah, S. A. H., & Qadir, M. A. (2009). OntRel: An Ontology
Indexer to store OWL-DL Ontologies and its Instances. In International
Conference of Soft Computing and Pattern Recognition (SOCPAR'09).
Malacca, Malaysia, 4-7 December 2009 (pp. 478-483).
[188] Jeong, D., Choi, M., Jeon, Y. S., Han, Y. H., Yang, L. T., Jeong, Y. S., & Han,
S. K. (2007). Persistent storage system for efficient management of OWL web
ontology. In 4th International Conference of Ubiquitous Intelligence and
Computing (UIC 2007). Hong Kong, China, 11-13 July 2007 (pp. 1089-
1097).
[189] Apache Jena. Semantic Web Framework for Java. Disponible online:
http://jena.sourceforge.net/ontology/index.html (Última visita: Abril 2013).
[190] Fensel, D., Van Harmelen, F., Horrocks, I., McGuinness, D. L., & Patel-
Schneider, P. F. (2001). OIL: An ontology infrastructure for the semantic web.
Intelligent Systems, IEEE, 16(2), 38-45.
[191] Decker, S., Melnik, S., Van Harmelen, F., Fensel, D., Klein, M., Broekstra, J.,
... & Horrocks, I. (2000). The semantic web: The roles of XML and RDF.
Internet Computing, IEEE, 4(5), 63-73.
[192] McGuinness, D. L., & Van Harmelen, F. (2004). OWL web ontology language
overview. W3C recommendation, 10(2004-03), 10.
[193] Motik, B., Sattler, U., & Studer, R. (2005). Query answering for OWL-DL with
rules. Web Semantics: Science, Services and Agents on the World Wide Web,
3(1), 41-60.
213
TESIS DOCTORAL
[194] Horrocks, I., & Patel-Schneider, P. F. (2004). A proposal for an OWL rules
language. In Proceedings of the 13th international conference on World Wide
Web. New York, NY, USA, 17-22 May 2004 (pp. 723-731).
[195] Horrocks, I., Patel-Schneider, P. F., Bechhofer, S., & Tsarkov, D. (2005). OWL
rules: A proposal and prototype implementation. Web Semantics: Science,
Services and Agents on the World Wide Web, 3(1), 23-40.
[196] Bertini, M., Del Bimbo, A., & Serra, G. (2008). Learning ontology rules for
semantic video annotation. In Proceedings of the 2nd ACM workshop on
Multimedia semantics. Vancouver, Canada, 26- 31 October 2008 (pp. 1-8).
[197] Carroll, J. J., Dickinson, I., Dollin, C., Reynolds, D., Seaborne, A., & Wilkinson,
K. (2004). Jena: implementing the semantic web recommendations. In
Proceedings of the 13th international World Wide Web conference on
Alternate track papers & posters. New York, NY, USA, 17-22 May 2004 (pp.
74-83).
[198] Meditskos, G., & Bassiliades, N. (2010). DLEJena: A practical forward-
chaining OWL 2 RL reasoner combining Jena and Pellet. Web Semantics:
Science, Services and Agents on the World Wide Web, 8(1), 89-94.
[199] Sirin, E., Parsia, B., Grau, B. C., Kalyanpur, A., & Katz, Y. (2007). Pellet: A
practical owl-dl reasoner. Web Semantics: science, services and agents on the
World Wide Web, 5(2), 51-53.
[200] Newell, A., & Simon, H. A. (1972). Human problem solving (Vol. 14).
Englewood Cliffs, NJ: Prentice-Hall.
[201] Salminen, A., & Tompa, F. (2011). Why Use XML?. Communicating with XML
(pp. 69-91). Springer US.
[202] Lin, D. T., & Chen, Y. T. (2011). Pedestrian and Vehicle Classification
Surveillance System for Street-Crossing Safety. In The 2011 International
Conference on Image Processing, Computer Vision, and Pattern Recognition.
Las Vegas, NV, USA, 18-21 July 2011.
[203] Lee, P. H., Chiu, T. H., Lin, Y. L., & Hung, Y. P. (2009). Real-time pedestrian
and vehicle detection in video using 3d cues. In IEEE International Conference
on Multimedia and Expo (ICME 2009). New York, NY, USA, 28 June - 3 July
2009 (pp. 614-617).
214