Conocimiento Bóveda 5 /9 - CVPR 2015
Conjunto de Árboles Espacio-Temporal para el Reconocimiento de Acciones
Shugao Ma, Leonid Sigal, Stan Sclaroff
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef action fill:#f9d4d4, font-weight:bold, font-size:14px classDef structure fill:#d4f9d4, font-weight:bold, font-size:14px classDef trees fill:#d4d4f9, font-weight:bold, font-size:14px classDef learning fill:#f9f9d4, font-weight:bold, font-size:14px classDef experiments fill:#f9d4f9, font-weight:bold, font-size:14px A["Conjunto de Árboles Espacio-Temporal
para el Reconocimiento de Acciones"] --> B["Reconociendo acciones en videos 1"] A --> C["Acciones: movimientos corporales estructurados 2"] C --> D["Enfoques anteriores descartan
o capturan débilmente la estructura 3"] A --> E["Árboles espacio-temporales modelan acciones 4"] E --> F["Aristas del árbol: tiempo, espacio, jerarquía 5"] E --> G["Colecciones de árboles capturan
variación, coincidencia parcial 6"] G --> H["Árboles eficientes, gráficos aproximados 7"] E --> I["Componentes del árbol aprendidos de datos 8"] I --> J["Palabras de acción comparten parámetros,
reducen complejidad 9"] E --> K["Conjunto de árboles clasifica acciones 10"] A --> L["Aprendizaje de palabras de acción:
agrupamiento discriminativo 11"] A --> M["Aprendizaje de árboles: minería de
subárboles frecuentes 12"] M --> N["Minería, agrupamiento, clasificación
para conjunto compacto 13"] A --> O["Coincidencia permite coincidencias parciales, usa DP 14"] A --> P["Experimentos: UCF Sports, Hi5 15"] P --> Q["Supera bolsa de palabras por ~80% 16"] P --> R["Supera métodos de estructura
predefinida que necesitan bboxes 17"] P --> S["Árboles más grandes más discriminativos 18"] A --> T["Inferencia coincide nodos
con regiones a lo largo del tiempo 19"] A --> U["Generalización entre conjuntos de datos:
árboles Hi5 superan métodos recientes 20"] A --> V["Método descubre árboles de acción
espacio-temporales 21"] A --> W["Conjunto de árboles captura rica
estructura para clasificación 22"] A --> X["Resultados prometedores, generalización mostrada 23"] A --> Y["Sensibilidad a la calidad de
segmentación de video 24"] Y --> Z["Experimentos en buenos
videos de 400x600 25"] Y --> AA["Aprendizaje proporciona cierta
robustez al ruido 26"] A --> AB["Póster: más resultados 27"] A --> AC["Pregunta sobre sensibilidad al
ruido de segmentación 28"] AC --> AD["Usa segmentación ICSU 2013 29"] Y --> AE["Resolución, calidad impactan
segmentación, aprendizaje ayuda 30"] class A,B,C action class D,E,F,G,H,I,J,K,L,M,N,O,T,V,W structure class P,Q,R,S,U,X,AB experiments class Y,Z,AA,AC,AD,AE learning

Resumen:

1.- Reconocimiento de acciones humanas: Reconociendo acciones en secuencias de video

2.- Acciones como movimientos corporales estructurados: Espacial, temporal, jerárquico

3.- Enfoques anteriores: Bolsa de palabras descarta estructura, pirámides espacio-temporales solo la capturan débilmente

4.- Árboles espacio-temporales modelan acciones: Nodos raíz para todo el cuerpo, nodos de parte para partes del cuerpo

5.- Aristas del árbol representan tiempo, espacio, jerarquía

6.- Colección de árboles por acción para variación y coincidencia parcial

7.- Árboles eficientes para inferir, colecciones aproximan gráficos

8.- Componentes del árbol (nodos, aristas, pesos) aprendidos de datos

9.- Palabras de acción comparten parámetros entre árboles, reduciendo complejidad

10.- Conjunto de árboles utilizado para clasificar acciones

11.- Aprendizaje de palabras de acción: Agrupamiento discriminativo de segmentos espacio-temporales de raíz/parte

12.- Aprendizaje de árboles: Gráficos de segmentos espacio-temporales jerárquicos minados para subárboles frecuentes

13.- Minería de árboles, agrupamiento, clasificación para obtener conjunto compacto

14.- Coincidencia de árbol a gráfico permite coincidencias parciales, usa DP

15.- Experimentos en conjuntos de datos UCF Sports y Hi5

16.- Supera bolsa de palabras con las mismas características por ~80%

17.- Supera métodos de estructura predefinida que necesitan etiquetas de bbox

18.- Árboles más grandes capturando estructuras más complejas son más discriminativos

19.- Ejemplo de inferencia coincide nodos de árbol con regiones de video a lo largo del tiempo

20.- Generalización entre conjuntos de datos: Árboles Hi5 superan métodos recientes en Hollywood3D sin usar profundidad

21.- Método descubre automáticamente árboles de acción espacio-temporales

22.- Conjunto de árboles captura rica estructura para clasificación

23.- Resultados prometedores y generalización entre conjuntos de datos mostrada

24.- Modelo es sensible a la calidad de segmentación de video

25.- Experimentos en videos de buena resolución 400x600

26.- Enfoque de aprendizaje proporciona robustez a cierto ruido

27.- Póster demostrará más resultados

28.- Pregunta sobre sensibilidad al ruido de segmentación

29.- Usa método de segmentación ICSU 2013

30.- Resolución y calidad impactan segmentación, pero el aprendizaje proporciona cierta robustez

Bóveda del Conocimiento construida por David Vivancos 2024