Conocimiento Bóveda 5 /17 - CVPR 2016
Solo Miras Una Vez: Detección de Objetos Unificada y en Tiempo Real.
Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef yolo fill:#f9d4d4, font-weight:bold, font-size:14px classDef detection fill:#d4f9d4, font-weight:bold, font-size:14px classDef speed fill:#d4d4f9, font-weight:bold, font-size:14px classDef training fill:#f9f9d4, font-weight:bold, font-size:14px classDef future fill:#f9d4f9, font-weight:bold, font-size:14px A["Solo Miras Una Vez:
Detección de Objetos
Unificada y en Tiempo Real."] --> B["YOLO: detección de objetos unificada en tiempo real. 1"] A --> C["Detección de objetos: dibujar cajas, identificar objetos. 2"] C --> D["Métodos anteriores precisos pero lentos. 3"] C --> E["Trabajo reciente aceleró R-CNN. 4"] B --> F["YOLO más rápido, ligera pérdida de precisión. 5"] B --> G["Red neuronal única predice detecciones. 6"] G --> H["Imagen dividida en cuadrícula SxS. 7"] H --> I["Celdas predicen cajas, confianza, clases. 8"] I --> J["Confianza refleja presencia de objeto, ajuste. 9"] I --> K["Mapa de probabilidad de clase como segmentación. 10"] I --> L["Puntuaciones de confianza de probabilidades, umbrales. 11"] I --> M["Supresión no máxima elimina duplicados. 12"] B --> N["Salida fija permite optimización. 13"] B --> O["Red predice detecciones simultáneamente. 14"] B --> P["Red entrenada de extremo a extremo. 15"] P --> Q["Verdad de terreno asignada a celdas. 16"] Q --> R["Predicciones de cajas ajustadas, confianza aumentada. 17"] Q --> S["Confianza disminuida para cajas no superpuestas. 18"] Q --> T["Probabilidades, coordenadas no ajustadas sin objetos. 19"] P --> U["Preentrenada en ImageNet, entrenada en detección. 20"] B --> V["YOLO funciona bien, generaliza a arte. 21"] V --> W["YOLO supera a DPM, R-CNN en arte. 22"] P --> X["YOLO entrenado en conjunto de datos COCO más grande. 23"] B --> Y["Demostración en video: detección en tiempo real en laptop. 24"] Y --> Z["Detección falla en pantalla autorreferencial. 25"] B --> AA["Código YOLO de código abierto, disponible. 26"] AA --> AB["Trabajo futuro: YOLO + redes XNOR. 27"] AB --> AC["Objetivo: detección en tiempo real en dispositivos más pequeños. 28"] B --> AD["YOLO enmarca detección como regresión. 29"] AD --> AE["A diferencia de ventanas deslizantes, clasificadores de propuestas de región. 30"] class A,B yolo class C,D,E,W detection class F,Y,AA,AB,AC,AD,AE speed class G,H,I,J,K,L,M,N,O training class P,Q,R,S,T,U,V,X training class Z future

Resumen:

1.- YOLO (You Only Look Once) es un sistema de detección de objetos unificado y en tiempo real.

2.- La detección de objetos implica dibujar cajas alrededor de los objetos en una imagen e identificarlos.

3.- Métodos anteriores de detección de objetos como DPM y R-CNN eran precisos pero muy lentos (14-20 segundos por imagen).

4.- El trabajo reciente se centró en acelerar R-CNN, con Fast R-CNN (2s/imagen) y Faster R-CNN (140ms/imagen, 7 FPS).

5.- YOLO procesa imágenes mucho más rápido, a 45 FPS (22ms/imagen), con una pequeña pérdida de precisión.

6.- Utiliza una única red neuronal para predecir detecciones a partir de imágenes completas en una sola evaluación en lugar de miles.

7.- La imagen se divide en una cuadrícula SxS, con cada celda prediciendo B cajas delimitadoras, confianza para esas cajas y C probabilidades de clase.

8.- La confianza de la caja delimitadora refleja si la caja contiene un objeto y qué tan bien se ajusta la caja predicha al objeto.

9.- El mapa de probabilidad de clase es como un mapa de segmentación grueso, mostrando la probabilidad de cada clase para objetos en cada celda.

10.- Multiplicar las probabilidades de clase y la confianza de la caja delimitadora da puntuaciones de confianza específicas de clase para cada caja. Las cajas con puntuaciones bajas se eliminan por umbral.

11.- La supresión no máxima elimina detecciones duplicadas, dejando las detecciones finales para la imagen.

12.- El tensor de tamaño de salida fijo permite expresar y optimizar todo el pipeline de detección como una sola red.

13.- La red predice todas las detecciones simultáneamente, incorporando contexto global sobre la co-ocurrencia, tamaño relativo y posición de los objetos.

14.- La red se entrena de extremo a extremo para predecir el tensor de detección completo a partir de imágenes.

15.- Durante el entrenamiento, los centros de las cajas de verdad de terreno se asignan a las celdas de la cuadrícula, que predicen esas cajas.

16.- Las predicciones de las cajas delimitadoras de la celda se ajustan en función de la mejor superposición con la verdad de terreno. La confianza se incrementa para la mejor caja.

17.- La confianza se disminuye para las cajas delimitadoras que no se superponen con ningún objeto.

18.- Las probabilidades de clase y las coordenadas de las cajas no se ajustan para las celdas sin objetos de verdad de terreno asociados.

19.- La red fue preentrenada en ImageNet y luego entrenada en datos de detección con SGD y aumento de datos.

20.- YOLO funciona bien en imágenes naturales con algunos errores. Generaliza bien al arte.

21.- YOLO supera a DPM y R-CNN cuando se entrena en imágenes naturales y se prueba en arte.

22.- YOLO también fue entrenado en el conjunto de datos más grande de Microsoft COCO con 80 clases.

23.- El video demuestra la detección en tiempo real en una cámara web de laptop, identificando objetos como perros, bicicletas, plantas, corbatas, etc.

24.- La detección se descompone si la cámara de la laptop apunta a su propia pantalla debido a la recursión.

25.- El código de entrenamiento, prueba y demostración de YOLO es de código abierto y está disponible en línea.

26.- El trabajo futuro incluye combinar YOLO con redes XNOR para desarrollar una versión más rápida y eficiente.

27.- El objetivo es habilitar la detección de objetos en tiempo real en dispositivos más pequeños como CPUs y sistemas embebidos.

28.- YOLO enmarca la detección de objetos como un problema de regresión, utilizando características de toda la imagen para predecir cada caja delimitadora.

29.- Esto es diferente de las técnicas basadas en ventanas deslizantes y propuestas de región que realizan la detección aplicando un clasificador múltiples veces.

30.- Predecir todas las cajas delimitadoras simultáneamente utilizando características de toda la imagen permite a YOLO aprender señales contextuales y seguir siendo rápido.

Bóveda del Conocimiento construida por David Vivancos 2024