Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:
Resumen:
1.- YOLO (You Only Look Once) es un sistema de detección de objetos unificado y en tiempo real.
2.- La detección de objetos implica dibujar cajas alrededor de los objetos en una imagen e identificarlos.
3.- Métodos anteriores de detección de objetos como DPM y R-CNN eran precisos pero muy lentos (14-20 segundos por imagen).
4.- El trabajo reciente se centró en acelerar R-CNN, con Fast R-CNN (2s/imagen) y Faster R-CNN (140ms/imagen, 7 FPS).
5.- YOLO procesa imágenes mucho más rápido, a 45 FPS (22ms/imagen), con una pequeña pérdida de precisión.
6.- Utiliza una única red neuronal para predecir detecciones a partir de imágenes completas en una sola evaluación en lugar de miles.
7.- La imagen se divide en una cuadrícula SxS, con cada celda prediciendo B cajas delimitadoras, confianza para esas cajas y C probabilidades de clase.
8.- La confianza de la caja delimitadora refleja si la caja contiene un objeto y qué tan bien se ajusta la caja predicha al objeto.
9.- El mapa de probabilidad de clase es como un mapa de segmentación grueso, mostrando la probabilidad de cada clase para objetos en cada celda.
10.- Multiplicar las probabilidades de clase y la confianza de la caja delimitadora da puntuaciones de confianza específicas de clase para cada caja. Las cajas con puntuaciones bajas se eliminan por umbral.
11.- La supresión no máxima elimina detecciones duplicadas, dejando las detecciones finales para la imagen.
12.- El tensor de tamaño de salida fijo permite expresar y optimizar todo el pipeline de detección como una sola red.
13.- La red predice todas las detecciones simultáneamente, incorporando contexto global sobre la co-ocurrencia, tamaño relativo y posición de los objetos.
14.- La red se entrena de extremo a extremo para predecir el tensor de detección completo a partir de imágenes.
15.- Durante el entrenamiento, los centros de las cajas de verdad de terreno se asignan a las celdas de la cuadrícula, que predicen esas cajas.
16.- Las predicciones de las cajas delimitadoras de la celda se ajustan en función de la mejor superposición con la verdad de terreno. La confianza se incrementa para la mejor caja.
17.- La confianza se disminuye para las cajas delimitadoras que no se superponen con ningún objeto.
18.- Las probabilidades de clase y las coordenadas de las cajas no se ajustan para las celdas sin objetos de verdad de terreno asociados.
19.- La red fue preentrenada en ImageNet y luego entrenada en datos de detección con SGD y aumento de datos.
20.- YOLO funciona bien en imágenes naturales con algunos errores. Generaliza bien al arte.
21.- YOLO supera a DPM y R-CNN cuando se entrena en imágenes naturales y se prueba en arte.
22.- YOLO también fue entrenado en el conjunto de datos más grande de Microsoft COCO con 80 clases.
23.- El video demuestra la detección en tiempo real en una cámara web de laptop, identificando objetos como perros, bicicletas, plantas, corbatas, etc.
24.- La detección se descompone si la cámara de la laptop apunta a su propia pantalla debido a la recursión.
25.- El código de entrenamiento, prueba y demostración de YOLO es de código abierto y está disponible en línea.
26.- El trabajo futuro incluye combinar YOLO con redes XNOR para desarrollar una versión más rápida y eficiente.
27.- El objetivo es habilitar la detección de objetos en tiempo real en dispositivos más pequeños como CPUs y sistemas embebidos.
28.- YOLO enmarca la detección de objetos como un problema de regresión, utilizando características de toda la imagen para predecir cada caja delimitadora.
29.- Esto es diferente de las técnicas basadas en ventanas deslizantes y propuestas de región que realizan la detección aplicando un clasificador múltiples veces.
30.- Predecir todas las cajas delimitadoras simultáneamente utilizando características de toda la imagen permite a YOLO aprender señales contextuales y seguir siendo rápido.
Bóveda del Conocimiento construida por David Vivancos 2024