Conocimiento Bóveda 2/20 - ICLR 2014-2023
Max Jaderberg, Karen Simonyan, Andrea Vedaldi, Andrew Zisserman ICLR 2015 - Aprendizaje de Salida Estructurada Profunda para el Reconocimiento de Texto No Restringido
<Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef unconstrained fill:#f9d4d4, font-weight:bold, font-size:14px; classDef models fill:#d4f9d4, font-weight:bold, font-size:14px; classDef joint fill:#d4d4f9, font-weight:bold, font-size:14px; classDef results fill:#f9f9d4, font-weight:bold, font-size:14px; classDef summary fill:#f9d4f9, font-weight:bold, font-size:14px; A[Max Jaderberg et al
ICLR 2015] --> B[Reconocimiento de texto en escena no restringido. 1] B --> C[Generalización de palabras no vistas. 3] B --> D[Métodos restringidos fallan. 2] A --> E[Modelo de secuencia de caracteres. 4] E --> F[Redimensionamiento de palabras con CNN. 6] E --> G[23 clasificadores de caracteres. 5] A --> H[Modelo de bolsa de n-gramas. 7] H --> I[Vector n-grama de 10,000 dimensiones. 8] I --> J[Representación única de palabras. 9] A --> K[Modelo estructurado conjunto. 10] K --> L[Camino de palabras basado en grafo. 11] K --> M[Entrenamiento con pérdida de bisagra. 12] A --> N[Entrenamiento con datos sintéticos. 14] K --> O[Modelos preentrenados ajustados. 15] A --> P[Resultados en conjuntos de datos del mundo real. 16] P --> Q[Conjunto supera al modelo de caracteres. 16] P --> R[N-gramas corrigen errores. 17] A --> S[Experimentos con palabras no vistas. 18] S --> T[Conjunto generaliza mejor. 19] A --> U[Estado del arte no restringido. 20] A --> V[Resultados competitivos restringidos. 21] V --> W[Reevaluación de palabras del diccionario. 21] A --> X[Modelos CNN combinados. 22] X --> Y[Conjunto mejora precisión. 23] Y --> Z[Fuerte generalización no vista. 23] X --> AA[Rendimiento restringido competitivo. 23] A --> AB[Contexto de palabra completa. 24] A --> AC[N-gramas aún beneficiosos. 25] A --> AD[Entrenamiento CNN sintético grande. 26] A --> AE[N-gramas mejoran rendimiento. 27] A --> AF[Extensión de CRF de orden superior. 28] A --> AG[Conjunto sobresale en ambos escenarios. 29] A --> AH[Autor invita a discusión. 30] class B,C,D unconstrained; class E,F,G,H,I,J models; class K,L,M,N,O joint; class P,Q,R,S,T,U,V,W results; class X,Y,Z,AA,AB,AC,AD,AE,AF,AG,AH summary;

Resumen:

1.-El documento se centra en el reconocimiento de texto en escenas no restringidas: reconocer texto en imágenes sin estar limitado a un léxico o diccionario fijo.

2.-Los métodos actuales de última generación realizan reconocimiento de texto restringido eligiendo la salida de un conjunto fijo de palabras, lo que falla en palabras no vistas.

3.-El reconocimiento de texto no restringido es más difícil ya que el espacio de búsqueda es mucho mayor, pero permite la generalización a palabras no vistas (reconocimiento de cero disparos).

4.-El primer modelo es un modelo de secuencia de caracteres que utiliza una CNN para clasificar cada carácter en la palabra de forma independiente.

5.-El modelo de secuencia de caracteres tiene 23 clasificadores (uno por carácter), cada uno prediciendo 1 de 37 clases (A-Z, 0-9, nulo).

6.-Las imágenes de entrada se redimensionan a un tamaño fijo de 32x100 píxeles. El modelo no impone un modelo de lenguaje fuerte.

7.-El segundo modelo representa palabras por el conjunto de n-gramas de caracteres (hasta 4-gramas) contenidas en la cadena.

8.-El modelo de bolsa de n-gramas produce un vector de 10,000 dimensiones que indica la probabilidad de cada uno de los 10,000 n-gramas ingleses más comunes.

9.-La representación vectorial binaria de 10,000 dimensiones es casi siempre única para palabras en inglés. La arquitectura del modelo es una CNN de 7 capas.

10.-Las dos representaciones/modelos de palabras complementarios pueden combinarse en un único modelo conjunto formulado como aprendizaje de salida estructurada.

11.-Las salidas del clasificador de caracteres son nodos en un grafo, con una palabra siendo un camino a través del grafo. Las puntuaciones de n-gramas son puntuaciones de borde.

12.-El modelo conjunto se entrena para maximizar la puntuación del camino de palabra correcto en comparación con el camino incorrecto de mayor puntuación.

13.-Se utiliza una pérdida de bisagra, que puede retropropagarse a través de la búsqueda en haz y las CNN para optimizar conjuntamente el modelo completo.

14.-Todos los modelos se entrenan puramente en datos realistas generados sintéticamente, pero se evalúan en conjuntos de datos de imágenes de texto del mundo real.

15.-Los modelos de secuencia de caracteres y n-gramas se preentrenan de forma independiente, luego el modelo conjunto se ajusta después de inicializarse con los pesos preentrenados.

16.-En conjuntos de datos del mundo real, el modelo entrenado conjuntamente supera al modelo de secuencia de caracteres individual, por ejemplo, 90% vs 86% en ICDAR2003.

17.-Examinar ejemplos específicos muestra cómo las puntuaciones de n-gramas ayudan a corregir errores cometidos solo por el modelo de secuencia de caracteres.

18.-Los experimentos demuestran la capacidad de reconocer palabras no vistas entrenando en 45K palabras y probando en un conjunto diferente de 45K palabras.

19.-El modelo conjunto generaliza mucho mejor a palabras no vistas que el modelo de secuencia de caracteres (89% vs 80%) debido a los n-gramas compartidos.

20.-En el entorno no restringido, el modelo conjunto establece un nuevo estado del arte, aunque aún inferior a los modelos de reconocimiento restringido.

21.-Al restringir el modelo conjunto reevaluando una lista corta de palabras del diccionario, es competitivo con los modelos de reconocimiento restringido de última generación.

22.-En resumen, se presentaron dos modelos CNN complementarios y se combinaron en un modelo conjunto entrenado con una pérdida de salida estructurada.

23.-El modelo conjunto mejora la precisión sobre los modelos individuales, demuestra una fuerte generalización a palabras no vistas y es competitivo en configuraciones restringidas.

24.-Usar la imagen completa de la palabra permite modelar implícitamente cosas como la consistencia de fuente e iluminación a través de los caracteres en cada palabra.

25.-Trabajos previos han utilizado ventanas de contexto amplias, pero la inclusión de puntuaciones de n-gramas de orden superior aún proporciona beneficios significativos.

26.-Entrenar en grandes cantidades de datos sintéticos permite entrenar CNNs mucho más grandes que trabajos previos en esta área.

27.-Sin las puntuaciones de n-gramas (solo términos unarios), el modelo aún tiene un rendimiento inferior a pesar de integrar el contexto a través de la imagen completa de la palabra.

28.-El modelo puede verse como una extensión de campos aleatorios condicionales a términos de orden superior (hasta 4-gramas).

29.-El modelo conjunto funciona muy bien en escenarios de reconocimiento de texto tanto restringidos como no restringidos.

30.-El autor invita a más preguntas y discusión después de presentar las ideas clave y resultados del documento.

Bóveda de Conocimiento construida porDavid Vivancos 2024