Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-El documento se centra en el reconocimiento de texto en escenas no restringidas: reconocer texto en imágenes sin estar limitado a un léxico o diccionario fijo.
2.-Los métodos actuales de última generación realizan reconocimiento de texto restringido eligiendo la salida de un conjunto fijo de palabras, lo que falla en palabras no vistas.
3.-El reconocimiento de texto no restringido es más difícil ya que el espacio de búsqueda es mucho mayor, pero permite la generalización a palabras no vistas (reconocimiento de cero disparos).
4.-El primer modelo es un modelo de secuencia de caracteres que utiliza una CNN para clasificar cada carácter en la palabra de forma independiente.
5.-El modelo de secuencia de caracteres tiene 23 clasificadores (uno por carácter), cada uno prediciendo 1 de 37 clases (A-Z, 0-9, nulo).
6.-Las imágenes de entrada se redimensionan a un tamaño fijo de 32x100 píxeles. El modelo no impone un modelo de lenguaje fuerte.
7.-El segundo modelo representa palabras por el conjunto de n-gramas de caracteres (hasta 4-gramas) contenidas en la cadena.
8.-El modelo de bolsa de n-gramas produce un vector de 10,000 dimensiones que indica la probabilidad de cada uno de los 10,000 n-gramas ingleses más comunes.
9.-La representación vectorial binaria de 10,000 dimensiones es casi siempre única para palabras en inglés. La arquitectura del modelo es una CNN de 7 capas.
10.-Las dos representaciones/modelos de palabras complementarios pueden combinarse en un único modelo conjunto formulado como aprendizaje de salida estructurada.
11.-Las salidas del clasificador de caracteres son nodos en un grafo, con una palabra siendo un camino a través del grafo. Las puntuaciones de n-gramas son puntuaciones de borde.
12.-El modelo conjunto se entrena para maximizar la puntuación del camino de palabra correcto en comparación con el camino incorrecto de mayor puntuación.
13.-Se utiliza una pérdida de bisagra, que puede retropropagarse a través de la búsqueda en haz y las CNN para optimizar conjuntamente el modelo completo.
14.-Todos los modelos se entrenan puramente en datos realistas generados sintéticamente, pero se evalúan en conjuntos de datos de imágenes de texto del mundo real.
15.-Los modelos de secuencia de caracteres y n-gramas se preentrenan de forma independiente, luego el modelo conjunto se ajusta después de inicializarse con los pesos preentrenados.
16.-En conjuntos de datos del mundo real, el modelo entrenado conjuntamente supera al modelo de secuencia de caracteres individual, por ejemplo, 90% vs 86% en ICDAR2003.
17.-Examinar ejemplos específicos muestra cómo las puntuaciones de n-gramas ayudan a corregir errores cometidos solo por el modelo de secuencia de caracteres.
18.-Los experimentos demuestran la capacidad de reconocer palabras no vistas entrenando en 45K palabras y probando en un conjunto diferente de 45K palabras.
19.-El modelo conjunto generaliza mucho mejor a palabras no vistas que el modelo de secuencia de caracteres (89% vs 80%) debido a los n-gramas compartidos.
20.-En el entorno no restringido, el modelo conjunto establece un nuevo estado del arte, aunque aún inferior a los modelos de reconocimiento restringido.
21.-Al restringir el modelo conjunto reevaluando una lista corta de palabras del diccionario, es competitivo con los modelos de reconocimiento restringido de última generación.
22.-En resumen, se presentaron dos modelos CNN complementarios y se combinaron en un modelo conjunto entrenado con una pérdida de salida estructurada.
23.-El modelo conjunto mejora la precisión sobre los modelos individuales, demuestra una fuerte generalización a palabras no vistas y es competitivo en configuraciones restringidas.
24.-Usar la imagen completa de la palabra permite modelar implícitamente cosas como la consistencia de fuente e iluminación a través de los caracteres en cada palabra.
25.-Trabajos previos han utilizado ventanas de contexto amplias, pero la inclusión de puntuaciones de n-gramas de orden superior aún proporciona beneficios significativos.
26.-Entrenar en grandes cantidades de datos sintéticos permite entrenar CNNs mucho más grandes que trabajos previos en esta área.
27.-Sin las puntuaciones de n-gramas (solo términos unarios), el modelo aún tiene un rendimiento inferior a pesar de integrar el contexto a través de la imagen completa de la palabra.
28.-El modelo puede verse como una extensión de campos aleatorios condicionales a términos de orden superior (hasta 4-gramas).
29.-El modelo conjunto funciona muy bien en escenarios de reconocimiento de texto tanto restringidos como no restringidos.
30.-El autor invita a más preguntas y discusión después de presentar las ideas clave y resultados del documento.
Bóveda de Conocimiento construida porDavid Vivancos 2024