Conocimiento Bóveda 5 /91 - CVPR 2024
Visión por computadora a gran escala: Impulsando la innovación del cliente y la adopción de la industria
Swami Sivasubramanian
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4o | Llama 3:

graph LR classDef main fill:#f9d4d4, font-weight:bold, font-size:14px classDef amazon fill:#d4f9d4, font-weight:bold, font-size:14px classDef ai_services fill:#d4d4f9, font-weight:bold, font-size:14px classDef ml_tech fill:#f9f9d4, font-weight:bold, font-size:14px classDef challenges fill:#f9d4f9, font-weight:bold, font-size:14px Main["Visión por computadora a
gran escala: Impulsando la
innovación del cliente y la
adopción de la industria"] --> A["Amazon IA y ML"] Main --> B["Servicios y Herramientas de IA"] Main --> C["Tecnologías de ML"] Main --> D["Desafíos y Soluciones"] A --> A1["25 años de innovación en IA/ML"] A --> A2["Innovación centrada en el cliente escala soluciones"] A --> A3["AWS hace accesible el ML
a las organizaciones"] B --> B1["VP de AWS supervisa servicios
y herramientas de IA"] B --> B2["Bedrock ofrece acceso a modelos
de IA fundamentales"] B --> B3["Titan genera imágenes,
mitiga sesgos"] B --> B4["Rekognition extrae información de
imágenes, video"] B --> B5["Textract analiza texto de
varios documentos"] B --> B6["Panorama lleva visión a
cámaras locales"] C --> C1["IA detecta defectos de productos,
informa daños"] C --> C2["IA genera creatividades publicitarias
a partir de imágenes"] C --> C3["Reconocimiento de palma para pagos
sin contacto"] C --> C4["IA mejora la experiencia del
espectador de la NFL"] C --> C5["Trainium: chip eficiente para
entrenamiento de ML"] C --> C6["B-Mojo: arquitectura modular híbrida
de código abierto"] D --> D1["Alucinación y control"] D --> D2["Investigación y desarrollo"] D --> D3["Desafíos empresariales"] D1 --> D1a["Alucinación: datos generados no
se alinean con los hechos"] D1 --> D1b["Anclaje visual controla alucinaciones
en IA multimodal"] D1 --> D1c["THRONE mide alucinaciones en modelos
de visión-lenguaje"] D2 --> D2a["SSMs mejoran memoria, reducen
alucinaciones"] D2 --> D2b["Modelos híbridos ganan popularidad en
investigación de IA"] D2 --> D2c["Créditos de investigación para
experimentos en Trainium"] D3 --> D3a["Empresas escalan aplicaciones de modelos
fundamentales"] D3 --> D3b["Herramientas de ML accesibles son cruciales
para la adopción"] D3 --> D3c["AWS se enfoca en personalización de modelos
específicos de dominio"] class Main main class A,A1,A2,A3 amazon class B,B1,B2,B3,B4,B5,B6 ai_services class C,C1,C2,C3,C4,C5,C6 ml_tech class D,D1,D2,D3,D1a,D1b,D1c,D2a,D2b,D2c,D3a,D3b,D3c challenges

Resumen:

1.- El Dr. Swami Sivasubramanian es VP de IA y datos en AWS, supervisando servicios y herramientas de IA que apoyan la innovación en múltiples niveles de la pila de IA.

2.- Amazon ha estado trabajando en IA y ML durante más de 25 años, incluyendo innovaciones continuas en visión por computadora utilizadas en todas sus operaciones.

3.- El enfoque de Amazon hacia la innovación se centra en la obsesión por el cliente, trabajando hacia atrás desde los problemas del cliente y escalando soluciones de manera efectiva.

4.- El Proyecto PI utiliza modelos fundamentales multimodales para identificar defectos de productos en los centros de cumplimiento de Amazon, informando daños en lenguaje claro.

5.- El Generador de Imágenes de Amazon Ads utiliza IA para crear múltiples creatividades publicitarias a partir de imágenes de productos, logotipos y sugerencias de texto.

6.- Amazon One utiliza visión por computadora para reconocer impresiones de palma para pagos sin contacto e identificación, entrenado con datos sintéticos.

7.- Prime Video utiliza visión por computadora e IA para proporcionar estadísticas de próxima generación durante los juegos de la NFL, mejorando la experiencia del espectador.

8.- AWS tiene como objetivo hacer que el aprendizaje automático y la visión por computadora sean accesibles para millones de organizaciones a través de un conjunto completo de herramientas.

9.- Amazon Rekognition es un servicio completamente gestionado que extrae información de imágenes y archivos de video utilizando aprendizaje automático.

10.- Amazon Textract utiliza modelos complejos de aprendizaje profundo para extraer y analizar texto de varios tipos de documentos.

11.- AWS Panorama permite a las organizaciones llevar visión por computadora a cámaras locales para predicciones e información local.

12.- Amazon Bedrock es un servicio de plataforma de IA generativa que ofrece acceso a varios modelos fundamentales de Amazon y proveedores externos.

13.- Titan Image Generator produce imágenes de alta calidad y realistas utilizando sugerencias de lenguaje natural, con mitigaciones integradas para contenido tóxico o sesgado.

14.- AWS implementa marcas de agua invisibles en imágenes generadas por IA para ayudar a reducir la propagación de desinformación.

15.- La alucinación en modelos de IA ocurre cuando los datos generados no se alinean con la realidad o la base de conocimientos de hechos.

16.- El anclaje visual es crucial para controlar las alucinaciones en modelos de IA multimodal.

17.- THRONE es un punto de referencia desarrollado por el equipo de Amazon para medir alucinaciones en modelos de visión-lenguaje.

18.- Controlar la generación y el anclaje a bases de conocimiento puede ayudar a reducir las tasas de alucinación en modelos fundamentales multimodales.

19.- Los modelos basados en transformadores pueden alucinar debido a la capacidad limitada para retener información sobre sugerencias de entrada más allá de su ventana de contexto.

20.- Los modelos de espacio de estado (SSMs) ofrecen mejoras potenciales en la retención de memoria y el control de alucinaciones en comparación con las arquitecturas de transformadores.

21.- Amazon planea hacer de código abierto B-Mojo, una clase de arquitecturas modulares híbridas diseñadas para una computación eficiente de memoria e inferencia.

22.- AWS Trainium es un chip diseñado específicamente para entrenar modelos de aprendizaje automático, optimizado para una computación eficiente.

23.- Los Premios de Investigación de Amazon ofrecen créditos promocionales para que los investigadores realicen experimentos en Trainium.

24.- Las empresas están pasando de la experimentación a la escalabilidad de aplicaciones de modelos fundamentales, enfrentando desafíos como la detección de alucinaciones y el cumplimiento.

25.- Hacer que las herramientas de ML sean más accesibles para no expertos en ML es crucial para una adopción más amplia de aplicaciones de IA generativa.

26.- La personalización de modelos fundamentales para dominios específicos se está volviendo más fácil y es un área de enfoque para AWS.

27.- La tecnología de visión por computadora de Amazon impulsa motores de recomendación, selección robótica en centros de cumplimiento y drones de Prime Video.

28.- Phillips 66 utiliza AWS Panorama para monitoreo en tiempo real y recopilación de datos en sus tiendas conectadas.

29.- La percepción visual en IA puede describirse como alucinación controlada, donde las representaciones internas generan datos alineados con la realidad.

30.- Las variantes híbridas de modelos de espacio de estado y mecanismos de atención están ganando popularidad en la investigación de IA.

Bóveda del Conocimiento construida por David Vivancos 2024