Conocimiento Bóveda 2/100 - ICLR 2014-2023
Krystal Maughan · Thomas F Burns · Rosanne Liu ICLR 2023 - Día de Presentación de Tiny Papers (una iniciativa DEI)
<Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:

graph LR classDef tiny fill:#f9d4d4, font-weight:bold, font-size:14px; classDef formats fill:#d4f9d4, font-weight:bold, font-size:14px; classDef learning fill:#d4d4f9, font-weight:bold, font-size:14px; classDef improvements fill:#f9f9d4, font-weight:bold, font-size:14px; classDef reasoning fill:#f9d4f9, font-weight:bold, font-size:14px; A[Día de Presentación de Tiny Papers
ICLR 2023] --> B[Tiny Papers: formato impactante
para investigadores tempranos. 1] B --> C[200+ envíos, requeridos
meta-revisores, presidentes. 2] B --> D[Objetivos: retroalimentación, archivo,
construcción de comunidad. 3] B --> E[Artículos aceptados: 4
categorías de decisión. 4] B --> F[Sesiones de pósters, descansos,
presentaciones rápidas, cena. 5] A --> G[Aprendizaje federado cuántico:
capacidades cuánticas de clientes. 6] A --> H[Atención Suave de Punto a Secuencia:
mejora tareas de visión-lenguaje. 7] A --> I[SIMBA-ML: ML informado por modelos
usando datos sintéticos. 8] A --> J[Sparse-GPT: poda eficiente
de redes neuronales. 9] A --> K[Secuencias theta del hipocampo
permiten asignación de crédito. 10] A --> L[Atención de grafo multicanal:
maneja datos multicanal. 11] A --> M[SoftEDA: suavizado de etiquetas
para aumento de texto. 12] A --> N[FitKernel: mejora la transferibilidad
de redes convolucionales de grafo. 13] A --> O[Estimación de pose 3D: métrica
descalibra distribuciones predictivas. 14] K --> P[Secuencias theta comprimen estados
para trazas de elegibilidad sináptica. 15] H --> Q[Embebido de token compuesto
mejora fusión multimodal. 16] A --> R[Atención diminuta: alternativa
a la atención de transformadores. 17] A --> S[Descomposiciones revelan fuentes de
injusticia en modelos. 18] A --> T[SPVec: aprendizaje no supervisado
de asociaciones de palabras. 19] A --> U[LLMs participan en
razonamiento diagnóstico vía QA. 20] A --> V[Conectividad de modo geodésico:
caminos de baja pérdida entre redes. 21] A --> W[Convoluciones de Fourier rápidas
mejoran la eliminación de ruido en imágenes. 22] A --> X[YOLOv5 ajustado para
anotaciones histopatológicas incompletas. 23] A --> Y[Métodos generativos exploran
las diferencias de clasificadores. 24] A --> Z[Aprendizaje federado comprimido
mejora la comunicación. 25] A --> AA[Ensamble preentrenado supera
a modelos individuales a pesar del cambio. 26] A --> AB[Aprendizaje federado personalizado
con hiperredes. 27] A --> AC[IVAs: régimen polarizado,
implicaciones para el desentrelazado. 28] A --> AD[MetaXL: meta-aprendizaje de
múltiples lenguajes fuente. 29] A --> AE[Puntos clave: éxito del formato,
diversidad de trabajos, mejoras en ML. 30] class A,B,C,D,E,F tiny; class G,H,I,J,K,L,M,N,O,P,Q,R,S,T learning; class U,V,W,X,Y,Z,AA,AB,AC,AD improvements; class AE formats;

Resumen:

1.-Rosanne, Krystal y Tom organizaron la iniciativa Tiny Papers para proporcionar un formato alternativo impactante para que los investigadores en etapa temprana se involucren con la comunidad ICLR.

2.-Tiny Papers tuvo más de 200 envíos, requiriendo la contratación de meta-revisores, presidentes de área y revisores de emergencia para manejar el volumen.

3.-Los objetivos fueron proporcionar retroalimentación a los investigadores jóvenes, archivar su trabajo y construir comunidad. Las presentaciones abarcaron muchos temas de aprendizaje automático.

4.-Para los artículos aceptados, 4 categorías de decisión: invitar a presentar (notable), invitar a presentar, invitar a archivar, invitar a revisar.

5.-El horario incluye sesiones de pósters, descansos para discusión, presentaciones rápidas de 3 minutos cada una y una cena para los asistentes en persona.

6.-El aprendizaje federado cuántico involucra clientes con capacidades de computación cuántica. El artículo propone un esquema de firma de criptografía post-cuántica y selección dinámica de servidores para abordar riesgos de seguridad/fallo.

7.-La Atención Suave de Punto a Secuencia agrega atención cruzada de múltiples cabezas para combinar representaciones visuales y de texto, mejorando sobre la concatenación y co-atención en tareas de visión-lenguaje.

8.-El marco Python SIMBA-ML proporciona una caja de herramientas para el aprendizaje automático informado por modelos usando resultados de simulación de ecuaciones diferenciales para generar datos sintéticos.

9.-La poda de redes neuronales iterativamente usando el método Sparse-GPT permite encontrar subredes óptimas más rápido y sin re-muestreo costoso en comparación con la poda por magnitud.

10.-Las células de lugar del hipocampo exhiben secuencias theta: barridos de posición decodificados de detrás hacia adelante del animal, permitiendo una asignación de crédito eficiente a través de estados comprimidos.

11.-La atención de grafo multicanal usa múltiples atenciones, una por canal de características del grafo, para manejar datos de grafo multicanal, envuelto por codificador/decodificador para eficiencia.

12.-SoftEDA aplica suavizado de etiquetas a ejemplos aumentados de aumento de datos de texto EDA, mejorando el rendimiento del modelo en tareas de clasificación de texto.

13.-FitKernel usa núcleos de convolución dispersos paralelos para aumentar el campo receptivo y mejorar la transferibilidad de redes convolucionales de grafo para distribuciones de características de nodo no-IID.

14.-En la estimación de pose humana 3D basada en elevación, la métrica comúnmente utilizada de error mínimo medio por posición de articulación lleva a distribuciones predictivas descalibradas.

15.-Las secuencias theta en el hipocampo permiten la asignación de crédito para el aprendizaje de recompensas al comprimir estados experimentados para coincidir con trazas de elegibilidad sináptica cortas.

16.-El embebido de token compuesto usando atención cruzada mejora la fusión multimodal en modelos de visión-lenguaje en comparación con la concatenación y co-atención.

17.-La atención diminuta usa SVD de la matriz asimétrica de co-ocurrencia de palabras para aprender vectores de palabras contextuales como una alternativa a la atención de transformadores.

18.-Las descomposiciones de métricas de causalidad e injusticia revelan el impacto de las dependencias de variables y permiten diagnosticar fuentes de injusticia en modelos.

19.-Los embebidos de palabras sintagmáticas paradigmáticas no supervisadas (SPVec) aprenden asociaciones de palabras; mejoran los embebidos contextuales al seleccionar palabras de contexto asociadas para desambiguar el significado.

20.-Los modelos de lenguaje grande pueden participar en razonamiento diagnóstico de múltiples pasos a través de preguntas y respuestas con pacientes cuando se les presenta ejemplos del proceso de razonamiento.

21.-La conectividad de modo geodésico identifica caminos de baja pérdida entre redes neuronales estrechas entrenadas independientemente mediante la optimización en el espacio de distribuciones de salida.

22.-Las convoluciones de Fourier rápidas pueden mejorar la eliminación de ruido en imágenes auto-supervisadas, especialmente para imágenes con bordes contrastantes agudos como caracteres chinos.

23.-Los modelos de detección de objetos como YOLOv5 pueden ajustarse para manejar anotaciones incompletas en datos histopatológicos, mejorando el rendimiento con menos datos etiquetados.

24.-Los métodos generativos pueden explorar diferencias entre clasificadores con un rendimiento comparable optimizando para puntos de datos de entrada que maximizan la divergencia de predicción.

25.-La compresión de actualizaciones de modelos en aprendizaje federado basada en su estructura de información subyacente usando cuantización, codificación de entropía y codificación de longitud de ejecución mejora la eficiencia de la comunicación.

26.-Un conjunto de modelos preentrenados supera a modelos individuales en la clasificación de la etapa del cáncer de mama a partir de imágenes histopatológicas a pesar del cambio de dominio.

27.-El aprendizaje federado personalizado usando hiperredes para generar pesos de modelo específicos del cliente mejora el rendimiento de segmentación en un escenario de colaboración multi-hospital.

28.-Las IVAs exhiben un régimen polarizado, donde las variables latentes activas determinan las reconstrucciones mientras que las variables pasivas colapsan al previo; tiene implicaciones para el desentrelazado.

29.-MetaXL mejora la transferencia interlingüística al aprender de múltiples lenguajes fuente, usando bandidos multi-armados para muestrear lenguajes fuente más difíciles para una mejor generalización.

30.-Las principales conclusiones incluyen el éxito del formato de tiny papers, la diversidad del trabajo presentado y la importancia de métodos de ML eficientes, seguros, explicables y generalizables.

Bóveda de Conocimiento construida porDavid Vivancos 2024