Conocimiento Bóveda 6 /89 - ICML 2023
Generalización en lo No Visto, Razonamiento Lógico y Currículo de Grado
Emmanuel Abbe · Samy Bengio · Aryo Lotfi · Kevin Rizk
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef generalization fill:#f9d4d4, font-weight:bold, font-size:14px classDef boolean fill:#d4f9d4, font-weight:bold, font-size:14px classDef neural fill:#d4d4f9, font-weight:bold, font-size:14px classDef learning fill:#f9f9d4, font-weight:bold, font-size:14px A["Generalización en lo
No Visto, Razonamiento
Lógico y Currículo de Grado"] --> B["Generalización"] A --> C["Funciones
Booleanas"] A --> D["Redes
Neuronales"] A --> E["Aprendizaje
y
Optimización"] B --> B1["Generalización fuera de
distribución. 1"] B --> B2["Generalizar más allá de
longitudes de
entrenamiento. 11"] B --> B3["Emparejamiento de funciones
con datos de
entrenamiento. 24"] B --> B4["Generalizar a
diferentes
distribuciones. 25"] B --> B5["Invariante bajo
transformaciones de
entrada. 26"] B --> B6["Transformaciones de salida
predecibles con
entrada. 27"] C --> C1["Entradas binarias
a salidas
reales. 2"] C --> C2["Función producto
booleana. 19"] C --> C3["Función mayoría
booleana. 20"] C --> C4["Vector binario
elementos no
cero. 21"] C --> C5["Importancia de variables
booleanas. 17"] C --> C6["Dependencia de subconjunto
pequeño de variables
de entrada. 28"] D --> D1["Interpolación de perfil de
grado mínimo. 3"] D --> D2["Distribución de energía en
Fourier-Walsh. 4"] D --> D3["Proyecciones aleatorias
y activación. 5"] D --> D4["Red neuronal
diagonal. 6"] D --> D5["Red neuronal de
autoatención. 7"] D --> D6["Red de dos capas
de campo medio. 8"] E --> E1["Sesgo de solución de
algoritmos de
aprendizaje. 10"] E --> E2["Muestras de entrenamiento
gradualmente complejas. 12"] E --> E3["Aumento de peso
de Hamming
en muestras. 13"] E --> E4["Sesgo de grado mínimo con
términos
superiores. 14"] E --> E5["Optimización de subconjunto
de gradiente
aleatorio. 22"] E --> E6["Optimizador de tasa de
aprendizaje adaptativo. 23"] class A,B,B1,B2,B3,B4,B5,B6 generalization class C,C1,C2,C3,C4,C5,C6 boolean class D,D1,D2,D3,D4,D5,D6 neural class E,E1,E2,E3,E4,E5,E6 learning

Resumen:

1.- Generalización en lo No Visto (GOTU): Un caso fuerte de generalización fuera de distribución donde parte del dominio de distribución no se ve durante el entrenamiento.

2.- Funciones booleanas: Funciones que mapean entradas binarias a salidas reales, representando tareas discretas y combinatorias como aritmética o lógica.

3.- Interpolador de grado mínimo: Una función de interpolación con el perfil de grado mínimo, favoreciendo monomios de menor grado en su expansión de Fourier-Walsh.

4.- Perfil de grado: Un vector que representa la distribución de energía a través de diferentes grados en la expansión de Fourier-Walsh de una función.

5.- Modelo de características aleatorias: Una aproximación de red neuronal usando proyecciones aleatorias seguidas de una función de activación no lineal.

6.- Red neuronal lineal diagonal: Una red neuronal profunda con solo matrices de peso diagonales y un solo término de sesgo.

7.- Transformador: Una arquitectura de red neuronal que utiliza mecanismos de autoatención, comúnmente utilizada en procesamiento de lenguaje natural y visión por computadora.

8.- Red neuronal de campo medio: Una red neuronal de dos capas en la parametrización de campo medio, estudiando el límite de ancho infinito.

9.- Transformada de Fourier-Walsh: Una descomposición de funciones booleanas en una combinación lineal de monomios (productos de variables de entrada).

10.- Sesgo implícito: La tendencia de los algoritmos de aprendizaje a favorecer ciertas soluciones sobre otras, incluso sin regularización explícita.

11.- Generalización de longitud: La capacidad de los modelos para generalizar a longitudes de entrada más allá de lo que se vio durante el entrenamiento.

12.- Aprendizaje por currículo: Una estrategia de entrenamiento que aumenta gradualmente la complejidad de las muestras de entrenamiento.

13.- Algoritmo de currículo de grado: Un enfoque de aprendizaje por currículo que incrementa gradualmente el peso de Hamming de las muestras de entrenamiento.

14.- Sesgo de grado mínimo con fugas: Cuando los modelos aprenden soluciones que siguen principalmente el sesgo de grado mínimo pero retienen algunos términos de mayor grado.

15.- Ideales que se desvanecen: Un conjunto de polinomios que son cero en un conjunto dado de puntos, utilizados para caracterizar dominios no vistos.

16.- Activación fuertemente expresiva: Una propiedad de las funciones de activación que permite una representación efectiva de monomios de bajo grado.

17.- Influencia booleana: Una medida de la importancia de una variable en una función booleana.

18.- Sesgo espectral: La tendencia de las redes neuronales a aprender componentes de baja frecuencia más rápidamente en configuraciones continuas.

19.- Función de paridad: Una función booleana que devuelve el producto de sus bits de entrada.

20.- Función mayoría: Una función booleana que devuelve 1 si más de la mitad de sus entradas son 1, y 0 en caso contrario.

21.- Peso de Hamming: El número de elementos no cero en un vector binario.

22.- Descenso de gradiente estocástico (SGD): Un algoritmo de optimización que actualiza parámetros usando gradientes estimados de subconjuntos aleatorios de datos.

23.- Optimizador Adam: Un algoritmo de optimización de tasa de aprendizaje adaptativa comúnmente utilizado en aprendizaje profundo.

24.- Solución de interpolación: Una función que coincide exactamente con los datos de entrenamiento.

25.- Generalización fuera de distribución: La capacidad de los modelos para desempeñarse bien en datos de una distribución diferente a la de los datos de entrenamiento.

26.- Invariancia: Cuando la salida de una función permanece sin cambios bajo ciertas transformaciones de su entrada.

27.- Equivarianza: Cuando la salida de una función se transforma de manera predecible bajo ciertas transformaciones de su entrada.

28.- Funciones booleanas escasas: Funciones booleanas que dependen solo de un pequeño subconjunto de sus variables de entrada.

29.- Kernel tangente neuronal (NTK): Un kernel que describe el comportamiento de redes neuronales anchas durante el entrenamiento.

30.- Funciones de activación polinómicas: Funciones de activación en redes neuronales que son funciones polinómicas de su entrada.

Bóveda del Conocimiento construida por David Vivancos 2024