Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- Generalización en lo No Visto (GOTU): Un caso fuerte de generalización fuera de distribución donde parte del dominio de distribución no se ve durante el entrenamiento.
2.- Funciones booleanas: Funciones que mapean entradas binarias a salidas reales, representando tareas discretas y combinatorias como aritmética o lógica.
3.- Interpolador de grado mínimo: Una función de interpolación con el perfil de grado mínimo, favoreciendo monomios de menor grado en su expansión de Fourier-Walsh.
4.- Perfil de grado: Un vector que representa la distribución de energía a través de diferentes grados en la expansión de Fourier-Walsh de una función.
5.- Modelo de características aleatorias: Una aproximación de red neuronal usando proyecciones aleatorias seguidas de una función de activación no lineal.
6.- Red neuronal lineal diagonal: Una red neuronal profunda con solo matrices de peso diagonales y un solo término de sesgo.
7.- Transformador: Una arquitectura de red neuronal que utiliza mecanismos de autoatención, comúnmente utilizada en procesamiento de lenguaje natural y visión por computadora.
8.- Red neuronal de campo medio: Una red neuronal de dos capas en la parametrización de campo medio, estudiando el límite de ancho infinito.
9.- Transformada de Fourier-Walsh: Una descomposición de funciones booleanas en una combinación lineal de monomios (productos de variables de entrada).
10.- Sesgo implícito: La tendencia de los algoritmos de aprendizaje a favorecer ciertas soluciones sobre otras, incluso sin regularización explícita.
11.- Generalización de longitud: La capacidad de los modelos para generalizar a longitudes de entrada más allá de lo que se vio durante el entrenamiento.
12.- Aprendizaje por currículo: Una estrategia de entrenamiento que aumenta gradualmente la complejidad de las muestras de entrenamiento.
13.- Algoritmo de currículo de grado: Un enfoque de aprendizaje por currículo que incrementa gradualmente el peso de Hamming de las muestras de entrenamiento.
14.- Sesgo de grado mínimo con fugas: Cuando los modelos aprenden soluciones que siguen principalmente el sesgo de grado mínimo pero retienen algunos términos de mayor grado.
15.- Ideales que se desvanecen: Un conjunto de polinomios que son cero en un conjunto dado de puntos, utilizados para caracterizar dominios no vistos.
16.- Activación fuertemente expresiva: Una propiedad de las funciones de activación que permite una representación efectiva de monomios de bajo grado.
17.- Influencia booleana: Una medida de la importancia de una variable en una función booleana.
18.- Sesgo espectral: La tendencia de las redes neuronales a aprender componentes de baja frecuencia más rápidamente en configuraciones continuas.
19.- Función de paridad: Una función booleana que devuelve el producto de sus bits de entrada.
20.- Función mayoría: Una función booleana que devuelve 1 si más de la mitad de sus entradas son 1, y 0 en caso contrario.
21.- Peso de Hamming: El número de elementos no cero en un vector binario.
22.- Descenso de gradiente estocástico (SGD): Un algoritmo de optimización que actualiza parámetros usando gradientes estimados de subconjuntos aleatorios de datos.
23.- Optimizador Adam: Un algoritmo de optimización de tasa de aprendizaje adaptativa comúnmente utilizado en aprendizaje profundo.
24.- Solución de interpolación: Una función que coincide exactamente con los datos de entrenamiento.
25.- Generalización fuera de distribución: La capacidad de los modelos para desempeñarse bien en datos de una distribución diferente a la de los datos de entrenamiento.
26.- Invariancia: Cuando la salida de una función permanece sin cambios bajo ciertas transformaciones de su entrada.
27.- Equivarianza: Cuando la salida de una función se transforma de manera predecible bajo ciertas transformaciones de su entrada.
28.- Funciones booleanas escasas: Funciones booleanas que dependen solo de un pequeño subconjunto de sus variables de entrada.
29.- Kernel tangente neuronal (NTK): Un kernel que describe el comportamiento de redes neuronales anchas durante el entrenamiento.
30.- Funciones de activación polinómicas: Funciones de activación en redes neuronales que son funciones polinómicas de su entrada.
Bóveda del Conocimiento construida por David Vivancos 2024