Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-Nitanda discute tasas óptimas de convergencia para el descenso de gradiente estocástico promediado (ASGD) en redes neuronales de dos capas sobreparametrizadas bajo el régimen del Kernel Tangente Neuronal.
2.-Las suposiciones clave son la complejidad de la función objetivo y el espacio de hipótesis. Se derivan tasas óptimas para la cota de generalización en iteraciones de ASGD.
3.-La tasa proporciona una cota de generalización que es más rápida que 1/sqrt(t), donde t es el número de ejemplos utilizados para obtener la hipótesis.
4.-El problema es aproximar el minimizador de la regla de Bayes sobre todas las funciones medibles. Se ejecuta ASGD de una sola vía, utilizando una muestra nueva en cada iteración.
5.-Se introduce el operador integral del kernel tangente neuronal. Sus autofunciones/valores describen la suavidad de la función. La tasa de decaimiento de los autovalores controla el tamaño de RKHS.
6.-Las suposiciones principales son la suavidad de la regla de Bayes y el decaimiento de los autovalores del operador integral. Se introduce una brecha epsilon entre la dinámica de NN y RKHS.
7.-La tasa es minimax óptima para el problema de aprendizaje. El trabajo futuro incluye investigar el caso mal especificado sin sobreparametrización.
8.-Minervini presenta trabajo sobre responder consultas complejas sobre grafos de conocimiento incompletos usando "predictores de enlaces neuronales" - modelos que predicen enlaces faltantes.
9.-El SOTA anterior requería entrenamiento en millones de consultas complejas generadas, con mala generalización y sin explicaciones para las respuestas predichas.
10.-Nueva aproximación: entrenar el predictor de enlaces solo en consultas simples, luego convertir la consulta compleja en un problema de optimización - encontrar asignaciones de variables óptimas que maximicen la probabilidad de la consulta.
11.-Se experimentó con formulaciones de optimización discreta y continua, incluyendo búsqueda codiciosa y optimización de incrustaciones basada en gradiente para identificar las mejores asignaciones de variables-entidades.
12.-A pesar de solo entrenar en consultas simples, la nueva aproximación generaliza mejor a consultas complejas que los modelos entrenados directamente en consultas complejas.
13.-Proporciona explicaciones a través de las asignaciones de variables intermedias utilizadas para llegar a las respuestas finales. Permite detectar errores y refinar el modelo de predicción de enlaces.
14.-Wang presenta trabajo analizando los modos de falla de la búsqueda de arquitectura neuronal diferenciable (DARTS), específicamente problemas con su fase de selección de arquitectura.
15.-DARTS construye una superred que contiene todas las arquitecturas del espacio de búsqueda, usa pesos continuos (alfas) para combinar operaciones, y selecciona la arquitectura final basada en las alfas.
16.-A pesar de que la precisión de la superred mejora, la precisión de la arquitectura seleccionada a menudo se degrada con el tiempo, con las conexiones de salto dominando sobre otras operaciones como convoluciones.
17.-Wang muestra que la dominación de conexiones de salto es razonable para el entrenamiento de la superred en sí, y solo problemática con la selección de arquitectura basada en magnitud de DARTS.
18.-Al analizar la estimación de mapas de características en resnets vs redes no residuales, se muestra que la superred realiza "estimación desenrollada" donde los bordes estiman el mismo mapa óptimo.
19.-Se derivan alfas óptimos mostrando que las alfas de salto deben ser mayores que las alfas de convolución en una superred bien entrenada, explicando la dominación de saltos.
20.-Sin embargo, los experimentos muestran que la precisión de la superred se beneficia más de las convoluciones que de los saltos, a pesar de que los saltos tienen alfas más grandes. Las magnitudes de alfa no representan la fuerza de la operación.
21.-El enfoque ingenuo de usar la precisión de la superred para medir la fuerza de la operación es costoso. Se propone selección basada en perturbaciones en su lugar - medir la caída de precisión al eliminar la operación.
22.-La nueva selección basada en perturbaciones descubre mejores arquitecturas y alivia la dominación de saltos frente a la selección basada en magnitud de DARTS, con la misma superred.
23.-Produce resultados SOTA en benchmarks de NAS. Incluso fijando las alfas a uniformes y usando selección por perturbación es competitivo con DARTS.
24.-Sugiere que el fallo de DARTS se debe a problemas de selección de arquitectura, no al entrenamiento de la superred. Repensar el papel de alfa podría mejorar los métodos diffNAS.
25.-En resumen, se analiza el SGD promediado bajo suposiciones de NTK, mostrando tasas óptimas de generalización dependientes de la complejidad de la función objetivo y el decaimiento de los autovalores del kernel.
26.-La respuesta a consultas complejas se reformula como optimización de la probabilidad de consulta sobre incrustaciones de KG, superando trabajos anteriores y proporcionando explicaciones.
27.-La dominación de conexiones de salto en DARTS se muestra como un resultado razonable de la dinámica de entrenamiento de la superred, pero problemática para la selección de arquitectura basada en magnitud.
28.-La selección de arquitectura basada en perturbaciones resuelve modos de falla de DARTS y mejora los métodos diffNAS SOTA con cambios mínimos en el entrenamiento de la superred.
29.-Sorprendentemente, incluso entrenar la superred con alfas uniformes es competitivo cuando se combina con selección basada en perturbaciones, sugiriendo que los problemas residen en la etapa de selección de arquitectura.
30.-Colectivamente, los trabajos proporcionan nuevo análisis teórico, formulaciones de problemas y mejoras metodológicas para los desafíos clave del entrenamiento de redes neuronales y la búsqueda de arquitectura.
Vault de Conocimiento construido porDavid Vivancos 2024