Conocimiento Bóveda 6 /76 - ICML 2022
G-Mixup: Aumento de Datos de Gráficos para Clasificación de Gráficos
Xiaotian Han · Zhimeng Jiang · Ninghao Liu · Xia Hu
< Imagen de Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef augmentation fill:#d4f9d4, font-weight:bold, font-size:14px classDef graphTheory fill:#f9d4d4, font-weight:bold, font-size:14px classDef robustness fill:#d4d4f9, font-weight:bold, font-size:14px classDef classification fill:#f9f9d4, font-weight:bold, font-size:14px A["G-Mixup: Aumento de Datos
de Gráficos para
Clasificación de Gráficos"] --> B["G-Mixup:
aumento de gráficos
por interpolación. 1"] A --> C["Graphon:
función continua
para gráficos grandes. 2"] A --> D["Clasificación de
gráficos:
etiquetado de gráficos
completos. 3"] A --> E["Redes neuronales
de gráficos:
aprendizaje profundo
para gráficos. 4"] A --> F["Aumento de
datos:
aumentar la diversidad
de datos de entrenamiento. 5"] B --> G["Densidad de homomorfismo:
frecuencia de
patrones de subgráficos. 6"] G --> H["Motivo discriminativo:
subgráfico que determina
la clase. 7"] H --> I["Norma de corte:
medida de similitud
estructural. 8"] H --> J["Función escalonada:
aproxima
graphons. 9"] G --> K["Generación de gráficos:
creación de gráficos
sintéticos. 10"] C --> L["Intrusión de variedad:
ejemplos sintéticos
en conflicto. 11"] L --> M["Robustez del modelo:
rendimiento bajo
perturbaciones. 12"] M --> N["Perturbación de nodo/arista:
modificar propiedades
del gráfico. 13"] N --> O["Muestreo de subgráficos:
extraer subgráficos. 14"] L --> P["Estimación de graphon:
inferir a partir de datos. 15"] C --> Q["Lema de regularidad débil:
aproximación de
graphons. 16"] Q --> R["Modelo de bloques estocásticos:
gráficos aleatorios con
comunidades. 17"] R --> S["Agrupamiento de gráficos:
agregar características
de nodos. 18"] R --> T["Mixup:
interpolar características
y etiquetas. 19"] S --> U["Corrupción de etiquetas:
cambios aleatorios
de etiquetas. 20"] A --> V["Corrupción de topología:
modificar estructura
del gráfico. 21"] V --> W["Benchmark de Gráficos Abiertos:
conjuntos de datos para tareas
de gráficos. 22"] W --> X["Predicción de propiedades
moleculares:
predecir propiedades
de moléculas. 23"] X --> Y["Isomorfismo de gráficos:
equivalencia
estructural. 24"] A --> Z["Normalización por lotes:
estabilizar el entrenamiento. 25"] Z --> AA["Dropout:
regularización por
desactivación. 26"] AA --> AB["Optimizador Adam:
algoritmo de
optimización. 27"] AB --> AC["AUROC:
métrica de clasificación
binaria. 28"] AC --> AD["Significancia estadística:
valores p para
resultados. 29"] A --> AE["Sensibilidad a hiperparámetros:
rendimiento con
diferentes
hiperparámetros. 30"] class B,F,G,H,K augmentation class C,L,M,N,O,P,Q,R,S,T graphTheory class L,M,N,O robustness class W,X,Y classification class V,Z,AA,AB,AC,AD,AE others

Resumen:

1.- G-Mixup: Un método de aumento de datos de gráficos que interpola graphons (generadores de gráficos) de diferentes clases de gráficos para crear gráficos sintéticos para el entrenamiento.

2.- Graphon: Una función continua que representa el comportamiento límite de gráficos grandes, utilizada como generador de gráficos.

3.- Clasificación de gráficos: La tarea de asignar etiquetas de clase a gráficos completos en lugar de a nodos individuales.

4.- Redes neuronales de gráficos (GNNs): Modelos de aprendizaje profundo diseñados para procesar datos estructurados en gráficos.

5.- Aumento de datos: Técnicas para aumentar artificialmente el tamaño y la diversidad de los datos de entrenamiento para mejorar el rendimiento y la generalización del modelo.

6.- Densidad de homomorfismo: Una medida de la frecuencia de patrones de subgráficos en un gráfico o graphon.

7.- Motivo discriminativo: La estructura de subgráfico mínima que puede determinar la etiqueta de clase de un gráfico.

8.- Norma de corte: Una medida utilizada para cuantificar la similitud estructural entre graphons.

9.- Función escalonada: Una función constante por tramos utilizada para aproximar graphons en la práctica.

10.- Generación de gráficos: El proceso de crear gráficos sintéticos a partir de un graphon u otro modelo generativo.

11.- Intrusión de variedad: Un problema en los métodos de mixup donde los ejemplos sintéticos entran en conflicto con las etiquetas de datos de entrenamiento originales.

12.- Robustez del modelo: La capacidad de un modelo para mantener el rendimiento bajo diversas perturbaciones o corrupciones de los datos de entrada.

13.- Perturbación de nodo/arista: Técnicas de aumento de gráficos que modifican las propiedades de nodos o aristas de gráficos existentes.

14.- Muestreo de subgráficos: Un método de aumento de gráficos que extrae subgráficos de estructuras de gráficos más grandes.

15.- Estimación de graphon: Técnicas para inferir el graphon subyacente a partir de datos de gráficos observados.

16.- Lema de regularidad débil: Un teorema que garantiza que los graphons pueden ser bien aproximados por funciones escalonadas.

17.- Modelo de bloques estocásticos: Un modelo probabilístico para generar gráficos aleatorios con estructura comunitaria.

18.- Agrupamiento de gráficos: Métodos para agregar características a nivel de nodo en representaciones a nivel de gráfico para tareas de clasificación.

19.- Mixup: Una técnica de aumento de datos que interpola linealmente características y etiquetas entre ejemplos de entrenamiento.

20.- Corrupción de etiquetas: Una prueba de robustez donde una porción de las etiquetas de entrenamiento se cambian aleatoriamente.

21.- Corrupción de topología: Una prueba de robustez donde la estructura del gráfico (aristas) se modifica aleatoriamente.

22.- Benchmark de Gráficos Abiertos (OGB): Una colección de conjuntos de datos de referencia para diversas tareas de aprendizaje automático en gráficos.

23.- Predicción de propiedades moleculares: Una tarea de clasificación de gráficos para predecir propiedades de moléculas representadas como gráficos.

24.- Isomorfismo de gráficos: El concepto de equivalencia estructural entre gráficos, relevante para el diseño de arquitecturas GNN.

25.- Normalización por lotes: Una técnica para estabilizar el entrenamiento de redes neuronales normalizando las entradas de las capas.

26.- Dropout: Una técnica de regularización que desactiva aleatoriamente unidades de la red neuronal durante el entrenamiento.

27.- Optimizador Adam: Un algoritmo de optimización popular para entrenar redes neuronales.

28.- Área Bajo la Curva Característica Operativa del Receptor (AUROC): Una métrica de rendimiento para tareas de clasificación binaria.

29.- Significancia estadística: El uso de valores p para determinar si los resultados observados son probablemente debidos al azar.

30.- Sensibilidad a hiperparámetros: Análisis de cómo cambia el rendimiento del modelo con diferentes valores de hiperparámetros.

Bóveda de Conocimiento construida porDavid Vivancos 2024