Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:
Resumen:
1.- Marca de agua para modelos de lenguaje: Inserción de señales en texto generado que son invisibles para humanos pero detectables algorítmicamente.
2.- Lista verde/roja: División aleatoria del vocabulario en tokens "verdes" (permitidos) y "rojos" (desaconsejados) para cada paso de generación.
3.- Marca de agua suave: Añadir una constante δ a los logits de los tokens de la lista verde, aplicando la marca de agua de manera adaptativa según la entropía del texto.
4.- Detección mediante estadística z: Usar la proporción de tokens verdes para detectar la marca de agua con valores p interpretables.
5.- Entropía de pico: Medida de la propagación de la distribución, útil para analizar la fuerza de la marca de agua.
6.- Compromiso entre fuerza de la marca de agua y calidad del texto: Marcas de agua más fuertes pueden distorsionar el texto generado.
7.- Sinergia de búsqueda en haz: Usar búsqueda en haz amplifica la marca de agua manteniendo la calidad del texto.
8.- Marca de agua pública/privada: Permite transparencia y verificación independiente manteniendo una detección privada más fuerte.
9.- Robustez de la marca de agua: Difícil de eliminar sin modificar significativamente el texto o degradar la calidad.
10.- Desafíos de baja entropía: La marca de agua es menos efectiva en secuencias de texto altamente deterministas.
11.- Múltiples marcas de agua: Aplicación simultánea de varias marcas de agua para flexibilidad y detección más fuerte.
12.- Marca de agua selectiva: Activación de la marca de agua en respuesta al uso sospechoso de la API.
13.- Ataques de parafraseo: Intentos de eliminar la marca de agua mediante reformulación manual o automatizada.
14.- Ataques de tokenización: Modificación del texto para cambiar la tokenización de sub-palabras e impactar el cálculo del hash.
15.- Ataques de homoglifos: Uso de caracteres unicode que parecen idénticos para cambiar la tokenización.
16.- Ataques generativos: Incitar al modelo a cambiar la salida de maneras predecibles y reversibles (por ejemplo, inserción de emojis).
17.- Canonicalización: Normalizar el texto antes de la prueba de marca de agua para defenderse de ciertos ataques.
18.- Impacto en la factualidad: La marca de agua suave tiene un efecto mínimo en la precisión factual del modelo.
19.- Descubrimiento de marca de agua: Dificultad de detectar la presencia de la marca de agua solo mediante análisis de texto.
20.- Impacto en la perplejidad: Límite teórico sobre cómo afecta la marca de agua a la perplejidad del modelo.
21.- Modo privado: Uso de una clave aleatoria secreta para la marca de agua, alojada detrás de una API segura.
22.- Compromisos de falsos positivos/negativos: Equilibrio entre la precisión de detección de la marca de agua y las tasas de error.
23.- Parámetros de la marca de agua: Efectos del tamaño de la lista verde (γ) y el aumento de logit (δ) en la fuerza de la marca de agua.
24.- Impacto de la longitud de la secuencia: Las secuencias más largas permiten una detección de marca de agua más fuerte.
25.- Adaptación basada en la entropía: La fuerza de la marca de agua varía según la predictibilidad del texto.
26.- Consideraciones de costo de API: Algunos ataques aumentan el uso de tokens, elevando los costos para los atacantes.
27.- Entrenamiento con ejemplos negativos: Defensa potencial contra ciertos ataques mediante ajuste fino del modelo.
28.- Manejo de n-gramas repetidos: Ignorar frases repetidas para mejorar la sensibilidad de la marca de agua.
29.- Evaluación del modelo oráculo: Uso de un modelo más grande para evaluar la perplejidad del texto con marca de agua.
30.- Análisis teórico: Marco matemático para entender el comportamiento de la marca de agua y la sensibilidad de detección.
Bóveda del Conocimiento construida porDavid Vivancos 2024