Conocimiento Bóveda 6 /87 - ICML 2023
Una Marca de Agua para Modelos de Lenguaje Extensos
John Kirchenbauer · Jonas Geiping · Yuxin Wen · Jonathan Katz · Ian Miers · Tom Goldstein
< Imagen del Resumen >

Gráfico de Conceptos & Resumen usando Claude 3.5 Sonnet | Chat GPT4o | Llama 3:

graph LR classDef watermarking fill:#f9d4d4, font-weight:bold, font-size:14px classDef detection fill:#d4f9d4, font-weight:bold, font-size:14px classDef robustness fill:#d4d4f9, font-weight:bold, font-size:14px classDef challenges fill:#f9f9d4, font-weight:bold, font-size:14px A["Una Marca de Agua para
Modelos de Lenguaje Extensos"] --> B["Técnicas de
Marca de Agua"] A --> C["Métodos de
Detección"] A --> D["Robustez
y
Seguridad"] A --> E["Desafíos
y
Análisis"] B --> B1["Señales de inserción
en texto invisible. 1"] B --> B2["División del vocabulario
en tokens verdes/rojos. 2"] B --> B3["Añadiendo constante δ
a tokens de lista verde. 3"] B --> B4["Búsqueda en haz
amplifica marca de agua
eficazmente. 7"] B --> B5["Marcas de agua públicas/privadas
para
transparencia. 8"] B --> B6["Aplicación de múltiples marcas de agua
para
flexibilidad. 11"] C --> C1["Usando proporción
de tokens verdes
para detección. 4"] C --> C2["Medida de distribución
mide fuerza de marca
de agua. 5"] C --> C3["Límite en marcas de agua
efecto en
perplejidad. 20"] C --> C4["Secuencias más largas
permiten detección
más fuerte. 24"] C --> C5["Fuerza variable
basada en predictibilidad
del texto. 25"] C --> C6["Equilibrio entre precisión
de detección y
tasas de error. 22"] D --> D1["Difícil de eliminar
sin pérdida de calidad. 9"] D --> D2["Eliminación de marca de agua
mediante
reformulación. 13"] D --> D3["Cambio de tokenización
de sub-palabras para
afectar hash. 14"] D --> D4["Uso de caracteres unicode
similares. 15"] D --> D5["Modelo de incitación
para cambiar
salida predeciblemente. 16"] D --> D6["Normalización del texto
antes de la prueba
de marca de agua. 17"] E --> E1["Menos efectivo
en texto determinista. 10"] E --> E2["Efecto mínimo
en precisión factual. 18"] E --> E3["Difícil de detectar
marca de agua solo
con texto. 19"] E --> E4["Algunos ataques
aumentan costos de
uso de tokens. 26"] E --> E5["Ajuste fino del modelo
para defenderse
de ataques. 27"] E --> E6["Marco para entender
comportamiento de marca
de agua. 30"] class A,B,B1,B2,B3,B4,B5,B6 watermarking class C,C1,C2,C3,C4,C5,C6 detection class D,D1,D2,D3,D4,D5,D6 robustness class E,E1,E2,E3,E4,E5,E6 challenges

Resumen:

1.- Marca de agua para modelos de lenguaje: Inserción de señales en texto generado que son invisibles para humanos pero detectables algorítmicamente.

2.- Lista verde/roja: División aleatoria del vocabulario en tokens "verdes" (permitidos) y "rojos" (desaconsejados) para cada paso de generación.

3.- Marca de agua suave: Añadir una constante δ a los logits de los tokens de la lista verde, aplicando la marca de agua de manera adaptativa según la entropía del texto.

4.- Detección mediante estadística z: Usar la proporción de tokens verdes para detectar la marca de agua con valores p interpretables.

5.- Entropía de pico: Medida de la propagación de la distribución, útil para analizar la fuerza de la marca de agua.

6.- Compromiso entre fuerza de la marca de agua y calidad del texto: Marcas de agua más fuertes pueden distorsionar el texto generado.

7.- Sinergia de búsqueda en haz: Usar búsqueda en haz amplifica la marca de agua manteniendo la calidad del texto.

8.- Marca de agua pública/privada: Permite transparencia y verificación independiente manteniendo una detección privada más fuerte.

9.- Robustez de la marca de agua: Difícil de eliminar sin modificar significativamente el texto o degradar la calidad.

10.- Desafíos de baja entropía: La marca de agua es menos efectiva en secuencias de texto altamente deterministas.

11.- Múltiples marcas de agua: Aplicación simultánea de varias marcas de agua para flexibilidad y detección más fuerte.

12.- Marca de agua selectiva: Activación de la marca de agua en respuesta al uso sospechoso de la API.

13.- Ataques de parafraseo: Intentos de eliminar la marca de agua mediante reformulación manual o automatizada.

14.- Ataques de tokenización: Modificación del texto para cambiar la tokenización de sub-palabras e impactar el cálculo del hash.

15.- Ataques de homoglifos: Uso de caracteres unicode que parecen idénticos para cambiar la tokenización.

16.- Ataques generativos: Incitar al modelo a cambiar la salida de maneras predecibles y reversibles (por ejemplo, inserción de emojis).

17.- Canonicalización: Normalizar el texto antes de la prueba de marca de agua para defenderse de ciertos ataques.

18.- Impacto en la factualidad: La marca de agua suave tiene un efecto mínimo en la precisión factual del modelo.

19.- Descubrimiento de marca de agua: Dificultad de detectar la presencia de la marca de agua solo mediante análisis de texto.

20.- Impacto en la perplejidad: Límite teórico sobre cómo afecta la marca de agua a la perplejidad del modelo.

21.- Modo privado: Uso de una clave aleatoria secreta para la marca de agua, alojada detrás de una API segura.

22.- Compromisos de falsos positivos/negativos: Equilibrio entre la precisión de detección de la marca de agua y las tasas de error.

23.- Parámetros de la marca de agua: Efectos del tamaño de la lista verde (γ) y el aumento de logit (δ) en la fuerza de la marca de agua.

24.- Impacto de la longitud de la secuencia: Las secuencias más largas permiten una detección de marca de agua más fuerte.

25.- Adaptación basada en la entropía: La fuerza de la marca de agua varía según la predictibilidad del texto.

26.- Consideraciones de costo de API: Algunos ataques aumentan el uso de tokens, elevando los costos para los atacantes.

27.- Entrenamiento con ejemplos negativos: Defensa potencial contra ciertos ataques mediante ajuste fino del modelo.

28.- Manejo de n-gramas repetidos: Ignorar frases repetidas para mejorar la sensibilidad de la marca de agua.

29.- Evaluación del modelo oráculo: Uso de un modelo más grande para evaluar la perplejidad del texto con marca de agua.

30.- Análisis teórico: Marco matemático para entender el comportamiento de la marca de agua y la sensibilidad de detección.

Bóveda del Conocimiento construida porDavid Vivancos 2024