Gráfico de Conceptos & Resumen usando Claude 3 Opus | Chat GPT4 | Gemini Adv | Llama 3:
Resumen:
1.-El objetivo es entender los mecanismos computacionales necesarios para robots inteligentes de propósito general que puedan manejar la variabilidad en entornos y tareas.
2.-Las políticas de robots pueden representarse como un programa Pi que mapea la historia de acción/observación a la siguiente acción, optimizado para una distribución de dominio.
3.-Los dominios simples permiten políticas simples, mientras que los dominios complejos/incertidumbre requieren políticas más generales/adaptativas. Encontrar la política óptima es técnicamente desafiante.
4.-Las políticas pueden representarse de varias maneras, por ejemplo, como políticas crudas, funciones de valor, planificadores con modelos de transición, abstracción jerárquica.
5.-Los robots pueden ser diseñados para tareas estrechas conocidas o requerir aprendizaje/adaptación para distribuciones de tareas más amplias e inciertas.
6.-La ingeniería clásica funciona para tareas estrechas conocidas. RL en simulación puede compilar simuladores en políticas para tareas moderadamente complejas.
7.-La planificación en línea permite manejar horizontes más largos mediante la re-planificación, por ejemplo, AlphaZero. La planificación jerárquica permite tareas muy complejas.
8.-Varios componentes pueden permitir un comportamiento complejo del robot: percepción, planificación, ejecución jerárquica, control de bajo nivel. El sistema HPN demuestra esto sin aprendizaje.
9.-La experiencia es muy costosa al aprender en línea en el mundo real. Se necesitan previos/sesgos para aprender eficientemente a partir de muestras limitadas.
10.-Un enfoque es aprender nuevas habilidades, capacidades perceptuales, modelos de transición para expandir un sistema como HPN a través del aprendizaje.
11.-Aprender modelos de pre-imagen permite integrar una nueva habilidad primitiva (por ejemplo, verter) como un operador en un planificador de tareas y movimientos.
12.-La regresión de proceso gaussiano permite aprender el "modo" en el que una habilidad como verter tendrá éxito a partir de pocas muestras.
13.-Aprender el conjunto de nivel completo de parámetros exitosos permite flexibilidad, por ejemplo, verter desde diferentes agarres si el nominal es inviable.
14.-Compilar operadores aprendidos en políticas parciales puede proporcionar un equilibrio entre la flexibilidad de la planificación y la eficiencia de las habilidades reactivas.
15.-Las políticas parciales elevadas permiten la generalización, por ejemplo, aprender una política para poner cualquier objeto en cualquier caja a un nivel abstracto.
16.-Aprender el conocimiento de control de búsqueda, por ejemplo, con redes neuronales gráficas y características relacionales, puede guiar la planificación en grandes espacios combinatorios.
17.-La generalización a través de tareas significativamente diferentes es posible con la abstracción de estado correcta, por ejemplo, despejar el acceso a un objeto.
18.-La perspicacia humana sigue siendo necesaria para proporcionar sesgos algorítmicos y estructurales útiles para los sistemas de aprendizaje de robots, especialmente en dominios complejos.
19.-Los sesgos clave incluyen: algoritmos como la planificación, arquitecturas como jerarquías, abstracciones de estado como objetos, estructuras de aprendizaje como convoluciones.
20.-Durante las últimas décadas, ha habido un gran progreso en ML/RL, pero los robots autónomos requieren estructura adicional para aprender eficientemente en entornos reales costosos.
Bóveda del Conocimiento construida porDavid Vivancos 2024