×
🧠 ¿Cómo aprende el Minotauro?
El minotauro no tiene un mapa ni sabe dónde está la salida. Empieza completamente a ciegas y aprende usando un sistema de "premios y castigos" llamado Aprendizaje por Refuerzo.
Para lograr escapar, su cerebro funciona con estas tres reglas:
- Los Premios y Castigos: Cada vez que da un paso, el laberinto lo califica. Si llega a la salida, recibe un gran premio (+10 puntos). Si choca contra una pared, recibe un castigo fuerte (-0.2 puntos). Si da un paso normal, recibe un castigo leve (-0.01 puntos) para enseñarle a no dar vueltas.
- La Memoria (Tabla de Puntajes): A medida que camina, el minotauro anota en su memoria qué tan buena resultó cada dirección (Arriba, Abajo, Izquierda, Derecha) para cada baldosa específica. Al principio no sabe nada, pero con cada intento, sus notas se vuelven más precisas.
- Explorar vs. Recordar: Antes de moverse, el minotauro "tira un dado mental". A veces decide tomar un camino al azar para descubrir zonas nuevas (Exploración). Otras veces, revisa su memoria y elige la dirección que tiene el puntaje más alto (Explotación).
Al principio lo vas a ver chocar mucho y caminar sin sentido. Pero a medida que lo entrenes más veces, dejará de usar el azar, confiará en su memoria y saldrá del laberinto corriendo.