Entrenamos un par de redes neuronales para resolver el cubo de Rubik con una mano robótica similar a la de un humano. Las redes neuronales se entrenan íntegramente en una simulación, mediante el mismo código de aprendizaje por refuerzo que se utiliza en OpenAI Five emparejado con una nueva técnica denominada aleatorización automática de dominios (ADR). El sistema puede manejar situaciones que nunca vio durante el entrenamiento, como que una jirafa de peluche lo empuje. Esto demuestra que el aprendizaje por refuerzo no es solo una herramienta para tareas virtuales, sino que puede resolver problemas del mundo físico que requieren una destreza sin precedentes.