Spaces:

cross-entropy-ai
/

rlcube

Running

App Files Files Community

imwithye commited on Sep 8

Commit

80f5283

1 Parent(s): b908f51

learn 2 steps

Browse files

Files changed (1) hide show

rlcube/cube2.ipynb +386 -21

rlcube/cube2.ipynb CHANGED Viewed

@@ -2,7 +2,7 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 2,
    "id": "dff864f2",
    "metadata": {},
    "outputs": [],
@@ -231,7 +231,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 6,
    "id": "624c83c1",
    "metadata": {},
    "outputs": [],
@@ -245,54 +245,419 @@
     "    \n",
     "    def reset(self, *args, **kwargs):\n",
     "        super().reset(*args, **kwargs)\n",
-    "        actions = [self.env.action_space.sample() for _ in range(20)]\n",
-    "        for action in actions:\n",
-    "            self.env.step(action)\n",
     "        return self.env._get_obs(), {}\n",
     "\n",
     "    def step(self, action):\n",
     "        obs, reward, terminated, truncated, _ = super().step(action)\n",
     "        return obs, reward, terminated, truncated, _"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 7,
-   "id": "639f54c6",
    "metadata": {},
    "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "[[1. 1. 0. 3.]\n",
-      " [5. 4. 4. 2.]\n",
-      " [3. 4. 5. 5.]\n",
-      " [1. 2. 2. 4.]\n",
-      " [1. 3. 0. 0.]\n",
-      " [3. 5. 0. 2.]]\n"
      ]
     }
    ],
    "source": [
     "env = Cube2()\n",
     "env = RewardWrapper(env)\n",
-    "obs, _ = env.reset()\n",
-    "print(env.state())"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": null,
-   "id": "f8b4d968",
    "metadata": {},
-   "outputs": [],
    "source": [
-    "from stable_baselines3 import DQN\n",
     "\n",
-    "model = DQN(\"MlpPolicy\", env, verbose=1)\n",
-    "model.learn(total_timesteps=10000, log_interval=10)"
    ]
   }
  ],
  "metadata": {

  "cells": [
   {
    "cell_type": "code",
+   "execution_count": 127,
    "id": "dff864f2",
    "metadata": {},
    "outputs": [],
   },
   {
    "cell_type": "code",
+   "execution_count": 128,
    "id": "624c83c1",
    "metadata": {},
    "outputs": [],
     "    \n",
     "    def reset(self, *args, **kwargs):\n",
     "        super().reset(*args, **kwargs)\n",
+    "        self.env.step(self.env.action_space.sample())\n",
+    "        self.env.step(self.env.action_space.sample())\n",
     "        return self.env._get_obs(), {}\n",
     "\n",
     "    def step(self, action):\n",
     "        obs, reward, terminated, truncated, _ = super().step(action)\n",
+    "        if terminated:\n",
+    "            reward = 100\n",
     "        return obs, reward, terminated, truncated, _"
    ]
   },
   {
    "cell_type": "code",
+   "execution_count": 130,
+   "id": "f8b4d968",
    "metadata": {},
    "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
+      "Using cpu device\n",
+      "Wrapping the env with a `Monitor` wrapper\n",
+      "Wrapping the env in a DummyVecEnv.\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 91.4     |\n",
+      "|    ep_rew_mean      | -84.3    |\n",
+      "|    exploration_rate | 0.132    |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 100      |\n",
+      "|    fps              | 4624     |\n",
+      "|    time_elapsed     | 1        |\n",
+      "|    total_timesteps  | 9136     |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.00031  |\n",
+      "|    n_updates        | 2258     |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 87.9     |\n",
+      "|    ep_rew_mean      | -76.8    |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 200      |\n",
+      "|    fps              | 4407     |\n",
+      "|    time_elapsed     | 4        |\n",
+      "|    total_timesteps  | 17928    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.00032  |\n",
+      "|    n_updates        | 4456     |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 80.2     |\n",
+      "|    ep_rew_mean      | -61      |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 300      |\n",
+      "|    fps              | 4300     |\n",
+      "|    time_elapsed     | 6        |\n",
+      "|    total_timesteps  | 25946    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.000486 |\n",
+      "|    n_updates        | 6461     |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 71.3     |\n",
+      "|    ep_rew_mean      | -43      |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 400      |\n",
+      "|    fps              | 4189     |\n",
+      "|    time_elapsed     | 7        |\n",
+      "|    total_timesteps  | 33072    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.000479 |\n",
+      "|    n_updates        | 8242     |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 62.8     |\n",
+      "|    ep_rew_mean      | -23.4    |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 500      |\n",
+      "|    fps              | 4123     |\n",
+      "|    time_elapsed     | 9        |\n",
+      "|    total_timesteps  | 39348    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.000449 |\n",
+      "|    n_updates        | 9811     |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 54.2     |\n",
+      "|    ep_rew_mean      | -6.69    |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 600      |\n",
+      "|    fps              | 4072     |\n",
+      "|    time_elapsed     | 10       |\n",
+      "|    total_timesteps  | 44764    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.000499 |\n",
+      "|    n_updates        | 11165    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 37.5     |\n",
+      "|    ep_rew_mean      | 27.1     |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 700      |\n",
+      "|    fps              | 4063     |\n",
+      "|    time_elapsed     | 11       |\n",
+      "|    total_timesteps  | 48514    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.000346 |\n",
+      "|    n_updates        | 12103    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 38.3     |\n",
+      "|    ep_rew_mean      | 26.3     |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 800      |\n",
+      "|    fps              | 4067     |\n",
+      "|    time_elapsed     | 12       |\n",
+      "|    total_timesteps  | 52346    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.000947 |\n",
+      "|    n_updates        | 13061    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 37.5     |\n",
+      "|    ep_rew_mean      | 28.2     |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 900      |\n",
+      "|    fps              | 4076     |\n",
+      "|    time_elapsed     | 13       |\n",
+      "|    total_timesteps  | 56094    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.00122  |\n",
+      "|    n_updates        | 13998    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 49.9     |\n",
+      "|    ep_rew_mean      | 3.65     |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 1000     |\n",
+      "|    fps              | 4092     |\n",
+      "|    time_elapsed     | 14       |\n",
+      "|    total_timesteps  | 61082    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.0014   |\n",
+      "|    n_updates        | 15245    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 42.8     |\n",
+      "|    ep_rew_mean      | 16.8     |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 1100     |\n",
+      "|    fps              | 4106     |\n",
+      "|    time_elapsed     | 15       |\n",
+      "|    total_timesteps  | 65360    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.0115   |\n",
+      "|    n_updates        | 16314    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 30.9     |\n",
+      "|    ep_rew_mean      | 40.9     |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 1200     |\n",
+      "|    fps              | 4113     |\n",
+      "|    time_elapsed     | 16       |\n",
+      "|    total_timesteps  | 68446    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.00337  |\n",
+      "|    n_updates        | 17086    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 35       |\n",
+      "|    ep_rew_mean      | 33.7     |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 1300     |\n",
+      "|    fps              | 4122     |\n",
+      "|    time_elapsed     | 17       |\n",
+      "|    total_timesteps  | 71948    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.039    |\n",
+      "|    n_updates        | 17961    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 31.7     |\n",
+      "|    ep_rew_mean      | 39       |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 1400     |\n",
+      "|    fps              | 4128     |\n",
+      "|    time_elapsed     | 18       |\n",
+      "|    total_timesteps  | 75122    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.00402  |\n",
+      "|    n_updates        | 18755    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 27.7     |\n",
+      "|    ep_rew_mean      | 47       |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 1500     |\n",
+      "|    fps              | 4129     |\n",
+      "|    time_elapsed     | 18       |\n",
+      "|    total_timesteps  | 77894    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.00105  |\n",
+      "|    n_updates        | 19448    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 35.5     |\n",
+      "|    ep_rew_mean      | 31.2     |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 1600     |\n",
+      "|    fps              | 4125     |\n",
+      "|    time_elapsed     | 19       |\n",
+      "|    total_timesteps  | 81440    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.00372  |\n",
+      "|    n_updates        | 20334    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 27.9     |\n",
+      "|    ep_rew_mean      | 46.8     |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 1700     |\n",
+      "|    fps              | 4122     |\n",
+      "|    time_elapsed     | 20       |\n",
+      "|    total_timesteps  | 84230    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.011    |\n",
+      "|    n_updates        | 21032    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 34.3     |\n",
+      "|    ep_rew_mean      | 33.4     |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 1800     |\n",
+      "|    fps              | 4122     |\n",
+      "|    time_elapsed     | 21       |\n",
+      "|    total_timesteps  | 87656    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.00412  |\n",
+      "|    n_updates        | 21888    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 27.3     |\n",
+      "|    ep_rew_mean      | 48.5     |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 1900     |\n",
+      "|    fps              | 4122     |\n",
+      "|    time_elapsed     | 21       |\n",
+      "|    total_timesteps  | 90384    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 6.7      |\n",
+      "|    n_updates        | 22570    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 35.2     |\n",
+      "|    ep_rew_mean      | 31.5     |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 2000     |\n",
+      "|    fps              | 4106     |\n",
+      "|    time_elapsed     | 22       |\n",
+      "|    total_timesteps  | 93900    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.0141   |\n",
+      "|    n_updates        | 23449    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 25.8     |\n",
+      "|    ep_rew_mean      | 51       |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 2100     |\n",
+      "|    fps              | 4105     |\n",
+      "|    time_elapsed     | 23       |\n",
+      "|    total_timesteps  | 96476    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 0.0174   |\n",
+      "|    n_updates        | 24093    |\n",
+      "----------------------------------\n",
+      "----------------------------------\n",
+      "| rollout/            |          |\n",
+      "|    ep_len_mean      | 27.7     |\n",
+      "|    ep_rew_mean      | 47       |\n",
+      "|    exploration_rate | 0.05     |\n",
+      "| time/               |          |\n",
+      "|    episodes         | 2200     |\n",
+      "|    fps              | 4110     |\n",
+      "|    time_elapsed     | 24       |\n",
+      "|    total_timesteps  | 99250    |\n",
+      "| train/              |          |\n",
+      "|    learning_rate    | 0.0001   |\n",
+      "|    loss             | 6.27     |\n",
+      "|    n_updates        | 24787    |\n",
+      "----------------------------------\n"
      ]
     }
    ],
    "source": [
+    "from stable_baselines3 import DQN\n",
+    "\n",
     "env = Cube2()\n",
     "env = RewardWrapper(env)\n",
+    "model = DQN(\"MlpPolicy\", env, verbose=1)\n",
+    "model.learn(total_timesteps=100000, log_interval=100)\n",
+    "model.save(\"dqn_cube2.pkl\")"
    ]
   },
   {
    "cell_type": "code",
+   "execution_count": 148,
+   "id": "24132717",
    "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "rotationController.setState([[4.0, 4.0, 0.0, 0.0], [1.0, 5.0, 1.0, 5.0], [4.0, 2.0, 1.0, 2.0], [5.0, 3.0, 0.0, 3.0], [3.0, 1.0, 3.0, 4.0], [2.0, 0.0, 2.0, 5.0]])\n",
+      "rotationController.addRotationStepCode(...[7, 10, 2, 5, 7, 4, 10, 3, 11, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4])\n",
+      "\n",
+      "Solved in 98 steps\n"
+     ]
+    }
+   ],
    "source": [
+    "# model = DQN.load(\"dqn_cube2.pkl\")\n",
+    "import json\n",
     "\n",
+    "env = Cube2()\n",
+    "env = RewardWrapper(env)\n",
+    "obs, _ = env.reset()\n",
+    "print(f\"rotationController.setState({json.dumps(env.state().tolist())})\")\n",
+    "\n",
+    "solved_actions = []\n",
+    "for i in range(100):\n",
+    "    action, _ = model.predict(obs, deterministic=True)\n",
+    "    solved_actions.append(action.item())\n",
+    "    obs, reward, terminated, truncated, _ = env.step(action)\n",
+    "    if terminated or truncated:\n",
+    "        break\n",
+    "print(f\"rotationController.addRotationStepCode(...{json.dumps(solved_actions)})\")\n",
+    "\n",
+    "print()\n",
+    "print(f\"Solved in {len(solved_actions)} steps\")\n"
    ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "39924b6b",
+   "metadata": {},
+   "outputs": [],
+   "source": []
   }
  ],
  "metadata": {