PacktPublishing
diff --git a/‎Chapter01/06_neural_evolutionary_agent.ipynb‎
Lines changed: 6 additions & 6 deletions b/‎Chapter01/06_neural_evolutionary_agent.ipynb‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎Chapter02/3_temporal_difference_learning.ipynb‎
Lines changed: 1 addition & 1 deletion b/‎Chapter02/3_temporal_difference_learning.ipynb‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎Chapter02/4_monte_carlo_prediction_and_control_rl.ipynb‎
Lines changed: 2 additions & 2 deletions b/‎Chapter02/4_monte_carlo_prediction_and_control_rl.ipynb‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎Chapter02/5_sarsa_sarsa_lambda.ipynb‎
Lines changed: 1 addition & 1 deletion b/‎Chapter02/5_sarsa_sarsa_lambda.ipynb‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎Chapter02/6_q_learning.ipynb‎
Lines changed: 1 addition & 1 deletion b/‎Chapter02/6_q_learning.ipynb‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎Chapter02/7_policy_gradients.ipynb‎
Lines changed: 14 additions & 2 deletions b/‎Chapter02/7_policy_gradients.ipynb‎
Lines changed: 14 additions & 2 deletions
diff --git a/‎Chapter02/8_actor_critic_agent.ipynb‎
Lines changed: 13 additions & 78 deletions b/‎Chapter02/8_actor_critic_agent.ipynb‎
Lines changed: 13 additions & 78 deletions
diff --git a/‎Chapter03/1_double_dqn.ipynb‎
Lines changed: 4 additions & 4 deletions b/‎Chapter03/1_double_dqn.ipynb‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎Chapter03/1_dqn.ipynb‎
Lines changed: 3 additions & 3 deletions b/‎Chapter03/1_dqn.ipynb‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎Chapter03/2_dueling_dqn.ipynb‎
Lines changed: 3 additions & 3 deletions b/‎Chapter03/2_dueling_dqn.ipynb‎
Lines changed: 3 additions & 3 deletions
@@ -323,7 +323,13 @@
       "Episode#:0 ep_reward:-171.0\r",
       "Episode#:0 ep_reward:-172.0\r",
       "Episode#:0 ep_reward:-173.0\r",
-      "Episode#:0 ep_reward:-174.0\r",
+      "Episode#:0 ep_reward:-174.0\r"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
       "Episode#:0 ep_reward:-175.0\r",
       "Episode#:0 ep_reward:-176.0\r",
       "Episode#:0 ep_reward:-177.0\r",
@@ -540,7 +546,13 @@
       "Episode#:1 ep_reward:-174.0\r",
       "Episode#:1 ep_reward:-175.0\r",
       "Episode#:1 ep_reward:-176.0\r",
-      "Episode#:1 ep_reward:-177.0\r",
+      "Episode#:1 ep_reward:-177.0\r"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
       "Episode#:1 ep_reward:-178.0\r",
       "Episode#:1 ep_reward:-179.0\r",
       "Episode#:1 ep_reward:-180.0\r",
 
@@ -161,116 +161,51 @@
       "Episode#:0 ep_reward:7.0\r",
       "Episode#:0 ep_reward:8.0\r",
       "Episode#:0 ep_reward:9.0\r",
-      "Episode#:0 ep_reward:10.0\r",
+      "Episode#:0 ep_reward:10.0\r\n",
+      "\n",
       "Episode#:0 ep_reward:11.0\r",
-      "Episode#:0 ep_reward:12.0\r",
-      "Episode#:0 ep_reward:13.0\r",
-      "Episode#:0 ep_reward:14.0\r",
-      "Episode#:0 ep_reward:15.0\r",
-      "Episode#:0 ep_reward:16.0\r"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Episode#:0 ep_reward:17.0\r",
-      "Episode#:0 ep_reward:18.0\r",
-      "Episode#:0 ep_reward:19.0\r",
-      "Episode#:0 ep_reward:20.0\r",
-      "Episode#:0 ep_reward:21.0\r",
-      "Episode#:0 ep_reward:22.0\r",
-      "Episode#:0 ep_reward:23.0\r",
-      "Episode#:0 ep_reward:24.0\r"
+      "Episode#:1 ep_reward:1.0\r"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\n",
-      "\n",
-      "Episode#:0 ep_reward:25.0\r",
-      "Episode#:1 ep_reward:1.0\r",
       "Episode#:1 ep_reward:2.0\r",
       "Episode#:1 ep_reward:3.0\r",
       "Episode#:1 ep_reward:4.0\r",
       "Episode#:1 ep_reward:5.0\r",
       "Episode#:1 ep_reward:6.0\r",
       "Episode#:1 ep_reward:7.0\r",
       "Episode#:1 ep_reward:8.0\r",
-      "Episode#:1 ep_reward:9.0\r",
-      "Episode#:1 ep_reward:10.0\r",
-      "Episode#:1 ep_reward:11.0\r",
-      "Episode#:1 ep_reward:12.0\r",
-      "Episode#:1 ep_reward:13.0\r",
-      "Episode#:1 ep_reward:14.0\r",
-      "Episode#:1 ep_reward:15.0\r"
+      "Episode#:1 ep_reward:9.0\r"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
+      "Episode#:1 ep_reward:10.0\r",
+      "Episode#:1 ep_reward:11.0\r",
+      "Episode#:1 ep_reward:12.0\r",
+      "Episode#:1 ep_reward:13.0\r",
+      "Episode#:1 ep_reward:14.0\r",
+      "Episode#:1 ep_reward:15.0\r",
       "Episode#:1 ep_reward:16.0\r",
       "Episode#:1 ep_reward:17.0\r",
       "Episode#:1 ep_reward:18.0\r",
       "Episode#:1 ep_reward:19.0\r",
       "Episode#:1 ep_reward:20.0\r",
-      "Episode#:1 ep_reward:21.0\r",
-      "Episode#:1 ep_reward:22.0\r",
-      "Episode#:1 ep_reward:23.0\r"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Episode#:1 ep_reward:24.0\r",
-      "Episode#:1 ep_reward:25.0\r",
-      "Episode#:1 ep_reward:26.0\r",
-      "Episode#:1 ep_reward:27.0\r",
-      "Episode#:1 ep_reward:28.0\r",
-      "Episode#:1 ep_reward:29.0\r",
-      "Episode#:1 ep_reward:30.0\r",
-      "Episode#:1 ep_reward:31.0\r",
-      "Episode#:1 ep_reward:32.0\r",
-      "Episode#:1 ep_reward:33.0\r",
-      "Episode#:1 ep_reward:34.0\r",
-      "Episode#:1 ep_reward:35.0\r",
-      "Episode#:1 ep_reward:36.0\r",
-      "Episode#:1 ep_reward:37.0\r",
-      "Episode#:1 ep_reward:38.0\r",
-      "Episode#:1 ep_reward:39.0\r"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Episode#:1 ep_reward:40.0\r",
-      "Episode#:1 ep_reward:41.0\r",
-      "Episode#:1 ep_reward:42.0\r",
-      "Episode#:1 ep_reward:43.0\r",
-      "Episode#:1 ep_reward:44.0\r",
-      "Episode#:1 ep_reward:45.0\r",
-      "Episode#:1 ep_reward:46.0\r",
-      "Episode#:1 ep_reward:47.0\r"
+      "Episode#:1 ep_reward:21.0\r"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Episode#:1 ep_reward:48.0\r",
-      "Episode#:1 ep_reward:49.0\r",
-      "Episode#:1 ep_reward:50.0\r",
-      "Episode#:1 ep_reward:51.0\r",
-      "Episode#:1 ep_reward:52.0\r",
-      "Episode#:1 ep_reward:53.0\r",
-      "Episode#:1 ep_reward:54.0\r\n",
       "\n",
-      "Episode#:1 ep_reward:55.0\r"
+      "\n",
+      "Episode#:1 ep_reward:22.0\r"
      ]
     }
    ],
 
@@ -72,7 +72,7 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Saving training logs to:logs/TFRL-Cookbook-Ch3-DoubleDQN/CartPole-v0/20210524-054846\n"
+      "Saving training logs to:logs/TFRL-Cookbook-Ch3-DoubleDQN/CartPole-v0/20210526-035407\n"
      ]
     }
    ],
@@ -195,7 +195,7 @@
     "                    action = self.model.get_action(observation)\n",
     "                    next_observation, reward, done, _ = self.env.step(action)\n",
     "                    self.buffer.store(\n",
-    "                        observation, action, reward * 0.01, next_observation, done\n",
+    "                        observation, action, reward, next_observation, done\n",
     "                    )\n",
     "                    episode_reward += reward\n",
     "                    observation = next_observation\n",
@@ -216,14 +216,14 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Episode#0 Reward:21.0\n"
+      "Episode#0 Reward:10.0\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Episode#1 Reward:40.0\n"
+      "Episode#1 Reward:14.0\n"
      ]
     }
    ],
 
@@ -80,7 +80,7 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Saving training logs to:logs/TFRL-Cookbook-Ch3-DQN/CartPole-v0/20210524-054851\n"
+      "Saving training logs to:logs/TFRL-Cookbook-Ch3-DQN/CartPole-v0/20210526-035412\n"
      ]
     }
    ],
@@ -221,14 +221,14 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Episode#0 Reward:13.0\n"
+      "Episode#0 Reward:31.0\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Episode#1 Reward:30.0\n"
+      "Episode#1 Reward:36.0\n"
      ]
     }
    ],
 
@@ -80,7 +80,7 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Saving training logs to:logs/TFRL-Cookbook-Ch3-DuelingDQN/CartPole-v0/20210524-054842\n"
+      "Saving training logs to:logs/TFRL-Cookbook-Ch3-DuelingDQN/CartPole-v0/20210526-035403\n"
      ]
     }
    ],
@@ -225,14 +225,14 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Episode#0 Reward:22.0\n"
+      "Episode#0 Reward:19.0\n"
      ]
     },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Episode#1 Reward:14.0\n"
+      "Episode#1 Reward:13.0\n"
      ]
     }
    ],
Original file line number	Diff line number	Diff line change
`@@ -72,7 +72,7 @@`
`72`	`72`	`"name": "stdout",`
`73`	`73`	`"output_type": "stream",`
`74`	`74`	`"text": [`
`75`		`- "Saving training logs to:logs/TFRL-Cookbook-Ch3-DoubleDQN/CartPole-v0/20210524-054846\n"`
	`75`	`+ "Saving training logs to:logs/TFRL-Cookbook-Ch3-DoubleDQN/CartPole-v0/20210526-035407\n"`
`76`	`76`	`]`
`77`	`77`	`}`
`78`	`78`	`],`
`@@ -195,7 +195,7 @@`
`195`	`195`	`" action = self.model.get_action(observation)\n",`
`196`	`196`	`" next_observation, reward, done, _ = self.env.step(action)\n",`
`197`	`197`	`" self.buffer.store(\n",`
`198`		`- " observation, action, reward * 0.01, next_observation, done\n",`
	`198`	`+ " observation, action, reward, next_observation, done\n",`
`199`	`199`	`" )\n",`
`200`	`200`	`" episode_reward += reward\n",`
`201`	`201`	`" observation = next_observation\n",`
`@@ -216,14 +216,14 @@`
`216`	`216`	`"name": "stdout",`
`217`	`217`	`"output_type": "stream",`
`218`	`218`	`"text": [`
`219`		`- "Episode#0 Reward:21.0\n"`
	`219`	`+ "Episode#0 Reward:10.0\n"`
`220`	`220`	`]`
`221`	`221`	`},`
`222`	`222`	`{`
`223`	`223`	`"name": "stdout",`
`224`	`224`	`"output_type": "stream",`
`225`	`225`	`"text": [`
`226`		`- "Episode#1 Reward:40.0\n"`
	`226`	`+ "Episode#1 Reward:14.0\n"`
`227`	`227`	`]`
`228`	`228`	`}`
`229`	`229`	`],`
Original file line number	Diff line number	Diff line change
`@@ -80,7 +80,7 @@`
`80`	`80`	`"name": "stdout",`
`81`	`81`	`"output_type": "stream",`
`82`	`82`	`"text": [`
`83`		`- "Saving training logs to:logs/TFRL-Cookbook-Ch3-DQN/CartPole-v0/20210524-054851\n"`
	`83`	`+ "Saving training logs to:logs/TFRL-Cookbook-Ch3-DQN/CartPole-v0/20210526-035412\n"`
`84`	`84`	`]`
`85`	`85`	`}`
`86`	`86`	`],`
`@@ -221,14 +221,14 @@`
`221`	`221`	`"name": "stdout",`
`222`	`222`	`"output_type": "stream",`
`223`	`223`	`"text": [`
`224`		`- "Episode#0 Reward:13.0\n"`
	`224`	`+ "Episode#0 Reward:31.0\n"`
`225`	`225`	`]`
`226`	`226`	`},`
`227`	`227`	`{`
`228`	`228`	`"name": "stdout",`
`229`	`229`	`"output_type": "stream",`
`230`	`230`	`"text": [`
`231`		`- "Episode#1 Reward:30.0\n"`
	`231`	`+ "Episode#1 Reward:36.0\n"`
`232`	`232`	`]`
`233`	`233`	`}`
`234`	`234`	`],`