[rllib] Documentation for I/O API and multi-agent support / cleanup (#3650)

2026-07-02 12:14:43 +08:00 · 2019-01-03 15:15:36 +08:00
parent 2177e2f410
commit ca864faece
19 changed files with 431 additions and 61 deletions
@@ -0,0 +1,47 @@
+from __future__ import absolute_import
+from __future__ import division
+from __future__ import print_function
+"""Simple example of writing experiences to a file using JsonWriter."""
+
+# __sphinx_doc_begin__
+import gym
+import numpy as np
+
+from ray.rllib.evaluation.sample_batch import SampleBatchBuilder
+from ray.rllib.offline.json_writer import JsonWriter
+
+if __name__ == "__main__":
+    batch_builder = SampleBatchBuilder()  # or MultiAgentSampleBatchBuilder
+    writer = JsonWriter("/tmp/demo-out")
+
+    # You normally wouldn't want to manually create sample batches if a
+    # simulator is available, but let's do it anyways for example purposes:
+    env = gym.make("CartPole-v0")
+
+    for eps_id in range(100):
+        obs = env.reset()
+        prev_action = np.zeros_like(env.action_space.sample())
+        prev_reward = 0
+        done = False
+        t = 0
+        while not done:
+            action = env.action_space.sample()
+            new_obs, rew, done, info = env.step(action)
+            batch_builder.add_values(
+                t=t,
+                eps_id=eps_id,
+                agent_index=0,
+                obs=obs,
+                actions=action,
+                rewards=rew,
+                prev_actions=prev_action,
+                prev_rewards=prev_reward,
+                dones=done,
+                infos=info,
+                new_obs=new_obs)
+            obs = new_obs
+            prev_action = action
+            prev_reward = rew
+            t += 1
+        writer.write(batch_builder.build_and_reset())
+# __sphinx_doc_end__