Use observation filter in compute_action for PPO. (#884)

2026-06-27 21:38:18 +08:00 · 2017-08-28 23:01:29 -07:00
parent 5d72818ddc
commit 60d4d01d06
1 changed files with 1 additions and 0 deletions
@@ -266,4 +266,5 @@ class PolicyGradient(Algorithm):
                for (a, o) in zip(self.agents, extra_data[4])])

    def compute_action(self, observation):
+        observation = self.model.observation_filter(observation)
        return self.model.common_policy.compute([observation])[0][0]