pytorch-soft-actor-critic

wassname/pytorch-soft-actor-critic

Fork 0

mirror of https://github.com/wassname/pytorch-soft-actor-critic.git synced 2026-06-27 20:22:28 +08:00

T

Pranjal Tandon f8b7fe9968 Update normalized_actions.py

2019-02-20 14:44:44 +05:30

LICENSE

Initial commit

2018-08-31 17:23:01 +05:30

main.py

Update main.py

2019-02-20 14:40:03 +05:30

model.py

Update model.py

2019-02-20 14:41:50 +05:30

normalized_actions.py

Update normalized_actions.py

2019-02-20 14:44:44 +05:30

README.md

Update README.md

2019-01-21 11:59:57 +05:30

replay_memory.py

Update replay_memory.py

2018-09-13 08:46:07 +05:30

sac.py

Update sac.py

2019-02-20 14:44:03 +05:30

utils.py

Add files via upload

2018-08-31 17:25:08 +05:30

README.md

Description

Reimplementation of Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor and Soft Actor-Critic Algorithms and Applications.

Requirements

Run

(Note: There is no need for setting Temperature(--alpha) if --automatic_entropy_tuning is True.)

For SAC :

python main.py --env-name Humanoid-v2 --aplha 0.025

For SAC (Hard Update):

python main.py --env-name Humanoid-v2 --aplha 0.025 --tau 1 --target_update_interval 1000

For SAC (Deterministic, Hard Update):

python main.py --env-name Humanoid-v2 --policy Deterministic --tau 1 --target_update_interval 1000

Default Parameters

Parameters	Value
Shared	-
optimizer	Adam
learning rate(`--lr`)	3x10⁻⁴
discount(`--gamma`) (γ)	0.99
replay buffer size(`--replay_size`)	1x10⁶
automatic_entropy_tuning(`--automatic_entropy_tuning`)	True
number of hidden layers (all networks)	2
number of hidden units per layer(`--hidden_size`)	256
number of samples per minibatch(`--batch_size`)	256
nonlinearity	ReLU
SAC	-
target smoothing coefficient(`--tau`) (τ)	0.005
target update interval(`--target_update_interval`)	1
gradient steps(`--updates_per_step`)	1
SAC (Hard Update)	-
target smoothing coefficient(`--tau`) (τ)	1
target update interval(`--target_update_interval`)	1000
gradient steps (except humanoids)(`--updates_per_step`)	4
gradient steps (humanoids)(`--updates_per_step`)	1

Environment (`--env-name`)	Temperature (`--alpha`)
HalfCheetah-v2	0.1
Hopper-v2	0.1
Walker2d-v2	0.1
Ant-v2	0.1
Humanoid-v2	0.025

README.md Unescape Escape

Description

Requirements

Run

For SAC :

For SAC (Hard Update):

For SAC (Deterministic, Hard Update):

Default Parameters

README.md