ES(Evolution Strategy) : 강화학습의 확장가능한 대안

ES의 발견은 수십년된 아이디어에 강력한 결과를 얻어 현대적인 경향을 지속하게 합니다. 예를 들어, 2012년에 “AlexNet”논문은 CNN이 유망한 접근 방법이 아니라고 생각한 대부분의 연구자가 이미지 인식 작업에 매우 강한 결과를 얻기 위해 CNN을 설계, 확장 및 훈련하는 방법을 보여주었습니다. 마찬가지로, 2013년 Deep Q-Learning에서 Q-Learning을 CNN과 결합하여 Atari 게임을 성공적으로 해결하는 방법을 보여주었습니다. 이론적인 실험보다는 흥미로운 실험을 통해 RL을 다시 활성화 시켰습니다. 마찬가지로 우리의 연구는 ES 방법이 높은 차원의 문제에 적용하는 것이 불가능하다는 공통적인 믿음을 없애고 RL 벤치 마크에서 ES가 강력한 성능을 달성한다는 것을 입증합니다.

 

 

ES는 구현이 간단하며(backpropagation이 필요 없음), 분산 설정에서 확장하기가 쉽고, sparse reward가 있는 설정에서 문제가 발생하지 않으며 hyperparameter가 적습니다. ES가 각 단계에서 몇 가지 무작위 방향의 finite difference 만을 기반으로하는 고차원 공간에서의 단순한 언덕 오르기와 유사하기 때문에 이 결과는 놀랍습니다.

 

 

Tags:

딥러닝

강화학습

ES

Evolution Strategy

DQN

CNN

AlexNet

RL