DeepMind의 탐색을 위한 Noisy Network

우리는 가중치에 파라메트릭 노이즈가 추가된 deep reinforcement learning 에이전트인 NoisyNet을 소개하고 에이전트 정책의 유도된 확률이 효율적인 탐색을 지원하는데 사용될 수 있음을 보여줍니다.

노이즈의 파라메터는 나머지 네트워크 가중치와 함께 경사하강법으로 학습됩니다. NoisyNet은 구현하기가 쉽고 계산상의 오버헤드가 거의 없습니다. 우리는 A3C, DQN 및 dueling agents(엔트로피 보상과 개별적 ϵ-greedy)는 광범위한 Atari 게임에 대해 상당히 높은 점수를 얻었으며, 경우에 따라 에이전트를 하위 수준에서 초인적인 수준으로 향상 시켰습니다.

Tags:

Noisy Network

DeepMind

A3C

DQN

Noisy

딥마인드