딥러닝, NLP, 표현

Introduction

지난 몇년간, 딥 뉴럴 네트워크는 패턴인식을 독점했다. 딥 뉴럴넷은 많은 컴퓨터 비전 문제의 최신 기술을 구식으로 만들었다. 음성 인식도 역시 그 방향으로 가고 있다. 그 결과에도 불구하고, 우리는 궁금하다. 왜 그것들이 잘 동작하는가?

이 포스트는 딥뉴럴넷deep neural networks을 natural language processing (NLP)에 적용한 주목할만한 결과를 리뷰한다. 그렇게 함으로써, 왜 딥뉴럴넷이 동작하는지에 대한 답을 찾길 원한다. 나는 그것이 매우 좋은 접근법이라고 생각한다.

One Hidden Layer Neural Networks

은닉층hidden layer를 가진 뉴럴넷은 보편성을 가지고 있다: 충분한 은닉유닛hidden unit이 주어졌을 때, 어떤 함수든 근사approximate할 수 있다. This is a frequently quoted – and even more frequently, misunderstood and applied – theorem.

이것은 사실이다, 특히 은닉층은 룩업 테이블로 사용할 수 있기 때문이다.

심플하게, 퍼셉트론 네트워크를 고려하자.

특정 threshold를 넘으면 켜지는 퍼셉트론은 매우 간단한 뉴런이다. 퍼셉트론 네트워크는 바이너리 입력(0 과 1)을 얻어 바이너리 출력을 낸다.

입력은 유한한 경우의 수만 있다는 것을 기억해라. 각 가능한 입력에 대해, 그 입력에 대해서만 켜지는 은닉층의 뉴런을 만들 수 있다. 그 후 그 특별한 경우에 대한 출력을 조절하기 위해 뉴런과 출력 뉴런사이에 연결을 사용할 수 있다.

그래서 하나의 은닉층의 뉴럴넷은 universal하다는 것은 사실이다. 그러나, 그 사실은 놀랍지는 않다. 모델이 룩업테이블과 같은 것을 할 수 있다는 것은 그것에 대한 유리한 논쟁은 아니다. 단지 너의 모델이 그 임무를 하는 것이 불가능하지는 않다는 것을 의미한다.

범용성(Universality)은 네트워크가 어떤 훈련 데이터에도 fit할수 있음을 의미한다. 새로운 데이터를 잘 외삽(interpolate)할 수 있다는 것을 의미하진 않는다.

범용성은 뉴럴넷이 잘 동작하는 설명은 되지 못한다. 진짜 이유는 좀 더 미묘한 것이다. 그리고 그것을 이해하기 위해, 맨먼저 어떤 구체적인 결과를 이해할 필요가 있다.

–> http://mlduck.tistory.com/8 로 계속