AI가 수화를 텍스트로 번역합니다.

원문  :  https://blogs.nvidia.com/blog/2017/05/11/ai-translates-sign-language/

청각장애인은 들을 수 없습니다. 대부분의 사람들은 청각장애인의 수화를 이해하지 못합니다.

이 기술은 AI가 다리 역할을 할 수 있는 의사 소통 도구가 될 수 있습니다. Rochester Institute of Technology의 Future Everyday Technology Lab의 연구 조교인 Syed Tousif Ahmed는 이번 주 GPU 기술 회의에서 설명했습니다.

Ahmed와 그의 동료들은 미국의 시각적인 수화 장면을 ​컴퓨터비전, 머신러닝 및 임베디드 시스템을 사용하여 비디오 화면에서 읽을 수 있는 단어로 변환합니다.

“청각장애인과 일반인의 간격을 메우는 것은 청각장애인이나 Skype 나 Google 행 아웃을 통해 듣기 힘든 사람을 인터뷰 할 수 있음을 의미합니다.” Ahmed가 말했습니다. “그들은 회의를 열거나 취직 면접을 할 수 있으며, 자연스럽게 대화 할 수 있습니다.”

실시간 비디오 캡션
Ahmed는 심층신경망을 사용하여 미국 수화에 초점을 맞춘 완벽한 비디오 자막 시스템을 구축하는 방법을 자세히 설명했습니다.
목표 : 청각장애인이 자동 ​​음성 인식을 통해 회신 할 수 있게 해주는 메시징 응용 프로그램과 청각장애인이 비디오 캡션 시스템을 통해 회신합니다.

“미국 수화를 사용하는 사람들은 비디오 캡션을 통해 자신의 실력을 평가할 수있는 또 다른 응용 프로그램은 ASL 학습 응용 프로그램이 될 수 있습니다.” Ahmed가 말했습니다. “점수를 얻는 것이 좋지 않으니 수화가 받아 들여질 수 있다는 것을 알고 계십니까?”

TensorFlow를 사용하여 Ahmed는 시퀀스 네트워크의 시퀀스를위한 신경망을 개발했습니다. 이 네트워크는 정보를 비디오의 이벤트를 설명하는 문장으로 디코딩할 프레임 시퀀스의 표현을 배웠습니다. 이미지는 인코딩되고, 특징을 벡터로 처리 한 다음 디코딩됩니다.

이 시스템의 추가 기능으로는 캡션 생성, 데이터 입력 파이프 라인 및 오픈 소스 Seq2Seq 인코더 – 디코더 프레임 워크를 사용하여 모델을 생성하는 기능이 있습니다. 이 시스템은 라이브 비디오의 실시간 캡션 작성을 위해 NVIDIA Jetson TX2 와 같은 임베디드 플랫폼에 배포됩니다 .

입술 판독에서 신체 동작에 이르기까지 시스템의 각 측면이 서로 겹쳐져있어 향후 의사 소통을 모든 사람이 손쉽게 수행 할 수 있습니다.