1. Introduction
- 많은 NLP 시스템은 단어를 atomic 하게 바라보며, similarity 의 개념이 사용되고 있지 않음.
- 물론 이런 방식은 단순하며, 매우 큰 corpora 를 가지고 학습할 시 다른 complex model보다 더 뛰어난 성능을 가지는 경우도 있다. (장단점 존재)
- 그럼에도 불구하고, 기계 번역과 같은 특정 task에서는 simple model의 한계점이 명확하게 존재함. (데이터의 풀이 작은 경우 등등)
- 현재 머신러닝 기술의 발전으로 large dataset에 대한 complex model 의 성능이 simple model 을 능가.
1.1 Goals of the Paper
- 이 논문의 목적은 huge dataset (billions of words & millioins of vocabs) 에서 높은 질의 word vector 학습에 사용되는 기술들을 소개하는 것.
- 유사 단어들의 vector 가 단지 가까울 뿐만 아니라, multiple degrees of similarity 를 가지는 것을 고려하여 제안된 measuring 방식을 사용할 것임.
- 놀랍게도 현재 syntactic regularities 를 가지는 기술 또한 존재하기도 함. (vec(”King”) - vec(”Man”) + vec(”Woman”) == vec(”Queen”))
- syntactic, semantic regularities 를 모두 가지는 모델을 디자인하는 것, 그리고 WordVec 의 dimension 이 time 과 accuracy 에 얼마나 영향을 주는지도 파악하는 것이 최종 목표.
1.2 Previous Work
- 단어를 연속된 Vector로 표현하는 것에는 긴 역사가 있지만, 지금까지는 architecture of NNLM 을 처음 이용한 모델이 가장 유명한 모델이였음.
- 다른 NNLM 아키텍쳐로는 single-hidden layer 모델로 word vector을 처음 학습시킨 후에, 이 word vector 을 NNLM 에 적용시킨 사례가 존재하는데, 이는 NNLM 아키텍쳐의 구조를 모르더라도 학습이 가능함. 따라서 우리는 이 아키텍쳐를 확장하여 word vector 을 학습시키는 첫번째 과정에 집중할 것임.
- 나중에는 word vector 들이 많은 NLP application 의 성능을 향상시킬 수 있다고 보여졌으며, word vector의 estimation 을 통해 학습 시 좋은 성능을 냄. 하지만 이는 너무 많은 컴퓨터력(?) 을 소모하기에, 이보다 더욱 효율적인 과정이 필요함.