recap

(word vector) 같은 context를 가지는 center word가 어디에 배치되어야 할까?

그럼 sequence(순서)는 고려하지 않나여? 네 안해요 context window 내에 있는 것만 고려해요

Optimization (gradient descent) 𝐽 (𝜃) 을 minimize 하는 것을 목표로 함

하지만 모든 corpus에 대해서는 만족하는 optimal을 구하기 어려움 → 때문에 sample_window(mini batch)를 통해서 구함 → Stochastic gradient descent (SGD)

Skip grams

주어진 center word를 통해서 바깥 context를 예측함

Continuous Bag of Words (CBOW)

context를 통해 center word 예측

→ 최근 Bert 모델

왜 그럼 처음부터 CBOW 안썻어요? 연산량이 너무 많아서 loss function 구하기 힘들었음

negative sampling

기존 softmax가 너무 연산량이 많음 → negative sampling 사용

실제 문맥 단어 o가 등장할 확률을 최대화하고,
무작위로 샘플링한(negative) 단어들이 등장하지 않을 확률을 최대화합니다.

즉, “실제 단어는 높은 점수를 주고, 무작위로 뽑은 단어들은 낮은 점수를 주는 방향으로 학습” 합니다.

네거티브 샘플 w 를 선택할 때 단순히 균등 분포에서 샘플링하면 자주 등장하는 단어들(“the”, “is” 같은 stop words)이 지나치게 많이 뽑히는 문제가 발생합니다. 이를 해결하기 위해 빈도 기반 샘플링 방법을 사용합니다.

어 그럼 SGD + negative sampling을 쓰면 sparse해지겟네요?

넹 • Negative Sampling을 적용하면 SGD가 매우 희소한 그래디언트를 가지게 됨. • 전체 단어 벡터를 업데이트하는 것이 아니라, 일부 단어만 업데이트하므로 연산량이 절감됨. • SGD와 Negative Sampling의 조합 덕분에 Word2Vec은 대규모 데이터에서도 효율적으로 학습될 수 있음.

왜 같이 등장할 확률을 바로 안구해요?

co-occurrence matrix는 어캐 구할까용?
- window vs document에 따라 달라요

Document

탐색기

04 Word Vector 2

Skip grams

Continuous Bag of Words (CBOW)

negative sampling

Intrinsic word vector evaluation

word sense

NER(Named Entity Recognition)

classification

non-linear function

Cross Entropy Loss

Gradient Descent

Addition

그래프 뷰

목차