Bag of words meets bag of popcorn
27 Jun 2018 | Kaggle
Bag of words meets bag of popcorn
Part 2 / Word Vector
word2vec 모델
- Efficient Estimation of Word Representations in Vector Space (2013, Mikolov)
- 초기버전
- CBOW ,Skip-gram
- Distributed Representations of Words and Phrases and their Compositionality (2013,Mikolov)
- 튜닝기법이 추가
word2vec 관련 참고 자료
- Efficient Estimation of Word Representations in Vector Space
- Distributed Representations of Words and Phrases and their Compositionality
- Word2Vec tensorflow 한글 번역본
- Word2Vec 블로그 정리글 - Word2Vec으로 문장 정리하기
- Word2Vec 블로그 정리글 - Word embedding관련 정리
- Word2Vec 블로그 정리글 - Word2Vec 학습방법
- 각 단어들을 원 핫인코딩 방식 혹은 Bag of words 방식으로 나타낼 경우 size가 매우 크고 벡터가 너무 sparse해서 neural net 성능이 잘 나오지 않는다.
- 단어 주변이 비슷하면 그 단어들은 의미가 유사하다는 아이디어
- 단어를 벡터로 바꿔주는 엠베딩(Embedding)과정
- Word2Vec은 분산 된 텍스트 표현을 사용하여 개념 간 유사성을 본다. 예를 들어, 파리와 프랑스가 베를린과 독일이 (수도와 나라) 같은 방식으로 관련되어 있음을 이해한다.

5 CBOW와 Skip-gram 기법 사용
- CBOW(continuous bag-of-words)
- 전체 텍스트로 하나의 단어를 예측한다.
- 작은 데이터셋일수록 유리
- Skip-Gram
- 타겟 단어들로 부터 원본 단어들을 역으로 유추하는 과정
- 큰 규모의 데이터셋일수록 유리

# 참고 :
from multiprocessing import Pool
import numpy as np
def _apply_df(args):
df, func, kwargs = args
return df.apply(func, **kwargs)
def apply_by_multiprocessing(df, func, **kwargs):
# 키워드 항목 중 workers 파라메터를 꺼냄
workers = kwargs.pop('workers')
# 위에서 가져온 workers 수로 프로세스 풀을 정의
pool = Pool(processes=workers)
# 실행할 함수와 데이터프레임을 워커의 수 만큼 나눠 작업
result =, [(d, func, kwargs)
for d in np.array_split(df, workers)])
# 작업 결과를 합쳐서 반환
return pd.concat(list(result))
from kaggleBagofWord import kaggleBagofWord
##전처리과정에 사용하는 것들을 class화~
import pandas as pd
train = pd.read_csv('data/labeledTrainData.tsv',
header=0, delimiter='\t', quoting=3)
test = pd.read_csv('data/testData.tsv',
header=0, delimiter='\t', quoting=3)
unlabeled_train = pd.read_csv('data/unlabeledTrainData.tsv',
header=0, delimiter='\t', quoting=3)
(25000, 3)
(25000, 2)
(50000, 2)
['with', 'all', 'this', 'stuff', 'go', 'down', 'at', 'the', 'moment', 'with']
sentences = []
for review in train["review"]:
sentences += kaggleBagofWord.review_to_sentences(
review, remove_stopwords=False)
['with', 'all', 'this', 'stuff', 'go', 'down', 'at', 'the', 'moment', 'with']
['mayb', 'i', 'just', 'want', 'to', 'get', 'a', 'certain', 'insight', 'into']
Word2Vec 모델의 파라메터
아키텍처 : 아키텍처 옵션은 skip-gram (default) 또는 CBOW 모델이다. skip-gram (default)은 느리지 만 더 나은 결과를 낸다.
학습 알고리즘 : Hierarchical softmax (default) 또는 negative 샘플링. 여기에서는 기본값이 잘 동작한다.
빈번하게 등장하는 단어에 대한 다운 샘플링 : Google 문서는 .00001에서 .001 사이의 값을 권장한다. 여기에서는 0.001에 가까운 값이 최종 모델의 정확도를 높이는 것으로 보여진다.
단어 벡터 차원 : 많은 feature를 사용한다고 항상 좋은 것은 아니지만 대체적으로 좀 더 나은 모델이 된다. 합리적인 값은 수십에서 수백 개가 될 수 있고 여기에서는 300으로 지정했다.
컨텍스트 / 창 크기 : 학습 알고리즘이 고려해야하는 컨텍스트의 단어 수는 얼마나 될까? hierarchical softmax 를 위해 좀 더 큰 수가 좋지만 10 정도가 적당하다.
Worker threads : 실행할 병렬 프로세스의 수로 컴퓨터마다 다르지만 대부분의 시스템에서 4에서 6 사이의 값을 사용하다.
최소 단어 수 : 어휘의 크기를 의미있는 단어로 제한하는 데 도움이 된다. 모든 문서에서이 여러 번 발생하지 않는 단어는 무시된다. 10에서 100 사이가 적당하며, 이 경진대회의 데이터는 각 영화가 30개씩의 리뷰가 있기 때문에 개별 영화 제목에 너무 많은 중요성이 붙는 것을 피하기 위해 최소 단어 수를 40으로 설정한다. 그 결과 전체 어휘 크기는 약 15,000 단어가 된다. 높은 값은 제한 된 실행시간에 도움이 된다.
import logging
format='%(asctime)s : %(levelname)s : %(message)s',
# 파라메터값 지정
num_features = 300 # 문자 벡터 차원 수
min_word_count = 40 # 최소 단어 수
num_workers = 4 # 병렬 처리 스레드 수
context = 10 # 문자열 창 크기
downsampling = 1e-3 # 문자 빈도 수 Downsample
# 초기화 및 모델 학습
from gensim.models import word2vec
# 모델 학습
model = word2vec.Word2Vec(sentences,
<gensim.models.word2vec.Word2Vec at 0x23f36bbac18>
# 학습이 완료 되면 필요없는 메모리를 unload 시킨다.
model_name = '300features_40minwords_10text'
# model_name = '300features_50minwords_20text'
2018-04-30 12:10:19,865 : INFO : precomputing L2-norms of word weight vectors
2018-04-30 12:10:20,082 : INFO : saving Word2Vec object under 300features_40minwords_10text, separately None
2018-04-30 12:10:20,099 : INFO : not storing attribute vectors_norm
2018-04-30 12:10:20,118 : INFO : not storing attribute cum_table
2018-04-30 12:10:21,103 : INFO : saved 300features_40minwords_10text
# 유사도가 없는 단어 추출
model.wv.doesnt_match('man woman child kitchen'.split())
model.wv.doesnt_match("france england germany berlin".split())
2018-04-30 12:10:21,386 : WARNING : vectors for words {'germany', 'france'} are not present in the model, ignoring these words
# 가장 유사한 단어를 추출
[('woman', 0.6355543732643127),
('businessman', 0.5106414556503296),
('lad', 0.49627137184143066),
('millionair', 0.4852792024612427),
('ladi', 0.48219048976898193),
('policeman', 0.47352561354637146),
('widow', 0.4686756134033203),
('farmer', 0.4667765200138092),
('men', 0.4604969620704651),
('boxer', 0.4499785602092743)]
[('princess', 0.6181148886680603),
('madam', 0.5621399283409119),
('latifah', 0.5599690675735474),
('countess', 0.557962954044342),
('dame', 0.5570350885391235),
('stepmoth', 0.554591178894043),
('victoria', 0.5522404909133911),
('maid', 0.5426138639450073),
('maria', 0.533758282661438),
('eva', 0.5325278639793396)]
# model.wv.most_similar("happy")
model.wv.most_similar("happi") # stemming 처리 시
[('unhappi', 0.45206087827682495),
('sad', 0.43361160159111023),
('bitter', 0.40061312913894653),
('satisfi', 0.3947785198688507),
('lucki', 0.3823172450065613),
('joy', 0.37378984689712524),
('happier', 0.36996692419052124),
('glad', 0.3682306408882141),
('sappi', 0.36718422174453735),
('afraid', 0.3600339889526367)]
# 참고
from sklearn.manifold import TSNE
import matplotlib as mpl
import matplotlib.pyplot as plt
import gensim
import gensim.models as g
# 그래프에서 마이너스 폰트 깨지는 문제에 대한 대처
mpl.rcParams['axes.unicode_minus'] = False
model_name = '300features_40minwords_10text'
model = g.Doc2Vec.load(model_name)
vocab = list(model.wv.vocab)
X = model[vocab]
tsne = TSNE(n_components=2)
# 100개의 단어에 대해서만 시각화
X_tsne = tsne.fit_transform(X[:100,:])
# X_tsne = tsne.fit_transform(X)
2018-04-30 12:10:26,511 : INFO : loading Doc2Vec object from 300features_40minwords_10text
2018-04-30 12:10:26,982 : INFO : loading wv recursively from 300features_40minwords_10text.wv.* with mmap=None
2018-04-30 12:10:26,983 : INFO : setting ignored attribute vectors_norm to None
2018-04-30 12:10:26,984 : INFO : loading vocabulary recursively from 300features_40minwords_10text.vocabulary.* with mmap=None
2018-04-30 12:10:26,985 : INFO : loading trainables recursively from 300features_40minwords_10text.trainables.* with mmap=None
2018-04-30 12:10:26,986 : INFO : setting ignored attribute cum_table to None
2018-04-30 12:10:26,987 : INFO : loaded 300features_40minwords_10text
C:\ProgramData\Anaconda3\lib\site-packages\ DeprecationWarning: Call to deprecated `__getitem__` (Method will be removed in 4.0.0, use self.wv.__getitem__() instead).
from ipykernel import kernelapp as app
[-0.04888876 0.02344336 -0.11825124 -0.0108145 -0.02040573 0.09992806
-0.01389777 -0.02648932 -0.07141103 -0.03799058]
df = pd.DataFrame(X_tsne, index=vocab[:100], columns=['x', 'y'])
(100, 2)
fig = plt.figure()
fig.set_size_inches(40, 20)
ax = fig.add_subplot(1, 1, 1)
ax.scatter(df['x'], df['y'])
for word, pos in df.iterrows():
ax.annotate(word, pos, fontsize=30)

import numpy as np
def makeFeatureVec(words, model, num_features):
주어진 문장에서 단어 벡터의 평균을 구하는 함수
# 속도를 위해 0으로 채운 배열로 초기화 한다.
featureVec = np.zeros((num_features,),dtype="float32")
nwords = 0.
# Index2word는 모델의 사전에 있는 단어명을 담은 리스트이다.
# 속도를 위해 set 형태로 초기화 한다.
index2word_set = set(model.wv.index2word)
# 루프를 돌며 모델 사전에 포함이 되는 단어라면 피처에 추가한다.
for word in words:
if word in index2word_set:
nwords = nwords + 1.
featureVec = np.add(featureVec,model[word])
# 결과를 단어수로 나누어 평균을 구한다.
featureVec = np.divide(featureVec,nwords)
return featureVec
def getAvgFeatureVecs(reviews, model, num_features):
# 리뷰 단어 목록의 각각에 대한 평균 feature 벡터를 계산하고
# 2D numpy 배열을 반환한다.
# 카운터를 초기화 한다.
counter = 0.
# 속도를 위해 2D 넘파이 배열을 미리 할당한다.
reviewFeatureVecs = np.zeros(
for review in reviews:
# 매 1000개 리뷰마다 상태를 출력
if counter%1000. == 0.:
print("Review %d of %d" % (counter, len(reviews)))
# 평균 피처 벡터를 만들기 위해 위에서 정의한 함수를 호출한다.
reviewFeatureVecs[int(counter)] = makeFeatureVec(review, model, \
# 카운터를 증가시킨다.
counter = counter + 1.
return reviewFeatureVecs
# 멀티스레드로 4개의 워커를 사용해 처리한다.
def getCleanReviews(reviews):
clean_reviews = []
clean_reviews = kaggleBagofWord.apply_by_multiprocessing(\
reviews["review"], kaggleBagofWord.review_to_wordlist,\
return clean_reviews
%time trainDataVecs = getAvgFeatureVecs(\
getCleanReviews(train), model, num_features )
Review 0 of 25000
C:\ProgramData\Anaconda3\lib\site-packages\ DeprecationWarning: Call to deprecated `__getitem__` (Method will be removed in 4.0.0, use self.wv.__getitem__() instead).
Review 1000 of 25000
Review 2000 of 25000
Review 3000 of 25000
Review 4000 of 25000
Review 5000 of 25000
Review 6000 of 25000
Review 7000 of 25000
Review 8000 of 25000
Review 9000 of 25000
Review 10000 of 25000
Review 11000 of 25000
Review 12000 of 25000
Review 13000 of 25000
Review 14000 of 25000
Review 15000 of 25000
Review 16000 of 25000
Review 17000 of 25000
Review 18000 of 25000
Review 19000 of 25000
Review 20000 of 25000
Review 21000 of 25000
Review 22000 of 25000
Review 23000 of 25000
Review 24000 of 25000
Wall time: 2min 43s
%time testDataVecs = getAvgFeatureVecs(\
getCleanReviews(test), model, num_features )
Review 0 of 25000
C:\ProgramData\Anaconda3\lib\site-packages\ DeprecationWarning: Call to deprecated `__getitem__` (Method will be removed in 4.0.0, use self.wv.__getitem__() instead).
Review 1000 of 25000
Review 2000 of 25000
Review 3000 of 25000
Review 4000 of 25000
Review 5000 of 25000
Review 6000 of 25000
Review 7000 of 25000
Review 8000 of 25000
Review 9000 of 25000
Review 10000 of 25000
Review 11000 of 25000
Review 12000 of 25000
Review 13000 of 25000
Review 14000 of 25000
Review 15000 of 25000
Review 16000 of 25000
Review 17000 of 25000
Review 18000 of 25000
Review 19000 of 25000
Review 20000 of 25000
Review 21000 of 25000
Review 22000 of 25000
Review 23000 of 25000
Review 24000 of 25000
Wall time: 2min 28s
from sklearn.ensemble import RandomForestClassifier
forest = RandomForestClassifier(
n_estimators = 100, n_jobs = -1, random_state=2018)
%time forest = trainDataVecs, train["sentiment"] )
Wall time: 21.1 s
from sklearn.model_selection import cross_val_score
%time score = np.mean(cross_val_score(\
forest, trainDataVecs, \
train['sentiment'], cv=10, scoring='roc_auc'))
Wall time: 3min 18s
result = forest.predict( testDataVecs )
output = pd.DataFrame( data={"id":test["id"], "sentiment":result} )
index=False, quoting=3 )
output_sentiment = output['sentiment'].value_counts()
print(output_sentiment[0] - output_sentiment[1])
0 12533
1 12467
Name: sentiment, dtype: int64
import seaborn as sns
%matplotlib inline
fig, axes = plt.subplots(ncols=2)
sns.countplot(train['sentiment'], ax=axes[0])
sns.countplot(output['sentiment'], ax=axes[1])
<matplotlib.axes._subplots.AxesSubplot at 0x1681f5faa90>

Score 81.34%
