Word2Vecの辞書モデルを作成する方法
Pythonを使用してWord2Vecのモデルを作成します。
そんなに難しいことではありません。
from gensim.models import word2vec
import MeCab
import warnings
warnings.filterwarnings('ignore')
# 形態素解析
def tokenize(sentence):
try:
mecab = MeCab.Tagger()
node = mecab.parse(sentence).splitlines()
texts = []
for item in node:
if item.split('\t')[0]=='EOS':
break
field = item.split('\t')[1].split(',')[0]
if field == '名詞' or field == '動詞' or field == '形容詞' or field== '感動詞' or field == '助動詞':
print(item.split('\t')[0])
texts.append(item.split('\t')[0])
return texts
except:
return []
# 元データ
doc = ["エレンおはようございます"
,"エレンこんばんは"
,"エレンこんにちは"
,"エレンおはよう"
,"エレンおやすみ"
,"エレンたんたん"]
tokeData=[]
for sentence in doc:
tokeData.append(tokenize(sentence))
model = word2vec.Word2Vec(tokeData, min_count=1)
# モデルファイルを保存します
model.save("small.gensim.model")どの品詞を使うかは適宜調整してください。



