Word2Vecの辞書モデルを作成する方法
Pythonを使用してWord2Vecのモデルを作成します。
そんなに難しいことではありません。
from gensim.models import word2vec import MeCab import warnings warnings.filterwarnings('ignore') # 形態素解析 def tokenize(sentence): try: mecab = MeCab.Tagger() node = mecab.parse(sentence).splitlines() texts = [] for item in node: if item.split('\t')[0]=='EOS': break field = item.split('\t')[1].split(',')[0] if field == '名詞' or field == '動詞' or field == '形容詞' or field== '感動詞' or field == '助動詞': print(item.split('\t')[0]) texts.append(item.split('\t')[0]) return texts except: return [] # 元データ doc = ["エレンおはようございます" ,"エレンこんばんは" ,"エレンこんにちは" ,"エレンおはよう" ,"エレンおやすみ" ,"エレンたんたん"] tokeData=[] for sentence in doc: tokeData.append(tokenize(sentence)) model = word2vec.Word2Vec(tokeData, min_count=1) # モデルファイルを保存します model.save("small.gensim.model")
どの品詞を使うかは適宜調整してください。