日本語コーパスを取得する

機械学習を試す上で必要となるのが、日本語コーパスです。
意外とフリーでまとまったデータが無いのですよね。
国会図書館とかNICTが提供してくれると嬉しいのですが。
ライブドアニュースコーパス
https://www.rondhuit.com/download/ldcc-20140209.tar.gz
こちらからダウンロードすることができます。
クリエイティブコモンズなので、技術検証用の学習データにする分には特に権利上の問題は発生しません。
このままでは、記事単位のファイルに分かれていて使うのが面倒です。
結合させるPythonファイルがいくつかありましたが、どれもWindows環境ではエラーになったので、修正したものを、こちらに記載しておきます。
# coding: utf-8
import os,os.path
import csv
f = open('corpus.csv', 'w', encoding='utf-8')
csv_writer = csv.writer(f,quotechar="'")
files = os.listdir('./')
datas = []
for filename in files:
if os.path.isfile(filename):
continue
category = filename
for file in os.listdir('./'+filename):
path = './'+filename+'/'+file
r = open(path, 'r', encoding='utf-8')
line_a = r.readlines()
text = ''
for line in line_a[2:]:
text += line.strip()
r.close()
datas.append([text,category])
print(text)
csv_writer.writerows(datas)
f.close()インデント関係の不具合と、ファイル入出力時の文字コード指定を追加してあります。たぶん、動くと思うのですが、問題があれば適宜修正してください。
まとめ
およそ25MBくらいのファイルが出力されました。
無料モノなので多くを望んではいけないのでしょうが、記事の品質はイマイチです。




