アラキタウン

黒歴史や生き恥を切り売り

フォルダ内のテキストファイルの中身を全て合わせる君

言葉の通り、フォルダ内のテキストファイルを全て、一つのテキストファイルに突っ込むというだけです。

 

# -*- coding: utf-8 -*-
import glob

f = open("ketsu.txt","w") #これに全てを突っ込みたい。
files = glob.glob('/home/araki/デスクトップ/corpus/training/*of-00100')  #tof-00100で終わる1billlionファイルすべてを取得

for file_count in files:
    print file_count
    for i in open(file_count,"r"):
        f.write(i)

 

 

これをしている理由として、word2vecを使ってみたくて、下記のサイト様のコードでやってみて、学習に使用するデータを違うやつでやってみるためです。

Word2VecをPythonでやってみる – 学生コーダーの備忘録

上記プログラムより作った4ギガのテキストファイル突っ込んだら、学習全然終わらない・・・

 

 機械学習とかニューラルネットワークとか、どうなっているのかよくわからないけど、なんとなく出来るのだからネット最高なんじゃ〜