アラキタウン

黒歴史や生き恥を切り売り

技術

ball playing という言葉から baseballという言葉にをつなげられなかった。

Word2VecをPythonでやってみる – 学生コーダーの備忘録 コードは上記サイト様のを丸パクリです。 僕としてはball playing からbase balと連想できるのかと、そんな軽い気持ちです。。。 まずは公式様のテストデータで学習して、ball playingで近いものを30個…

フォルダ内のテキストファイルの中身を全て合わせる君

言葉の通り、フォルダ内のテキストファイルを全て、一つのテキストファイルに突っ込むというだけです。 # -*- coding: utf-8 -*-import globf = open("ketsu.txt","w") #これに全てを突っ込みたい。files = glob.glob('/home/araki/デスクトップ/corpus/trai…

wordnetのやつをコマンドラインからいろいろ出来るように〜

所要で簡単に類似度とか見たかったので、 -sでsynsetの表示、-dで定義表示、-eで上位語表示、-oで下位語表示、-tで深度、-lで類似度を表示できるようにしただけです。 参考にしたサイト様 Python Programming Tutorials 自然言語処理 :: 自然言語処理ツールN…

smurakamiさんの日本語版wordnetのサンプルプログラムを動かした。

とりあえず今日やったことです。 ちゃんと書いておかないと何やったのかも忘れてしまうことに気づいたので・・・(ボケ老人) wordnet使ってみるか・・・とりあえず他人のコード読んでみるか・・・ということで。ぱっと目に止まった。 GitHub - smurakami/jp…

四角の中に一つだけ四角があるものを選ぼうの回

ちょっと前に作ったfindcontourを改造してみました。 やりたかったこととしましては、↓の図のピンクのやつだは取らず、他の四角はとるってやつです。 四角の中に一つだけ四角があるものを取ったのです。

tesseract3.04.01に出来た。

最初にleptonicaでエラーが出て、leptonicaをアップグレードしたりしたはず。(うろ覚え) そのあと、autogen.shを実行しようとしたら、 Something went wrong, bailing out! ってエラーが出て困っていた。 ↓参考に TesseractGitInstallation · tesseract-oc…

findcontoursの輪郭認識の動きを見えるようにしたらキモかった

opencvのfindcontoursの動きを一個一個見てみたかっただけです。 輪郭検出と輪郭内面積・重心計算 | OpenCV画像解析入門 ↑参考にしたやつ 輪郭が格納されている?countoursの中身がこんな感じだったので、 順番に青い線で結んでいってみました。 円とかを表現…

tesseract 3.03でかなり読める

今新しく出ているバージョンが3.04.01で、最新版がかなり読めるようになったということを聞きまして、今はどれくらいなのかと見てみただけです。 ↑3つは普通に -l jpnのコマンドで読むことができました。

pyinstallerを使おうとするとメモ帳が強制召喚される。(対処完了)

コマンドプロンプトにpyinstallerと打つと、このメモ帳が強制的に開かれて終了。人生の終わり。アーメン。っとなって諦めていました。 linuxでも上手くいかなかったけど、 pythonをexe化に悪戦苦闘のメモ(しかもちゃんとできてないよ。誰か助けて。) - ア…

luceneを使いたかった。

Javaで記述されたインデックスを作成するタイプの全文検索エンジンのluceneさんですね。 使おうとコマンドを打っても打ってもエラーが出て。 偉い方に聞いてみて純正javaであるoracleを入れてみたら動きました。 実際はいろいろやっていたのでoracleのせいだ…

一気にプログラムを回したかった。

そういえば、こんなブログ作っていたと思い、思い出したかのように更新 今日作ったしょぼいやつ。 コマンドラインからpngファイルを読み込み、とある処理するプログラム作ってたのですけど、 それを50ファイルくらい一気にやりたかったので作った。

treetagger使いたい.......(+ω+)

英語の構文解析がしたかったので http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ ↑treetaggerのサイトのダウンロードから 1のlinuxパッケージ、2の tagging script、3のinstall-tagger.sh、4のparameter fileからEnglish parameter file をダウ…

tesseract の論文?を読みました。

論文というか、取り扱い説明書??? http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/33418.pdf ↑ググったらすぐに出てくるこれです。 verview of the Tesseract OCR Engine直訳して、テセラクトの概要...... どういう仕…

セット4(後半)

セット4(後半)です。 (6)1行1単語形式(medline.txt.sent.tok)を読み込み,単語の連接を出力するプログラムを実装 #!usr/bin/env python3# -*- coding: utf-8 -*-import marshalline = ""for i in open("medline.txt.sent.tok.stem","r"): i = i.strip(…

beamerのフォーマット

ネットに基本形(フォーマット?)みたいなの置いておいたらどこでも作れると思ったので設置。 いちいち調べるのめんどくさいのでww

tesseract を使うときでの手こずったとこ

プログラムとしてはtesseractをダウンロード出来るサイト(https://code.google.com/p/python-tesseract/)に書いてあるとおりに、 api = tesseract.TessBaseAPI()api.SetOutputName("outputName");api.Init(".","eng",tesseract.OEM_DEFAULT)api.SetPageSegMo…

セット4(前半)

セット4(前半)です。 (1)ファイルを読み込み,単語をキーとして,品詞,活用形,基本形のタプルのリストを値とするマッピング型に格納せよ.プログラムの動作を確認するため,標準入力から読み込んだ単語の語彙項目を閲覧するプログラムを実装 #!usr/bin/e…

セット3

セット3です。 (1)標準入力から英語のテキストを読み込み,ピリオドを文の区切りと見なし,1行1文の形式で標準出力に書き出す f = open("medsamp2012h.txt","r")data = f.read() t=re.sub("\.",'.\n',data)print(t)f.close() re.subでピリオドを改行(\n)…

セット2

セット2です。 (1)「拡散希望」という文字列を含むツイートを抽出 #!usr/bin/env python3# -*- coding: utf-8 -*-import retweet = re.compile("<text>[\s\S]*?</text>")kakusan=re.compile("拡散希望")f = open('tweets.txt',"r")data = f.read() # ファイル終端まで全て…

100本ノック セット1

100本ノックを課題としてやったのでそのメモです。 東北大学の乾・岡崎研究室のサイトで公開されている、言語処理100本ノックのメモです。問題の詳細はサイトをご覧ください。 第1セット (1) 行数をカウント。 #!usr/bin/env python3# -*- coding: utf-8…