ball playing という言葉から baseballという言葉にをつなげられなかった。

技術-word2vec 技術

Word2VecをPythonでやってみる – 学生コーダーの備忘録コードは上記サイト様のを丸パクリです。僕としてはball playing からbase balと連想できるのかと、そんな軽い気持ちです。。。まずは公式様のテストデータで学習して、ball playingで近いものを30個…

2016-07-21

フォルダ内のテキストファイルの中身を全て合わせる君

技術-word2vec 技術

言葉の通り、フォルダ内のテキストファイルを全て、一つのテキストファイルに突っ込むというだけです。 # -*- coding: utf-8 -*-import globf = open("ketsu.txt","w") #これに全てを突っ込みたい。files = glob.glob('/home/araki/デスクトップ/corpus/trai…

2016-07-08

wordnetのやつをコマンドラインからいろいろ出来るように〜

技術-wordnet 技術

所要で簡単に類似度とか見たかったので、 -sでsynsetの表示、-dで定義表示、-eで上位語表示、-oで下位語表示、-tで深度、-lで類似度を表示できるようにしただけです。参考にしたサイト様 Python Programming Tutorials 自然言語処理 :: 自然言語処理ツールN…

2016-06-20

smurakamiさんの日本語版wordnetのサンプルプログラムを動かした。

技術-wordnet 技術

とりあえず今日やったことです。ちゃんと書いておかないと何やったのかも忘れてしまうことに気づいたので・・・（ボケ老人） wordnet使ってみるか・・・とりあえず他人のコード読んでみるか・・・ということで。ぱっと目に止まった。 GitHub - smurakami/jp…

2016-06-18

四角の中に一つだけ四角があるものを選ぼうの回

技術-opencv 技術

ちょっと前に作ったfindcontourを改造してみました。やりたかったこととしましては、↓の図のピンクのやつだは取らず、他の四角はとるってやつです。四角の中に一つだけ四角があるものを取ったのです。

2016-05-30

tesseract3.04.01に出来た。

技術-tesseract 技術

最初にleptonicaでエラーが出て、leptonicaをアップグレードしたりしたはず。（うろ覚え）そのあと、autogen.shを実行しようとしたら、 Something went wrong, bailing out! ってエラーが出て困っていた。 ↓参考に TesseractGitInstallation · tesseract-oc…

2016-05-21

findcontoursの輪郭認識の動きを見えるようにしたらキモかった

技術-opencv 技術

opencvのfindcontoursの動きを一個一個見てみたかっただけです。輪郭検出と輪郭内面積・重心計算 | OpenCV画像解析入門 ↑参考にしたやつ輪郭が格納されている?countoursの中身がこんな感じだったので、順番に青い線で結んでいってみました。円とかを表現…

2016-05-13

tesseract 3.03でかなり読める

技術-tesseract 技術

今新しく出ているバージョンが3.04.01で、最新版がかなり読めるようになったということを聞きまして、今はどれくらいなのかと見てみただけです。 ↑3つは普通に -l jpnのコマンドで読むことができました。

2016-05-06

pyinstallerを使おうとするとメモ帳が強制召喚される。（対処完了）

技術-python 技術

コマンドプロンプトにpyinstallerと打つと、このメモ帳が強制的に開かれて終了。人生の終わり。アーメン。っとなって諦めていました。 linuxでも上手くいかなかったけど、 pythonをexe化に悪戦苦闘のメモ（しかもちゃんとできてないよ。誰か助けて。） - ア…

2015-12-25

luceneを使いたかった。

技術-Lucene 技術

Javaで記述されたインデックスを作成するタイプの全文検索エンジンのluceneさんですね。使おうとコマンドを打っても打ってもエラーが出て。偉い方に聞いてみて純正javaであるoracleを入れてみたら動きました。実際はいろいろやっていたのでoracleのせいだ…

2015-08-13

一気にプログラムを回したかった。

技術-python 技術

そういえば、こんなブログ作っていたと思い、思い出したかのように更新今日作ったしょぼいやつ。コマンドラインからpngファイルを読み込み、とある処理するプログラム作ってたのですけど、それを50ファイルくらい一気にやりたかったので作った。

2015-06-18

treetagger使いたい.......（＋ω＋）

技術-python 技術

英語の構文解析がしたかったので http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ ↑treetaggerのサイトのダウンロードから 1のlinuxパッケージ、2の tagging script、３のinstall-tagger.sh、4のparameter fileからEnglish parameter file をダウ…

2015-06-13

tesseract の論文？を読みました。

技術-tesseract 技術

論文というか、取り扱い説明書？？？ http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/33418.pdf ↑ググったらすぐに出てくるこれです。 verview of the Tesseract OCR Engine直訳して、テセラクトの概要...... どういう仕…

2015-06-13

セット4（後半）

技術-python 技術

セット4（後半）です。 (6)１行１単語形式（medline.txt.sent.tok）を読み込み，単語の連接を出力するプログラムを実装 #!usr/bin/env python3# -*- coding: utf-8 -*-import marshalline = ""for i in open("medline.txt.sent.tok.stem","r"): i = i.strip(…

2015-05-24

beamerのフォーマット

技術-その他技術

ネットに基本形（フォーマット？）みたいなの置いておいたらどこでも作れると思ったので設置。いちいち調べるのめんどくさいのでｗｗ

2015-05-20

tesseract を使うときでの手こずったとこ

技術-tesseract 技術

プログラムとしてはtesseractをダウンロード出来るサイト(https://code.google.com/p/python-tesseract/)に書いてあるとおりに、 api = tesseract.TessBaseAPI()api.SetOutputName("outputName");api.Init(".","eng",tesseract.OEM_DEFAULT)api.SetPageSegMo…

2015-05-15

セット４（前半）

技術-python 技術

セット4（前半）です。 (1)ファイルを読み込み，単語をキーとして，品詞，活用形，基本形のタプルのリストを値とするマッピング型に格納せよ．プログラムの動作を確認するため，標準入力から読み込んだ単語の語彙項目を閲覧するプログラムを実装 #!usr/bin/e…

2015-05-13

セット3

技術-python 技術

セット3です。 (1)標準入力から英語のテキストを読み込み，ピリオドを文の区切りと見なし，１行１文の形式で標準出力に書き出す f = open("medsamp2012h.txt","r")data = f.read() t=re.sub("\.",'.\n',data)print(t)f.close() re.subでピリオドを改行（\n）…

2015-05-06

セット２

技術-python 技術

セット2です。 (1)「拡散希望」という文字列を含むツイートを抽出 #!usr/bin/env python3# -*- coding: utf-8 -*-import retweet = re.compile("<text>[\s\S]*?</text>")kakusan=re.compile("拡散希望")f = open('tweets.txt',"r")data = f.read() # ファイル終端まで全て…

2015-05-03

100本ノック　セット１

技術-python 技術

１００本ノックを課題としてやったのでそのメモです。東北大学の乾・岡崎研究室のサイトで公開されている、言語処理100本ノックのメモです。問題の詳細はサイトをご覧ください。第１セット (1) 行数をカウント。 #!usr/bin/env python3# -*- coding: utf-8…

アラキタウン

黒歴史や生き恥を切り売り

技術

ball playing という言葉から baseballという言葉にをつなげられなかった。

フォルダ内のテキストファイルの中身を全て合わせる君

wordnetのやつをコマンドラインからいろいろ出来るように〜

smurakamiさんの日本語版wordnetのサンプルプログラムを動かした。

四角の中に一つだけ四角があるものを選ぼうの回

tesseract3.04.01に出来た。

findcontoursの輪郭認識の動きを見えるようにしたらキモかった

tesseract 3.03でかなり読める

pyinstallerを使おうとするとメモ帳が強制召喚される。（対処完了）

luceneを使いたかった。

一気にプログラムを回したかった。

treetagger使いたい.......（＋ω＋）

tesseract の論文？を読みました。

セット4（後半）

beamerのフォーマット

tesseract を使うときでの手こずったとこ

セット４（前半）

セット3

セット２

100本ノック　セット１