読者です 読者をやめる 読者になる 読者になる

おでんはじめました。

required ちくわぶ and 巾着,optional はんぺん.

品詞分解してWordPressで検索するまで(その1、mecab編)

古典のテキストをmecabで品詞分解するところまでやります。

mecabのインストール

まずは形態素解析をするためにmecabをインストール。

$ brew install mecab
$ brew install mecab-ipadic

動作確認。

$ mecab
おでんにはんぺんをいれるかなやみます  <==入力してEnter(またはコピペ)
おでん   名詞,一般,*,*,*,*,おでん,オデン,オデン
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
はんぺん    名詞,一般,*,*,*,*,はんぺん,ハンペン,ハンペン
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
いれる   動詞,自立,*,*,一段,基本形,いれる,イレル,イレル
か 助詞,副助詞/並立助詞/終助詞,*,*,*,*,か,カ,カ
なやみ   動詞,自立,*,*,五段・マ行,連用形,なやむ,ナヤミ,ナヤミ
ます  助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
EOS

設定ファイルの場所。

vim /usr/local/Cellar/mecab/0.996/etc/mecabrc

出力形式を変更できる。

$ mecab -O wakati
おでんにはんぺんをいれるかなやみます
おでん に はんぺん を いれる か なやみ ます 
  • よみ
$ mecab -O yomi
おでんにはんぺんを入れるか悩みます
オデンニハンペンヲイレルカナヤミマス

古典の辞書を取得する

下記から中古和文用の辞書をダウンロード。

UniDic/中古和文UniDic - 言語データベースとソフトウェア

これを解凍して/usr/local/unidic-mecab/にコピー。

適当にテキストを持ってくる

青空文庫から土佐日記のテキストをダウンロード。

図書カード:土佐日記

Shift-JIS形式なのでこれをUTF-8形式で保存。

mecabで変換する

先ほどの中古和文の辞書に切り替えて、ダウンロードしたテキスト(tosa_nikki.txt)を変換する。 -dオプションを使わないで上記の設定ファイルを切り替えてももちろん可。

$ mecab -d /usr/local/unidic-mecab/ ./tosa_nikki.txt  -o ./tosa_hinshi.txt

変換結果(tosa_hinshi.txt)。

男  名詞,普通名詞,一般,*,*,*,オトコ,男,男,オトコ,オトコ,和,男,オトコ,オトコ,オトコ,*,*,*,*,*,*,3,C2,*
も 助詞,係助詞,*,*,*,*,モ,も,も,モ,モ,和,も,モ,モ,モ,*,*,*,*,*,*,*,"動詞%F2@-1,形容詞%F4@-2,名詞%F1",*
す 動詞,非自立可能,*,*,文語サ行変格,終止形-一般,スル,為る,す,ス,ス,和,す,ス,ス,ス,*,*,*,*,*,*,1,C4,*
なる  助動詞,*,*,*,文語助動詞-ナリ-伝聞,連体形-一般,ナリ,なり-伝聞,なる,ナル,ナル,和,なり,ナリ,ナリ,ナリ,*,*,*,*,*,*,*,"名詞%F2@1,形容詞%F2@-1動詞%F2@0",*
日記  名詞,普通名詞,一般,*,*,*,ニッキ,日記,日記,ニッキ,ニッキ,漢,日記,ニッキ,ニッキ,ニッキ,*,*,*,*,*,*,0,C2,*
...

次はこのテキストをC#で読み込んでWordPressに投げるとこまでをやります。

参考記事

Ruby - Macにmecabインストール - Qiita