[Mac] tree-tagger を使って英文の形態素解析を試してみた
2017/05/29 09:00
  • ふと思いついたので、tree-tagger を使って英文の形態素解析を試してみました。
    要素(単語)に分解してそれぞれの品詞とかを分けてくれるので英語学習にも良さそう…?

    Mac にインストールして試してみたのでその備忘録。

    形態素解析ツール tree-tagger をMac にダウンロードする

    まずはダウンロードから。

    $ mkdir tree-tagger
    $ cd tree-tagger
    # Mac OSX 用のパッケージをダウンロードする
    $ wget http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger-MacOSX-3.2.tar.gz
    
    # スクリプトをダウンロードする
    $ wget http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tagger-scripts.tar.gz
    
    # インストールスクリプトをダウンロードする
    $ wget http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/install-tagger.sh
    
    # 英語のパラメータファイルをダウンロード(他の言語も必要な場合は別途ダウンロードする)
    $ wget http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/english-par-linux-3.2-utf8.bin.gz
    

    全部 CUI で行いましたが、別に tree-tagger からブラウザ上でダウンロードしても OK です。

    圧縮ファイル等、すべて解凍する必要はなくて、そのままフォルダに格納するだけでよいです。

    形態素解析ツール tree-tagger をMac にインストールする

    続いてインストール。

    $ sh ./install-tagger.sh 
    
    TreeTagger version for Mac OS-X installed.
    Tagging scripts installed.
    English parameter file (UTF8) installed.
    Path variables modified in tagging scripts.
    
    You might want to add /xxxx/xxx/tree-tagger/cmd and /xxxx/xxx/tree-tagger/bin to the PATH variable so that you do not need to specify the full path to run the tagging scripts.
    
    
    

    インストールできました。 ご丁寧にもコマンドを PATH に追加するといいよ!
    って教えてくれていますので、追加したいと思います。

    tree-tagger 関連のコマンドを PATH に追加する

    $ vim ~/.bash_profile
    
    # 以下を設定
    export PATH=$PATH:/xxxx/xxx/tree-tagger/cmd:/xxxx/xxx/tree-tagger/bin
    
    # 設定を反映
    $ source ~/.bash_profile
    

    試しに使ってみる

    試してみました。
    $ echo 'This is a pen!' | tree-tagger-english 
    	reading parameters ...
    	tagging ...
    	 finished.
    This	DT	this
    is	VBZ	be
    a	DT	a
    pen	NN	pen
    !	SENT	!
    
    

    DT, VBZ, NN, SENT は形態素解析された単語の品詞コードで、それぞれを表しています。
    DT: Determiner(限定詞)
    VBZ: verb be, pres, 3rd p. sing be(動詞の三人称単数形現在)
    NN: noun, singular or mass(名詞の単数形または不可算名詞)
    SENT: end punctuation(文末の句読点記号)

    いやあ、英語は形態素解析が簡単といいますが、ここまで詳細にわかると面白いですね。
    海外のニュースサイトから記事を拾ってきて形態素解析して意味を理解する…みたいに
    英語の勉強ができそうだなと思いました。

    なお、 echo する文字列(英文)はシングルクォートしましょう。

    $ echo "This is a pen!" | tree-tagger-english 
    -bash: !": event not found
    

    人気ブログランキングへ ブログランキング・にほんブログ村へ
    ↑応援よろしくお願いします!m(_ _)m

  • <2017/05/29 09:00>
  • ツール
  • 形態素解析英語tree-taggermac翻訳品詞インストール
  • 新しい記事へ
    はてなブックマーク登録ボタンを一覧ページに設置する方法と SSL 対応の方法

    古い記事へ
    新宿御苑で初夏の癒やしを感じてきました♥

profile picture

自己紹介的な何か

@wkmettyでついったーやってます。時々。 6年間勤めたゲーム会社を2018年2月に退職しフリーランスのプログラマに。 WordPress Core, WP-CLI コントリビューター。 お仕事募集中です。