WEB+DB PRESS (ウェブDBプレス) Vol.100「次章以降で利用するデータの準備」(P.31)をやってみた

WEB+DB PRESS Vol.100(技術評論社)の「次章以降で利用するデータの準備」(P.31)をやってみました。Wikipediaから記事をダウンロードして、分かち書きするところです。

  • 記事の内容や、操作を理解するための概念などは、このページには書きません。上のリンクから雑誌を購入してご覧ください。

この記事は、以下の記事の続きです。

WEB+DB PRESS (ウェブDBプレス) Vol.100「文書の表現」(P.30)をやってみた

次章以降で利用するデータの準備

Windows PowerShellを起動し、以下の記事で準備したDockerコンテナに接続して操作します。ここでは、Dockerコンテナに接続するまでの操作は省略します。

WEB+DB PRESS (ウェブDBプレス) Vol.100「第2章 自然言語処理」(P.24)をやってみた

Wikipedia記事の取得

雑誌記事で指示されてダウンロードするファイルは、約2.4GBの圧縮ファイルです。

  1. ここまでと同様にDockerコンテナに接続し、「cd /webdb100/02」と入力して、Enterキーを押します。
  2. 雑誌記事(P.31)の「Wikipediaコンテンツのダウンロード」のコマンドを入力し、Enterキーを押します。
    なお、記載されているコマンドの先頭にある「$」は、入力しません。また、紙面では2行になっていますが、実際は1行で入力します。
    途中に入力するオプションは、「-O」(オー)(取得したデータをファイルに出力する)です。「-0」(ゼロ)ではありません。

    ダウンロードが開始されます。30分くらいかかりそうです。

    「jawiki-(中略).bz2」ファイルが保存されます。正確なファイル名は、入力したコマンドから推測してくださいね。
    ちなみに、解凍してXMLファイルの中身を確認する場合は「bunzip2 -k jawiki-(中略).bz2」と入力して、Enterキーを押します。ここでは、bz2ファイルは次の「WikiExtractor – Wikipedia用のテキストクリーニングツール」でそのまま使用できますので、解凍しないで進めます。

WikiExtractor - Wikipedia用のテキストクリーニングツール

  1. ここまでと同様にDockerコンテナに接続し、「cd /webdb100/02」と入力して、Enterキーを押します。
  2. 雑誌記事(P.32)の「WikiExtractorのダウンロードと実行」のコマンドの1行目を入力し、Enterキーを押します。
    なお、記載されているコマンドの先頭にある「$」は、入力しません。
  3. 雑誌記事(P.32)の「WikiExtractorのダウンロードと実行」のコマンドの2行目を入力し、Enterキーを押します。
    なお、記載されているコマンドの先頭にある「$」は、入力しません。また、紙面では2行になっていますが、実際は1行で入力します。

    テキストクリーニングが始まります。終わるまでにはしばらくかかりそうです。

    しばらく経って、以下のように表示されたら終了です。
  4. 雑誌記事(P.32)の「WikiExtractor結果ファイルのリネーム」のコマンドを入力し、Enterキーを押します。
    なお、記載されているコマンドの先頭にある「$」は、入力しません。

文書の正規化

  1. ここまでと同様にDockerコンテナに接続し、「cd /webdb100/02」と入力して、Enterキーを押します。
  2. 雑誌記事(P.32)の「wikipedia_normalize.pyの実行」のコマンドを入力し、Enterキーを押します。
    なお、記載されているコマンドの先頭にある「$」は、入力しません。

    文書の正規化が始まります。終わるまでにはやっぱりしばらくかかりそうです。

    しばらく経って、以下のように表示されたら終了です。

内容語の取り出し、分かち書き表現に変換

  1. ここまでと同様にDockerコンテナに接続し、「cd /webdb100/02」と入力して、Enterキーを押します。
  2. 雑誌記事(P.32)の「wikipedia_wakaati.pyの実行」のコマンドを入力し、Enterキーを押します。
    なお、記載されているコマンドの先頭にある「$」は、入力しません。

    内容語の取り出しと、分かち書き表現への変換が始まります。

    しばらく経って、以下のように表示されたら終了です。

2 Trackbacks / Pingbacks

  1. WEB+DB PRESS (ウェブDBプレス) Vol.100「サポートベクタマシンによる教師あり学習」(P.31)をやってみた – 有限会社ビートラスト
  2. WEB+DB PRESS (ウェブDBプレス) Vol.100「トピックモデルによる教師なし学習」(P.37)をやってみた – 有限会社ビートラスト

Comments are closed.