tx2xで機械学習用のデータを準備する

業務改善することを目標に、機械学習を使ってみようと思い立ち、このサイトで初めて機械学習に触れたのが10/17でした。ここまで勉強して、ようやくKerasで機械学習をさせられそうな気がしてきました。

WEB+DB PRESS (ウェブDBプレス) Vol.100「第2章 自然言語処理」(P.24)をやってみた

次の目標は、データを準備することです。手元には約15年前から、tx2xで書いてきた多種多様な原稿がありますので、それらを機械学習の訓練データに加工するところから始めます。実際のテストデータは公開できませんので、ここでは概要を説明することで、雰囲気を感じていただきたいと思います。

tx2x本体にcsv出力機能を追加する

tx2x本体はGitHubからダウンロードできます。tx2xのカスタマイズのご依頼はコチラからお願いいたします!

tx2xのテキストと、そのテキストをcsvに出力した例は以下のとおりです。

tx2xのテキスト(例)

【章】章タイトル
Hack #1-2

親譲りの無鉄砲で小供の時から損ばかりしている。小学校に居る時分学校の二階から飛び降りて一週間ほど腰を抜かした事がある。なぜそんな無闇をしたと聞く人があるかも知れぬ。別段深い理由でもない。新築の二階から首を出していたら、同級生の一人が冗談に、いくら威張っても、そこから飛び降りる事は出来まい。弱虫やーい。と囃したからである。小使に負ぶさって帰って来た時、おやじが大きな眼をして二階ぐらいから飛び降りて腰を抜かす奴があるかと云ったから、この次は抜かさずに飛んで見せますと答えた。(青空文庫より)
▼表10-1 ダミーテキスト
 ==========
 【ヘッダー】セル1
 -----
 【ヘッダー】セル2
 -----
 【ヘッダー】セル3
 ==========
 セル4
 -----
 セル5
 -----
 セル6
 ==========
 セル7
 -----
 セル8
 -----
 セル9
 ==========
 セル10
 -----
 セル11
 -----
 セル12
 ▲

csv(例)

1つ目の情報は「段落スタイル」、2つ目の情報は「文章」になっていて、「文章」→「段落スタイル」の関連を学習させてみようという狙いです。

(この例はダミーテキストなので学習させません。)

"【章】【章】【章】","【章】章タイトル"
"【章サブ】【章サブ】【章サブ】","Hack #1-2"
"【本文】【本文】【本文】",""
"【本文】【本文】【本文】","親譲りの無鉄砲で小供の時から損ばかりしている。小学校に居る時分学校の二階から飛び降りて一週間ほど腰を抜かした事がある。なぜそんな無闇をしたと聞く人があるかも知れぬ。別段深い理由でもない。新築の二階から首を出していたら、同級生の一人が冗談に、いくら威張っても、そこから飛び降りる事は出来まい。弱虫やーい。と囃したからである。小使に負ぶさって帰って来た時、おやじが大きな眼をして二階ぐらいから飛び降りて腰を抜かす奴があるかと云ったから、この次は抜かさずに飛んで見せますと答えた。(青空文庫より)"
"【表】【行】【セル:ヘッダー】【本文】【本文】【本文】","【ヘッダー】セル1"
"【表】【行】【セル:ヘッダー】【本文】【本文】【本文】","【ヘッダー】セル2"
"【表】【行】【セル:ヘッダー】【本文】【本文】【本文】","【ヘッダー】セル3"
"【表】【行】【セル】【本文】【本文】【本文】","セル4"
"【表】【行】【セル】【本文】【本文】【本文】","セル5"
"【表】【行】【セル】【本文】【本文】【本文】","セル6"
"【表】【行】【セル】【本文】【本文】【本文】","セル7"
"【表】【行】【セル】【本文】【本文】【本文】","セル8"
"【表】【行】【セル】【本文】【本文】【本文】","セル9"
"【表】【行】【セル】【本文】【本文】【本文】","セル10"
"【表】【行】【セル】【本文】【本文】【本文】","セル11"
"【表】【行】【セル】【本文】【本文】【本文】","セル12"