にほんごのれんしゅう

日本語として伝えるための訓練を兼ねたテクログ

日光地区の各歴史の特徴量抽出について

日光地区の各歴史の特徴量抽出について

 日光地区の各歴史は、日光東照宮など世界遺産に登録された文化財などがあることより、可能な限り日光市町村の努力により発信しようと試みている。
 日本における市町村として3番目に大きいということもあり、東照宮以外の歴史文化財も豊富である。
 歴史的文化財が豊富であるから、それらのリソースを活用し、地域創世の要にしたいという強い思いと投資が行われている。
 しかしながら、定性的に日光市に偏在する地域がどのような強みを持つ歴史・伝統があるのか判然としていない。
今回、歴史用にチューニングしたIDFとTFを改良したアルゴリズムにより、特徴量の検出を試みる。
  

IDF辞書の問題

  IDF辞書を作成する際に、無作為なインターネット上の記事を参照し、辞書を作成するより、特定の興味関心の方向性を持った記事でIDF辞書を作成すべきであると判断した。
 これは、2種類のIDF辞書を用意し、無作為に記事に選択したAという辞書と、歴史的な事実を反映したBという辞書を用意し、DCGによる評価でBを選択した結果、3例中3例でスコアが改善したことに基づく。[1]
今回はwikipediaのデータを用い、評価を行った。
 

歴史・伝統・観光というキーワードが含まれている記事

  • 1 無作為に収集したウィキペディアの記事、100件に関して歴史・伝統・観光などに言及する記事である確率は17%であった。
  • 2 少なくとも「歴史」、「伝統」、「観光」の単語2つ以上が含まれる集合にかんして、歴史・伝統・観光などに言及する記事である確率は67%であった。

よって、定性的な見地より歴史を表現するIDF辞書として2.の条件のもと、20000件の記事に関してIDF辞書を作成した。
この時に利用したパーサは下記のURLに示す。
https://github.com/GINK03/check_weight/blob/master/jawikiparsing-for-rekishi.py
   

 TFアルゴリズムの改良

  • TFは単語とその出現回数の関連である
  • 長文や一定の方向性を持った単語を解析する際、出現回数を単純な掛け算の係数として表現することが不適切な場合がある。これは、一定の「1900年:FOO戦争開始、1910年:BAE戦争開始」といった羅列される単語のバイアスの影響度を下げる必要があることからも明らかである。
      この時、数値の影響度合いを下げるのに底eのlogを取る。TFIDFがヒューリスティックにlogを取るモチベーションと同様の発想であり、微積による最適化などのためなどではない。
  • 今回、3件のレポートを評価する際に、何度も同じ単語が出現する現象に遭遇したので下記のようにTFの定義を変更したところ、DCGのスコアの改良に成功した。
    -- TF_original: TF = Term_IDF * Freq
    -- TF_improved: TF = Term_IDF * log(log(Freq))

評価のためのプログラムを下記のURLに示す。
https://github.com/GINK03/check_weight/blob/master/text_weight_check.py

実験結果

日光市藤原地区のレポートの評価

日光市藤原地区

  日光市藤原地区の伝統や歴史などに関する包括的なレポートであり、どの単語、どの歴史が優れているのか単語による評価を試みた。ウェイトが重い順にソートしてノイズをスクリーニングしてある。

完成 11.7272963866
藤原 11.4235130491
鬼怒川 11.2615624107
藤原町 10.5304609797
工事 10.1013432866
昭和 9.34485297608
開通 9.34485297608
川治 9.05323422235
川治温泉 8.38898401497
地域 8.38898401497
施行 8.00512515809
日光 7.57600746495
拡張 7.08951394876
周年 7.08951394876
村人 7.08951394876
上水道 7.08951394876
会津 7.08951394876
鬼怒川温泉 6.5278984007
竜峡 6.5278984007
龍王峡 6.5278984007
センター 6.5278984007
大原 6.5278984007

 結果からわかることは藤原地区はほぼ、工事と温泉のみであるということがわかる。歴史的資産も含まれているはずなのだが、殆ど無い。ストーリー性のある文章として長文で記せない歴史・伝統であると考えられるか、一般的な歴史・伝統と重なりすぎてIDFの辞書の特徴量が軽いと考えられる。
 

日光市足尾地区

 藤原地区と同様にスクリーニングを行っている。

足尾銅山 17.6487757857
足尾 15.6809550171
被害 12.391546594
田中 11.4235130491
栃木県 11.4235130491
谷中村 10.9143198366
古河 10.5304609797
田中正造 10.5304609797
完成 10.3222163327
松木 10.1013432866
坑内 9.86621077236
事件 9.86621077236
廃止 9.61484977041
鉱毒 9.45849025414
昭和 9.34485297608
渡良瀬川 9.34485297608
通洞 9.05323422235
選鉱 9.05323422235
小滝 9.05323422235
大正 9.05323422235
古河市兵衛 8.7362265891
正造 8.41247842528
鉱業 8.38898401497
本山 8.38898401497
工事 8.38898401497

 日光市足尾銅山では抗毒やそれに関する田中正造などが非常に強いことがわかる。同時に、現古川グループの財閥時代の銅の掘り出しがかなりの側面をしめいていることがわかる。この側面で、攻めると良いかもしれない。

日光市今市地区

今市 18.0297647807
完成 17.1908572354
日光 16.3534016047
今市市 14.9771034474
開通 13.9488488707
小学校 13.3474155551
発足 12.8475521543
校舎 12.6266791083
開始 12.6266791083
建設工事 12.5110094101
体育館 12.0076877371
オープン 12.0076877371
センター 12.0076877371
市民 11.7272963866
杉並木 11.7272963866
開催 11.578570044
大会 11.4235130491
開所 11.4235130491
周年 11.2615624107
事業 11.0920765278
風景 11.0920765278
開設 10.9143198366
落合 10.9143198366
施行 10.5304609797
式典 10.5304609797
ホッケー 10.3222163327
公園 10.3222163327
工事 10.3222163327
栗山 10.3222163327
設立 10.1013432866
市長選挙 10.1013432866
人口 9.86621077236
新築 9.61484977041
設置 9.61484977041
誕生 9.61484977041
一部 9.61484977041
発刊 9.61484977041
地域 9.34485297608
市議会議員 9.34485297608
世帯 9.34485297608
クラブ 9.34485297608
選挙 9.34485297608
児童 9.34485297608
いまいち 9.34485297608
指定 9.05323422235

 日光市の今市地区では、杉並木のみだけでは。。。いまいち地区は日光市の中核産業の多くがあるため広めに多めにリストアップしたが、ホッケーと杉並木ぐらいしか、伝統と歴史はなさそうである。本来のあるべき姿かもしれないが、これだけ歴史に関係ない記述であると、一般産業に振り切ったほうがいいだろう。
 

まとめ

  • 市町村が表すレポートにより、観光産業に安易に力を入れたいだろう歴史・伝統祭り(役所主導で変な祭りを多く開いている)の多くを否定する結果になった。
  • 地道に住みやすい街を創生して、産業を創出したほうがいいのではないだろうか。
  • 税金返して。