入力メソッドワークショップ2015

入力メソッドワークショップ2015に参加してきたので、簡単にまとめを。

手続き文書の理解に向けて(森信介先生)

料理レシピから料理手順抽出を行う。手順はDAGとして表現される。DAGの抽出はMaximal Spanning Treeの計算により得られる。(DAGだからTreeじゃないか。)結構時間が掛かる(1レシピ40分くらい)最終的なaccuracyは50%くらい。

逆も考える。DAGを与えてレシピ文章を生成する。テンプレートを使う。評価尺度はBLEU。主観評価と相関があるのでBLEUを使って良い。(主観評価は使いたくない)

A Joint Graph Model for Pingun-to-Chinese Conversion with Typo Correction (小町先生)

ACL2014論文の紹介。タイポを考慮した中国語のピンインからの入力方法。変換候補に、 レーベンシュタイン距離が1以下の読みを持つ単語をすべて加える。重みはレーベンシュタイン距離を考慮してつける(が後の実験であまりこれが効かないことが示される)。あとは単語bigramによるHMMと考える。

普通にやると可能な探索しなくてはいけない解が増えすぎるので、Eppstein 1988の手法を使って枝刈り。

トレーニングにはSRILMを使い、KenLMをモデルのクエリーに使う。(なんで違うのを使うのだろうとツッコミが入っていたような)辞書はオープンソースのsunpinyinのものを使い、単語->pinyinの確率にはMosesのデータを使う。評価にはMIU(IJCNLP2013)という尺度を使う。トレーニングデータは人民日報。

ベンチマークは、まあ良くなっているわけだけど、同じであるべき?数値が同じでなかったり、単に欠落していたり、いろいろ突っ込まれていた。成績は言語モデルにほぼ依存しており、誤りモデルは重要ではないとのこと。

自己紹介と近況報告

tkngさんが共著で、オンライン機械学習という本を書いたとのこと。

ソーシャルメディア解析に向けた深層ニューラルネットワークを利用した日本語形態素解析(北川 善彬さん)

ニューラルネットワークのことを分かっていないので、よくわからなかった。前半のSNSに現れる独創的な表現の解析と、後半の深層学習の部分がつながっていないというツッコミが入っていた。使っているニューラルネットワークも複雑すぎるような…

mecab-ipadic-NEologdについて(overlastさん)

単語分割のための辞書。新語がたくさん入っている。表記ゆれ、読みの揺れなども吸収。週2回更新。固有表現認識研究を葬り去る勢いで。

Lightning Talk

オープン万葉

新しいオープンソースのかな漢字変換エンジンを作りましょうという話。

ダブル配列を理解しようとした

5分間のLTでは無理でした。

懇親会の話で、LOUDは省メモリなのでかな漢字変換には向いているが、遅いので機械翻訳には向かないとのこと。

Effective Approach to Attention-based Neural Machine Translation (tkngさん)

論文紹介。Attention-based Neural Networkというものがあるらしい。LSTMとかは任意長のデータを定数長に落として学習する?のだが、任意長のデータのどこに着目するかを、同様にLSTMとかで学習させると精度が上がるというお話?

LTはもっとあった気がしたけど、ノートにはこれだけしかなかった。

こんな感じです。