2017-05-29

立命館pixiv論文問題的外れ批判

人工知能研究者人工知能学会にも参加したし、件の論文の著者の1人ともご挨拶した。倫理的問題はあるとは思っているが、色々な批判の中で、次の的外れ批判をよくみる。根本的に、機械学習理解されていないのだなぁ、と感じる。機械学習は、平たく言えば、人間判断機械に真似させる手法総称だ。まず、人間判断の模範を示してやって、どれだけ正確に人間の真似が出来たか、が性能評価になる。これだけわかっていれば、下記の2つが的外れであると分かるはず。

わざわざゾーニングされている小説対象にする必要があったのか批判

ゾーニングは人力でなされている。つまり、そこに、人の判断が入っている。誰かが判断して、これはR-18だね、青少年にはみせちゃいけないね、と判断している。ゾーニングされている小説からこそ、人間判断が反映されていると言える。機械ゾーニングすべきかゾーニングするべきでないか判断させるために、人間の真似を機械にさせるのが最終目的なのだから、既にゾーニングすべきと人間判断した小説対象にするのは、むしろ当然。

たった10サンプルでは少なすぎて何も言えていない

これも、的外れ批判問題は、「直接的に性的とわからないような表現機械識別する事ができるか?」ということ。単位表現であって、小説の数ではない。10サンプルでも、小説であれば、多数の表現を含む。今回の研究では、表現の例の数が問題であるし、ほとんどの表現について、表現性的かどうかは、小説の内容にかかわらずに表現だけから判断できる。なので、極端に言えば、表現多様性さえ確保できれば、1サンプルだって構わない。たとえ1小説の中に含まれ表現の例であったとしても、青少年が見られる場にそうした表現が出てきたら不適切なことにはかわりはない。つまり、この論文は、小説を「性的表現集」として使っているわけだ。小説の内容自体について論じているわけではない。直接的に性的とわからないような表現には、どのような表現があるのかを知り、そうした表現識別できるかどうかに関心があるわけだ。

問題が、「小説の著者を当てよ」とか、「当該分野の小説表現の傾向を調べよ」であれば、10サンプルでは少なすぎるという批判妥当だと思う。けれども、今回の研究は、「表現をうまく識別できたか」だけがポイントなので、多様な、非直接的性的表現が含まれている例として納得できれば、別にサンプル小説数はどうでもいい。

もっとも、サンプル数を増やせば、より多様な表現が得られることは容易に推察できる。より多様な表現を真似させた方が、機械学習の性能は一般的には向上する。しかし、結局、どの表現も検知・除外することが求められるのであれば、10サンプルに含まれ表現も検知・除外できなければならないことにはかわりない。

  • サンプル数が関係無いなら自分らで例題みたいなのを用意すればいいじゃん 馬鹿なの?

    • いやいやいやいや…実際に、そうした表現を含む小説があって、そうした表現がゾーニングされている、ということが重要。 そうしないと、「研究のために、使われているわいせつ表現...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん