pixivR18小説を学習データに使った論文が炎上という形で話題になっているが、
大学時代に全く同様の研究に携わったことのある立場からチラ裏したい。
まず
"ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング"
https://kaigi.org/jsai/webprogram/2017/paper-15.html
この手の論文に関してだが、R18サイトと健全なサイトを見分ける分類器を作成するのが目的となる。
子供のさわるPCやスマートデバイスなどに導入するフィルタリングソフトが主な利用箇所だ。
(この辺勘違いしている人もいるようだが、決してpixiv民が研究対象ではない。
そんなものに研究価値はないので自意識過剰もいいところである。)
研究内容や論文自体が法的に問題ないのは既に指摘されまくっているので割愛。
「有害」という言葉に過剰反応している人がいるが、この言葉は論文を書く上での通例、決まり文句のようなものだ。
単純に「フィルタリング対象」くらいの意味しかないのであまり気にしない方が良い。
で、フィルタリング対象は当然研究者が勝手に定義して良いし、その価値を判断するのは研究の利用者だ。
例えば同じR18小説でもBLだけ弾きたい、ってニーズがあればそれにも使えるではないか。
(そうでないとしてもR18指定しておいて「無害」を主張するのってどうなの?自分の子供に見せられるの?)
引用(決して転載ではない)のプライバシー侵害という主張、恥ずかしいのは分からないでもないが、
大衆の目に触れる覚悟もなく公開するってインターネットを何だと思っているのか。ネットリテラシー低すぎて呆れる。
サンプリングについてもランキング上位で悪意のある選抜とも言えない。
サンプル数が少なすぎるのは確かに気になるが、仮に学習データが少なくて同精度の結果が得られるなら優秀な手法と言える。
こういう研究だと利用サイトを記載しても、個別のコンテンツ名や作者を記載することは少ない。
理由としては作者不明とか、数が多すぎて現実的じゃない場合が殆どで、今回はそれらに当たらない。
もちろんちゃんと許可を取って根回しするのが理想的だが、必須ではない。
スパムメールフィルタリングの研究者はスパムメールの作者全てに許可を取っているか?言うまでもない。
完全に私の推測だが、今回のケースはサイトや作者に対するリスペクトもあったのではないかと思う。
そうでないとクソ面倒な論文執筆で余計な情報を書こうとは思わない。あくまでも良心からの記載だと私は信じる。
確信を持って、私は味方だと主張したい。
まず情報系学生なんて9割オタクだし(要出典)、業界自主規制のような安全装置としての役目がある。
フィルタリングで子供の触れるコンテンツをコントロールするのは重要で、
いかに「私は18歳以上です」のようなゾーニングを施しても、そんなものに正直に答える子供はいない。
また、子供に有害だからコンテンツ削除しろってモンペは本当に存在する。
実際問題、研究を叩いているうちにコンテンツ自体をネット上に載せられなくなる時代が来るかもしれない。
もうね、少しでも界隈に同情してるなら上が手打ちするまで何も言わない方がいいと思うのよ。 増田も物腰やわらかな態度で斧投げてるだけじゃない。