2017-05-27

pixiv論文問題を元研究者立場から

pixivR18小説学習データに使った論文炎上という形で話題になっているが、

大学時代に全く同様の研究に携わったことのある立場からチラ裏したい。

まず

"ドメインにより意味が変化する単語に着目した猥褻表現フィルタリング"

https://kaigi.org/jsai/webprogram/2017/paper-15.html

この手の論文に関してだが、R18サイト健全サイトを見分ける分類器を作成するのが目的となる。

子供のさわるPCスマートデバイスなどに導入するフィルタリングソフトが主な利用箇所だ。

(この辺勘違いしている人もいるようだが、決してpixiv民が研究対象ではない。

そんなもの研究価値はないので自意識過剰もいいところである。)

類似した研究スパムメールフィルタリングがある。

研究内容や論文自体が法的に問題ないのは既に指摘されまくっているので割愛

有害」という言葉過剰反応している人がいるが、この言葉論文を書く上での通例、決まり文句のようなものだ。

単純に「フィルタリング対象」くらいの意味しかないのであまり気にしない方が良い。

で、フィルタリング対象は当然研究者勝手定義して良いし、その価値判断するのは研究利用者だ。

例えば同じR18小説でもBLだけ弾きたい、ってニーズがあればそれにも使えるではないか

(そうでないとしてもR18指定しておいて「無害」を主張するのってどうなの?自分の子供に見せられるの?)

引用(決して転載ではない)のプライバシー侵害という主張、恥ずかしいのは分からないでもないが、

大衆の目に触れる覚悟もなく公開するってインターネットを何だと思っているのか。ネットリテラシー低すぎて呆れる。

(もう入会許可制サイト作った方が良いんじゃない、マジで)

サンプリングについてもランキング上位で悪意のある選抜とも言えない。

サンプル数が少なすぎるのは確かに気になるが、仮に学習データが少なくて同精度の結果が得られるなら優秀な手法と言える。

こういう研究だと利用サイト記載しても、個別コンテンツ名や作者を記載することは少ない。

理由としては作者不明とか、数が多すぎて現実的じゃない場合殆どで、今回はそれらに当たらない。

もちろんちゃんと許可を取って根回しするのが理想的だが、必須ではない。

スパムメールフィルタリング研究者スパムメールの作者全てに許可を取っているか?言うまでもない。

完全に私の推測だが、今回のケースはサイトや作者に対するリスペクトもあったのではないかと思う。

そうでないとクソ面倒な論文執筆で余計な情報を書こうとは思わない。あくまでも良心から記載だと私は信じる。

最後に、フィルタリングサブカル界隈の敵か?に触れたい。

確信を持って、私は味方だと主張したい。

まず情報学生なんて9割オタクだし(要出典)、業界自主規制のような安全装置としての役目がある。

フィルタリング子供の触れるコンテンツコントロールするのは重要で、

手動分類式以外はこの研究のような技術必要不可欠だ。

いかに「私は18歳以上です」のようなゾーニングを施しても、そんなものに正直に答える子供はいない。

また、子供有害からコンテンツ削除しろってモンペは本当に存在する。

実際問題研究を叩いているうちにコンテンツ自体ネット上に載せられなくなる時代が来るかもしれない。

これは過剰に不安煽り過ぎかもしれないが、少年犯罪犯人pixivR18小説アクセスしてた、

なんて報道が流れたとしたら世論はどう傾くか。未来は誰にも予測できない。

  • もうね、少しでも界隈に同情してるなら上が手打ちするまで何も言わない方がいいと思うのよ。 増田も物腰やわらかな態度で斧投げてるだけじゃない。

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん