そもそもこの論文はネット上での猥褻表現のフィルタリングが主題なので、出版物についてははじめから考慮に入っていないと思います。猥褻ドメインのフィルタリングにAIの学習能力を利用するのが目的かと。
なのでそもそも「小説」という形式の文章のみをサンプルにすること自体に違和感がありますね。猥褻ドメインならではの広告文句や説明文、利用者の書き込みなどのデータも相当数持ってくるべきなのでは?
前文の段階で、有害情報の確認できるドメインとして2ch、pixivのふたつだけが例として並べられていて、その後その選定理由について触れられているわけでもありません。それ以外は注釈にハピメくらい。「なぜそこでpixiv?」と読んでるこちらが面食らいました。
わたしもAIに興味があるだけの門外漢なのですが、追記のとおり、あるドメインの傾向に特化したAIがフィルタリングに利用されるのはとても有意義だと思いますし、ゆくゆくはそういったAIをつくるための参考となるようにこの論文は書かれていると理解しました。なのでその前段階としてこの論文では猥褻表現の分類と考察がなされているんですが、その考察方法がいろいろな意味で非常に稚拙なのが問題になっている。
24日の夜には一部で騒ぎになっていたしその頃はあの論文も普通に見られた。そのときにダウンロードしといた人ってどのくらいいるんだろう。あれよあれよと大騒ぎになっていて、今日...
関係者じゃないけど、これ多分、学部生が卒論でやった研究の発表だから、ツッコミどころ満載なのはご指摘の通りだと思う なんでpixivの文章をデータとして採用したのかっていうのは...
そもそもこの論文はネット上での猥褻表現のフィルタリングが主題なので、出版物についてははじめから考慮に入っていないと思います。猥褻ドメインのフィルタリングにAIの学習能力を...
ごめんなさい、ちょっと飲みに行ってて遅くなりました 論文にアクセスできなかったので、「猥褻ドメイン」っていう言葉の意味が良く分かってなかったっぽいです 前文の段階で、...
今回の論文というのは査読を経たものではなく、渋にクソ小説をアップしたのと大差ない。 論文だって創作物なので「君の小説はクソなので非公開です」とは普通ならないし。 したがっ...