Everfilter がもし人工知能を真っ当に利用したものだとしたら、どう考えますか?

はてな匿名ダイアリー

2016-12-08

■Everfilter がもし人工知能を真っ当に利用したものだとしたら、どう考えますか?

「君の名は。」風の写真に変換するアプリということで話題になった Everfilter が公開停止になった。著作権侵害ではないかという指摘に対する運営元会社の対応である。以下の記事が詳しい。

http://japanese.engadget.com/2016/12/05/everfilter/

私のみた観測範囲では、いまのところ以下のような結論が優勢に見える。

ディープラーニングを謳っているが、実際にはディープラーニングではなく、新海誠監督の背景との合成ではないか
仮にディープラーニングだとしても一部領域を検知するまでで、空模様はやはり既存画像からの合成ではないか
合成であるなら、元画像の著作権を侵害しているのではないか

合成だとみなされた過程としては

新海誠監督の作品を多数みてきた人物の直感
スタイル変換と呼ばれるディープラーニング由来の手法ではこのような変換を作り出すことはできない。スタイル変換ではスタイル変換特有の癖が強くでるが、Everfilter にはその痕跡が見られない

という主張がなされている。特にこの記事が多く参照されたように思う。

http://d.hatena.ne.jp/shi3z/20161204/1480806378

以降、これらの主張がその通りではない可能生がわずかながらあること、もしそうだった場合には著作権侵害に対してどのような議論がなされるのだろうか、その思考実験をしてみたいと思う。

なお、あくまで仮説であってここまでの主張を否定することを目的にしているわけではない。もしかすればそうではない可能生が微レ存、ではそちらの可能生を考慮したら、どのような議論になるか考えてみると (不謹慎ではあるが) 面白い議論になりそうだ･･･というのが趣旨である。

Google Research 論文の提案する手法

先の shi3z 氏の主張はスタイル変換に DeepArt と呼ばれるアルゴリズムが用いられていることが前提となっている。確かに shi3z 氏が述べているように DeepArt ではスタイル変換で細部のディテールを残すことが難しいことが分かっている。

具体的には、生成された画像において、人物の顔、建築物の模様などのディテールが潰れてしまう。

一方、今年の 9月に Google Research から提案された、スタイル転送の改良版アルゴリズムがある。

Style-Transfer via Texture-Synthesis
https://arxiv.org/pdf/1609.03057v3.pdf

当方もたまたま知人から教えてもらったものである。細部まで読んではいないが、おおまかに言うと、古典的なテクスチャ合成の手法を既存のディープラーニングベースのスタイル変換アルゴリズムに適用して改良することで、細部のディテールを残したままの変換が可能になった･･･という内容である。

結果は 24ページ Figure 8 と Figure 9 にある既存手法との比較が分かり易いだろう。

上段の Figure 8 が既存手法･･･おそらく shi3z 氏の記事にある DeepArt に近い手法。Figure 9 が提案手法である。建物のディテールが再現できていない既存手法に対して提案手法では建物のディテールを残すことに成功している。

また、もうひとつ特徴的なのが、空のように一様性の高い箇所においては元のスタイルが持つ模様のパターンに酷似したパターンが描かれている点だ。このあたりは古典的なテクスチャ合成を応用した影響だろう。

本手法を用いた場合、既存手法より高速に変換画像が生成されることにも言及されている。

Everfilter のアルゴリズムが提案 手法に近いもの であると仮定する

もし Everfilter のアルゴリズムが提案手法に近いものであるなら、今回疑問視されていることの中に幾つか説明のつくものがある。

建物の細部は DeepArt では潰れてしまうのではないか? ･･･提案手法ではディテールをより再現できている
空の雲模様はオリジナル画像からのコピペ合成なのか? ･･･空のように一様な模様にはオリジナル画像の模様が再現されやすい
DeepArt では画像の生成にもっと時間がかかるのではないか? ･･･提案手法では高速に変換を行うことができる

というものである。

この辺りから、Everfilter は「ニセAI」ではなく比較的新しいスタイル変換のアルゴリズムを実装した製品だった可能生が微レ存･･･と思い至ったわけである。

もしも Everfilter がニセAI ではなかったら著作権侵害ではないのか?

当然、そこまでは言えないと考えている。

2016年現時点で著作権侵害は親告罪なので、たとえどんな手法が用いられようがその出力に対して「お前のこの絵はこちらのパクりだろう」と指摘されたところで容疑がかかる。中身がディープラーニングであろうが、コピペであろうが、そこは変わらないと思われる。

インターネット上の議論に載せてみたいと思ったのは

人工知能がより発展した場合に、既存の作品から学習した「知能」が描き出した作品は世間一般の感情的には是なのか否なのか
学習データに著作権のある画像を使うことは問題なのか。それとも出力が酷似していることが問題なのか

といった論点である。法律的な白黒は先に述べたように親告罪に照らし合わせて考えればよいので、ここは、世間一般の人々の感覚を話題にしてみたい。

例えば、人間の漫画家の場合を考えてみる。

有名漫画家の漫画を模写し続けることで画力を磨いた漫画家が描いた作品は、その有名作品に画風が似ることはよくあるだろう。その場合、ストーリーや構図に類似性が見られず、かつ、画風も多少の癖の類似であれば許容範囲内というのが世間一般の常識であるように思う。つまり、画風"だけ" に多少の類似があるものは認められそうだ。

では、有名作品のデータをもとに学習を行った人工知能が描き出した、画風 "だけ" に癖のある写真･･･というのはどう考えるべきだろうか。もちろん、画風に強すぎる類似性が認められる場合は、世間の風当たりは強いだろうが、では、どの程度の類似性であれば許容範囲内なのであろうか?

その類似性は大きくは

どの画像から学習したのか
アルゴリズムの手法 (ニューラルネットワークの構成法)

の二つからもたらせるものであるが、強い類似性を悪とした場合、では著作権のある画像から模倣した･･･学習したことが悪なのか。まだ人類もその性質を解明し切れていないディープニューラルネットワークがもつ性質が悪なのか。

(法律的な判断ではなく) 感情的な判断についてはもやはり、出力が問題であってどんな手法が使われているかは関係無という態度が正しいのか。

話題は逸れるが、ニューラルネットワーク版の Google 翻訳が生成した文章の著作権はどう考えるべきなのか。これも似たような問題である。Google はウェブ上の大量のデータから学習していると思われるがもしそれが著作権フリーではないデータからの学習だとした場合に、生成された翻訳文書は Google が著作権を持つのか、そうではないのか。

世間の常識がどこに落ち着くのかはまだよくわからない。だからこそ、この議論をコミュニティに投げかけてみたかった。

Google Research の論文で Everfilter が完全に再現されるかどうかは実験してみないとわからないことであり、また論文をの例を見る限り Everfilter 品質での出力を得るには相応のチューニングが必要になるようにも見える。それが現実的に困難だった場合はやはり shi3z 氏の主張が正しい可能生も大きい。また、テクスチャ合成を応用したという点で著作権との相性が悪いアルゴリズムである、という考えもあるだろう。

shi3z 氏の主張を否定するために記述したのではなく、あくまで、人工知能が作り出したコンテンツを人々はどう捉えるのか、そこについてみなさんの意見を伺ってみたく起こしたエントリであることを強調しておく。

2016-12-08