はてなキーワード: 形態素解析とは
生成AIに関して詳しく書いてある文章があったので、興味深いと思って読みました。
ttps://note.com/freena_illust/n/ne1442b0563c3?sub_rt=share_b
返歌ではありませんし、技術的根拠も出せませんが、思ったことをまとめたいなあと思いました。
断っておくと、上記の記事に対して肯定的な感情を抱かなかった人が書いてます。
そして生成AIはChatGPTを無料でしか使ったことがない人が書いてます。
嫌な予感がする人は読まないほうがいい。
冒頭で書いたように私は生成AIに詳しくはありません。
でも一応話の軸がぶれないように、最初に主張したいことを述べます。
「高精度なAIには大量の学習データが不可欠だから、権利問題をクリアしても未来はなさそう」です。
先日びっくり発言を見かけました。
曰く、生成AIの技術を認めている人はすべからく盗作を認めている(意訳)、とのことでした。
現在の生成AIツールがそうなっているだけなので、学習元を変えれば権利侵害にはならないはずです。
まあ技術的に可能というだけで実際にそうする人はいないと思いますが。
権利の問題が解決されていないのに生成AIのツールばかり絶賛するものだから、生成AI賛成派は著作権を踏み倒していると解釈されるのは理にかなっているとも思います。
先に述べたように、私は生成AIに限らず、AIという技術が発達すればいいなと思っています。
がしかし、問題があるとすればAIという技術には膨大な学習データが必要で、ネット上にある膨大なデータは全てが著作権フリーではないということです。
さて、件の記事では「無許可のデータを学習」という文がありました。
ふと思ったのですが、逆ならいいのでしょうか。
ですが、「許可されたデータ」の数とはどれほどなのでしょうか。
それで生成できるコンテンツとは何なのでしょう。
ニューラルネットワークの階層が極端に少なく、陳腐なものが成果物となるでしょう。
法で「許可されたデータ」のみを学習対象とするように律することは出来たとしたら、AIの未来はないと思います。
理由は当初に述べたとおりです。
機械学習の本を読んだら寝たので諦めましたが。
それで、だいぶ路線が違うのですが、過去に形態素解析をかじっていたころがありました。
その際に「データ量が少ないと何もできないな」ということを痛感しました。
形態素解析というのは文章をスパスパ区切って順位付けなり分類なりをするというものです。
その文章をスパスパ区切るために、単語の分類と区切りが記載されているであろう「辞書」が必要になります。
「今日魔界ではどちゃくそ雪が降った」という例文があったとして、
単語量の少ない辞書では「今日/魔/界/では/ど/ちゃ/くそ/雪/が/降った」
単語量の多い辞書では「今日/魔界/では/どちゃくそ/雪/が/降った」
になる、というかんじ。
イメージ図なので本当に魔界が分割されるかはわかりませんが、固有語はほとんど未知の単語と認識されて分解されると思います。
無料に頼るからよくないのですが、ネット上の無料の辞書は単語量が少ないため、現代風の言い回しがだいたい判別できません。
ボボボーボ・ボーボボなんてこようものなら、もはや人名とすらも認識されません。
いやどっちかというとマンガ名か?
いいかんじにメンテされてた辞書も、とある日を境に更新されなくなってしまいました。
そんな具合で、当時はデータ量が少ないと何もできないなあと、役に立たねえなあとひしひし感じました。
先ほどの無許可、許可のことを書きながら、このデータ量のことを思い出しました。
文章生成AIであれば、学習する際、単語を分割したり重みづけをしたりする際に相応の辞書を使っているはずです。
要はデータ元もそれを補助するツールも、多くのデータがあればあるほど真価を発揮するはずなのです。
フェイク画像やらなにやらが話題になったのは、サムネイル段階で目を引く造形だったからですよね。
その点では遠目で人の興味を惹く成果物を作れるほどになった技術自体は賞賛すべきものだと思います。
でもそれで作られたものって盗作だよね? という声が聞こる気がしますが……。
私も趣味で絵を書いたり文章を書いたりするので、同一のもの、あるいはひどく酷似したものが他者から後出しで出されたらぞっとします。
この手のものはトレパクというものに当てはまりますが、時系列の証拠を出せばおよそどちらが権利を侵害しているかが認められるものだと思っています。
ただ、生成AIでの成果物は本当に権利を侵害しているのか、という疑問はあります。
ttps://note.com/compass_0000/n/na536a5d16c7a
上記の記事はとある絵師さんのトレパク疑惑について書かれたものです。
記事の内容を見ても、この勝訴した絵師さんはトレパク冤罪をかけられたものだと思えたのですが、某SNSで検索をかけて驚きました。
敗訴した絵師さんをかばい、勝訴した絵師さんを非難するような方が多く見られたのです。
しかも裁判が起こるだいぶ前にこのトレパク問題はとても話題になり、「トレパク疑惑」というところがすっぽ抜けて「トレパク」とだけ把握する人が多数いたようです。
つまり、かの絵師さんには「トレパク疑惑の絵師」から「トレパクの絵師」というレッテルが貼られてしまったのです。
そんな先入観からか、はたまたもう片方の絵師さんを妄信しているのか、ふたりを殆ど知らない私ですら妥当と思った判決結果に疑問を抱く人が世の中にいます。
証拠がはっきりしているトレパク裁判ですら、すべての人が納得出来ていないのです。
(なんでだろうね)
トレパクではしばしば線の重なりが証拠として出されますが、生成AIでの盗作の証拠とは何なのでしょうか。
私の作品を学習してると思います、という見知らぬ絵師さんの引用投稿を以前見かけたことがあります。
こことこことここがその証拠です、と赤丸をつけていた記憶があります。
決して私も詳しいわけではありませんが、かの絵師さんは生成AIの生成過程をご存じないのでは、と思いました。
1枚の絵が与える影響がそんなに大きいとは思えません。
ノイズを出してから1px単位で要素を除外していく、という過程だけを知っていたらそんな言いがかりはつけないと思います。
今、このような方がどれだけいるか分かりませんが、身を守るのだとしたら敵を知るべきです。
思い込みや無知では戦えません。……と思い込みでこの文章を書いている私が言うのも説得力がありませんが。
絵柄を寄せて作り出した成果物であれば話は別です。
あえて特定の絵柄に寄せ続けた成果物を作ることで、模倣元の著作者が得るはずだった利益を奪い取ったと訴えることが可能と考えます。
が、この場合も似ている絵柄などごまんとある、という反証が出来てしまうのかなとも思います。
「学習したことの証拠」よりは「模倣したことの証拠」のほうが敷居が低そうではありますが、それでも茨の道ではあります。
逆に言えば証拠らしい証拠を出せないのが生成AIなのかもしれません。
裏はブラックボックスなので……。仮に問い合わせて計算データ云々を入手できたとしても数値の羅列でしょうし。
現状では、生成AIの成果物は盗作疑惑が永遠に付きまとう、という認識にしかなりえないと思います。
盗作じゃないって証明でないならいいじゃーんって開き直る人がいそうですが、グレーゾーンって喜んでいいのかなあ……。
「高精度なAIには大量の学習データが不可欠だから、権利問題をクリアしても未来はなさそう」です。
データがたくさんあればAIという技術の発展が見込めるけれど、それには権利の問題が立ちふさがる。
仮にそれが権利者の権利を守る段階に来たらAIの発展は終わる。
でも、現状の生成AIの成果物は権利侵害をしているともしていないとも言い切れないのでは?
そう思っています。
NFTがいい例ですが、著作権を持っていたとしても物理的には何の意味もありません。
権利持っている人以外スクショできる機能なんてスマホにはありませんし。
絵を描いたのならばAI学習疎外ツールを使って自己防衛する時代になっています。
正直、盗作盗作いう人たちの決めつけ発言に辟易しますが、グレーゾーンであることは変わりませんし、この先白か黒かに変わることもないと思います。
そうです、私はAIという技術が気になっているだけあって、生成AI技術=盗作ツールというレッテルが貼られるのが嫌だなあと思ってるだけです。
今現在は否定できる証拠もないので、断言はできないでしょ! としか言えないのですが。
AIがうまーく発展してる未来のフィクションはどうやって高精度で大容量なデータットの獲得と権利問題を解決したのでしょう。
フィクションに聞いてもわかりませんね。
そうそう思い出した。
DXが進んだのはコロナの影響という話を以前聞いたんです。
企業がちまちまやっている業務効率化や働き方改革なんてちっとも効果がなくて、COVID19が一番の功績者だったと。
その部分はただの皮肉でしたが、事実でもあるので、人間って環境が変わるとそれに対応していくんだなあとつくづく感じました。
とはいえ、今回話題にしている生成AIはおよそ画像生成AIのことを指しているので、環境変化によって必要に迫られることはないと思います。
何に使うんだろう。
気にはなってるけど傍観者なもんで……。
なんかこう、心理学に似てるような……一般人は何に使うんだろうってなる……専門家は分かってそう……。
技術の発展って難しいですね。
ペンタブで描いたものよりアナログの絵が賞賛されたように、ハイテクはすごい、という先入観があるのかもしれません。
すごいからずるい、になるんでしょうね。
障害があって絵が描けない人が生成AIで絵を出せるようになったという話を見たとき、そういう人もいるのかと感心しました。
乱数要素も絡むため、著作物であると主張できるかはさておいて、想像したものを出力できるのは楽しいと思います。
……使ったことないですけど。
(追記)
今後の開発記録はブログで公開していくからよかったら読者登録よろしくね。
https://firststar-hateno.hatenablog.com/
------------------------------------------------------------------------------------------------------
https://b.hatena.ne.jp/firststar_hateno/bookmark
今のところ手動なんだけど、そのうち6時間に1回ホットエントリーの記事5記事程度に対して自動でブックマークするようにするつもり。
ちょっと前のよっぴー騒動ではてな版のとぅぎゃっちゃんとかいたらいいんじゃないのって言ってたのを思い出して、なんとなくそれを意識して作ってる。
最初は記事の内容を読み込んでちゃんとしたコメントをさせようとしてたんだけど、記事の内容がHTMLのどの部分なのか特定させるとか漫画の記事はどうすんだとか結構難しい問題があるし、よく考えたらブクマカも大体記事のタイトルとブコメ一覧しか読まずにコメントしてるからAIブックマーカーもそれでいいかとなって今のところタイトルとコメントだけ読ませてコメントさせてる。
設定はgithubを見てください。
https://github.com/ktny/AI_hatena_bookmarker
みんな可愛がってくれよな。
(追記1)
はてなブックマークの利用規約についていくつかコメントがあったので追記するよ。
https://b.hatena.ne.jp/help/entry/spam
・特定のサイトに対し、メインアカウントとサブアカウントで複数のブックマークをする行為
・複数のアカウントで共謀して同一のURLをブックマークする行為
・広告、宣伝および検索サイト最適化を目的としてブックマークする行為
・ワンクリック詐欺や不法行為が行われているサイトを宣伝広告目的でブックマークする行為
・ブックマークを明示的に依頼したり、ブックマークの追加に金銭や物品などの報酬や特典を与える行為(当社が主催するキャンペーン企画などを除きます)
・ブックマーク対象のページの内容と無関係なタグやコメントを投稿し、誘導をはかる行為
・特定の条件で自動ブックマークをする行為のうち、特に公正性に影響が出るもの
・エントリーのブックマーク数に応じて、自動的にブックマークを投稿する等
この中で該当するかもしれないのは「特定の条件で自動ブックマークをする行為のうち、特に公正性に影響が出るもの」かな。
ただ、エントリーのブックマーク数に応じて投稿しているわけではないし、もしそれが引っかかるということであればなんらか対策はできそうかな。
はてなとしては自動ブックマークする行為自体を禁止しているわけではないと俺は読み取ったよ。
メインアカウントについては複数アカウント所持を避けるため削除するよ。
(追記2)
・長文だけでなく短文もなるべく投稿するようにする
・タイトルを形態素解析してタイトルワードをなるべく使わないように調整(単なる要約になりすぎないように対策)
・タイトル、ブコメ以外に記事の説明文も活用できる場合は活用する
より自然になった気はするけどユーモラスなコメントとかはなかなか難しい。
テストしてるとたまにすごく面白いなーと思うものも出るんだけど毎回そういうのが出るわけではないんだよね(そういう面白かったコメントを抜き出して投稿とかはせず純粋にそのとき自動で出たコメントをブクマさせてる)。
あえぎ声を書くバイト
https://anond.hatelabo.jp/20210408000218
https://anond.hatelabo.jp/20210520231555
はてなブログランキングの増田部門に載る人には、明らかに常連がいる。
経済時事的な会社の物語を書いて、最後に風俗店に行く人(デリヘル増田)とか。
今のはわかりやすい事例だけど、中には性別や所属組織、年齢なんかを自在に変えてそれっぽい文体を演じている人もいる。
「あ、この人は一か月前にランキングに載ってたな」
「また弱者男性の話をしてる」
「今度は特定の会社じゃなくて、大学についてアレコレ言う話なんだ」
とか、しみじみと感じることがある。
中には「プロだよね?」っていう人もいて、暇つぶしにはもってこいのコンテンツだと思う。増田は。
ところで。
同じ人が文体を変えても何となくわかる。ダメ押しで文章を形態素解析にかけることもあるけど、直観が外れたことはない。
シロクマ風にいうなら、どれだけ文体を変えても、その根底にある思想が文章に滲み出てしまうのだ。
その人は、いつも特定の何かを非難する話を書いている。上の「」でいうと一番下の人なんだけど、この方はいつも特定の何かをこき下ろしたり、馬鹿にしたり、悪い噂を広めることを目的にしている感がある。
証拠がないのでURLを貼ることはできないけど、正直、それってありなの?と感じることがある。文がそれなりに凝っていて、たまにクスッとくる内容なのは認める。
けど、特定の団体を名指ししたり、男性性や女性性への蔑視を煽っていることには同意できない。
その人が今までに扱ってきたテーマ(特定のテーマについての負の感情を煽るようにできている。筆が立つだけに厄介だ)はこんなところだ。
モテる女性、地方公務員、特定の民間企業、特定の大学、モテない男性、IT関連のコンサルタント(いわゆるITコンサル)、マッチングアプリ業界
ざっと思い出しただけでこれだけある。
基本的に、はてな匿名ダイアリーには何を書いてもOKだと思うし、そうあるべきだと思う。
でも、遠回しに何らかの存在に対するヘイトを焚きつけるスタイルには共感できない。まるでどこかの新聞記事や大本営発表や官僚の作文みたいに、巧妙な言葉で、直接的な表現を避けて、でも結果的にはその人の思考や判断に影響を与えてしまう。騙してしまう。そういう文章はズルいし汚い。
物書き(雑誌編集者)の一人として、そういう増田を書く人の存在を否定する。
増田を読む時は、なんというかこう、笑ったり泣いたり、ドキドキしたり、ウズウズしたり。
そういう気分でいたい。あなたはどうだろう。