「固有語」を含む日記

はてなキーワード: 固有語とは

2024-01-27

■anond:20240126143711

今思い出したが、世界線はSTEINS;GATEで使われた固有語だから、ゲーム由来の用語ということでいいよな

Permalink | 記事への反応(0) | 19:53

2024-01-10

■生成AIのこと

生成AIに関して詳しく書いてある文章があったので、興味深いと思って読みました。

ttps://note.com/freena_illust/n/ne1442b0563c3?sub_rt=share_b

返歌ではありませんし、技術的根拠も出せませんが、思ったことをまとめたいなあと思いました。

断っておくと、上記の記事に対して肯定的な感情を抱かなかった人が書いてます。

そして生成AIはChatGPTを無料でしか使ったことがない人が書いてます。

そうです、あいあむ無知……。

嫌な予感がする人は読まないほうがいい。

最初に

冒頭で書いたように私は生成AIに詳しくはありません。

最近話題になってるなあと思ってるくらいの人間です。

なので多分脱線をたくさんします。

でも一応話の軸がぶれないように、最初に主張したいことを述べます。

「高精度なAIには大量の学習データが不可欠だから、権利問題をクリアしても未来はなさそう」です。

盗作 ツールとして名高いらしい

先日びっくり発言を見かけました。

曰く、生成AIの技術を認めている人はすべからく盗作を認めている（意訳）、とのことでした。

現在の生成AI ツールがそうなっているだけなので、学習元を変えれば権利侵害にはならないはずです。

まあ技術的に可能というだけで実際にそうする人はいないと思いますが。

権利の問題が解決されていないのに生成AIのツールばかり絶賛するものだから、生成AI賛成派は著作権を踏み倒していると解釈されるのは理にかなっているとも思います。

先に述べたように、私は生成AIに限らず、AIという技術が発達すればいいなと思っています。

しかしそれと盗作を認めることはイコールではありません。

がしかし、問題があるとすればAIという技術には膨大な学習データが必要で、ネット上にある膨大なデータは全てが著作権フリーではないということです。

さて、件の記事では「無許可のデータを学習」という文がありました。

ふと思ったのですが、逆ならいいのでしょうか。

いいと思います。許可されたデータなので。

ですが、「許可されたデータ」の数とはどれほどなのでしょうか。

当然ながら「無許可のデータ」よりも少ないと予測できます。

それで生成できるコンテンツとは何なのでしょう。

ニューラルネットワークの階層が極端に少なく、陳腐なものが成果物となるでしょう。

（階層型しか知らなくてごめんなさい）

法で「許可されたデータ」のみを学習対象とするように律することは出来たとしたら、AIの未来はないと思います。

理由は当初に述べたとおりです。

データが多いほど幸せになれるかも

実は超解像を試そうと奮闘した過去はあります。

機械学習の本を読んだら寝たので諦めましたが。

それで、だいぶ路線が違うのですが、過去に形態素解析をかじっていたころがありました。

その際に「データ量が少ないと何もできないな」ということを痛感しました。

形態素解析というのは文章をスパスパ区切って順位付けなり分類なりをするというものです。

その文章をスパスパ区切るために、単語の分類と区切りが記載されているであろう「辞書」が必要になります。

「今日魔界ではどちゃくそ雪が降った」という例文があったとして、

単語量の少ない辞書では「今日/魔/界/では/ど/ちゃ/くそ/雪/が/降った」

単語量の多い辞書では「今日/魔界/では/どちゃくそ/雪/が/降った」

になる、というかんじ。

イメージ図なので本当に魔界が分割されるかはわかりませんが、固有語はほとんど未知の単語と認識されて分解されると思います。

無料に頼るからよくないのですが、ネット上の無料の辞書は単語量が少ないため、現代風の言い回しがだいたい判別できません。

ボボボーボ・ボーボボなんてこようものなら、もはや人名とすらも認識されません。

いやどっちかというとマンガ名か？

いいかんじにメンテされてた辞書も、とある日を境に更新されなくなってしまいました。

そんな具合で、当時はデータ量が少ないと何もできないなあと、役に立たねえなあとひしひし感じました。

先ほどの無許可、許可のことを書きながら、このデータ量のことを思い出しました。

文章生成AIであれば、学習する際、単語を分割したり重みづけをしたりする際に相応の辞書を使っているはずです。

日本語おかしくないですもん。

人がスクショした文章しか見たことないけど。

だいぶ脱線しました。

要はデータ元もそれを補助するツールも、多くのデータがあればあるほど真価を発揮するはずなのです。

フェイク画像やらなにやらが話題になったのは、サムネイル段階で目を引く造形だったからですよね。

下手な絵をAIで作ったとしても話題になりませんし。

その点では遠目で人の興味を惹く成果物を作れるほどになった技術自体は賞賛すべきものだと思います。

でもそれで作られたものって盗作だよね？　という声が聞こる気がしますが……。

どこから 盗作になるのか

権利は尊重されるべきものだと思います。

私も趣味で絵を書いたり文章を書いたりするので、同一のもの、あるいはひどく酷似したものが他者から後出しで出されたらぞっとします。

この手のものはトレパクというものに当てはまりますが、時系列の証拠を出せばおよそどちらが権利を侵害しているかが認められるものだと思っています。

ただ、生成AIでの成果物は本当に権利を侵害しているのか、という疑問はあります。

話が再び逸れますが、以前トレパク裁判の話を見かけました。

ttps://note.com/compass_0000/n/na536a5d16c7a

上記の記事はとある絵師さんのトレパク疑惑について書かれたものです。

記事の内容を見ても、この勝訴した絵師さんはトレパク冤罪をかけられたものだと思えたのですが、某SNSで検索をかけて驚きました。

敗訴した絵師さんをかばい、勝訴した絵師さんを非難するような方が多く見られたのです。

しかも裁判が起こるだいぶ前にこのトレパク問題はとても話題になり、「トレパク疑惑」というところがすっぽ抜けて「トレパク」とだけ把握する人が多数いたようです。

つまり、かの絵師さんには「トレパク疑惑の絵師」から「トレパクの絵師」というレッテルが貼られてしまったのです。

そんな先入観からか、はたまたもう片方の絵師さんを妄信しているのか、ふたりを殆ど知らない私ですら妥当と思った判決結果に疑問を抱く人が世の中にいます。

証拠がはっきりしているトレパク裁判ですら、すべての人が納得出来ていないのです。

（なんでだろうね）

トレパクではしばしば線の重なりが証拠として出されますが、生成AIでの盗作の証拠とは何なのでしょうか。

私の作品を学習してると思います、という見知らぬ絵師さんの引用投稿を以前見かけたことがあります。

こことこことここがその証拠です、と赤丸をつけていた記憶があります。

決して私も詳しいわけではありませんが、かの絵師さんは生成AIの生成過程をご存じないのでは、と思いました。

1枚の絵が与える影響がそんなに大きいとは思えません。

ノイズを出してから1px単位で要素を除外していく、という過程だけを知っていたらそんな言いがかりはつけないと思います。

今、このような方がどれだけいるか分かりませんが、身を守るのだとしたら敵を知るべきです。

思い込みや無知では戦えません。……と思い込みでこの文章を書いている私が言うのも説得力がありませんが。

絵柄を寄せて作り出した成果物であれば話は別です。

あえて特定の絵柄に寄せ続けた成果物を作ることで、模倣元の著作者が得るはずだった利益を奪い取ったと訴えることが可能と考えます。

が、この場合も似ている絵柄などごまんとある、という反証が出来てしまうのかなとも思います。

「学習したことの証拠」よりは「模倣したことの証拠」のほうが敷居が低そうではありますが、それでも茨の道ではあります。

逆に言えば証拠らしい証拠を出せないのが生成AIなのかもしれません。

裏はブラックボックスなので……。仮に問い合わせて計算データ云々を入手できたとしても数値の羅列でしょうし。

現状では、生成AIの成果物は盗作疑惑が永遠に付きまとう、という認識にしかなりえないと思います。

盗作でない証明も、盗作である照明もできない。

盗作じゃないって証明でないならいいじゃーんって開き直る人がいそうですが、グレーゾーンって喜んでいいのかなあ……。

別の世界線を覗きたい

話を最初に戻します。

「高精度なAIには大量の学習データが不可欠だから、権利問題をクリアしても未来はなさそう」です。

データがたくさんあればAIという技術の発展が見込めるけれど、それには権利の問題が立ちふさがる。

仮にそれが権利者の権利を守る段階に来たらAIの発展は終わる。

でも、現状の生成AIの成果物は権利侵害をしているともしていないとも言い切れないのでは？

そう思っています。

NFTがいい例ですが、著作権を持っていたとしても物理的には何の意味もありません。

権利持っている人以外スクショできる機能なんてスマホにはありませんし。

ていうか、権利云々て性善説のもとに成り立つものですよね。

もはやBIOに「AI 学習禁止」なんて書く時代は遅いです。

絵を描いたのならばAI 学習疎外ツールを使って自己防衛する時代になっています。

文章の場合は防ぎようがありませんが……いやあるのか？　

正直、盗作盗作いう人たちの決めつけ発言に辟易しますが、グレーゾーンであることは変わりませんし、この先白か黒かに変わることもないと思います。

そうです、私はAIという技術が気になっているだけあって、生成AI 技術＝盗作ツールというレッテルが貼られるのが嫌だなあと思ってるだけです。

今現在は否定できる証拠もないので、断言はできないでしょ！　としか言えないのですが。

AIがうまーく発展してる未来のフィクションはどうやって高精度で大容量なデータットの獲得と権利問題を解決したのでしょう。

フィクションに聞いてもわかりませんね。

今の環境は頭打ちなのでは

そうそう思い出した。

DXが進んだのはコロナの影響という話を以前聞いたんです。

企業がちまちまやっている業務効率化や働き方改革なんてちっとも効果がなくて、COVID19が一番の功績者だったと。

その部分はただの皮肉でしたが、事実でもあるので、人間って環境が変わるとそれに対応していくんだなあとつくづく感じました。

とはいえ、今回話題にしている生成AIはおよそ画像生成AIのことを指しているので、環境変化によって必要に迫られることはないと思います。

娯楽の域を出ない生成AIの未来もさして思い浮かびません。

何に使うんだろう。

気にはなってるけど傍観者なもんで……。

なんかこう、心理学に似てるような……一般人は何に使うんだろうってなる……専門家は分かってそう……。

おしまい

技術の発展って難しいですね。

ペンタブで描いたものよりアナログの絵が賞賛されたように、ハイテクはすごい、という先入観があるのかもしれません。

すごいからずるい、になるんでしょうね。

障害があって絵が描けない人が生成AIで絵を出せるようになったという話を見たとき、そういう人もいるのかと感心しました。

乱数要素も絡むため、著作物であると主張できるかはさておいて、想像したものを出力できるのは楽しいと思います。

……使ったことないですけど。

Permalink | 記事への反応(1) | 12:55

2021-06-17

■anond:20210617170421

考えてみれば「大韓民国」がテーハミングやのに「我が国」がウリナラって不思議やな。

「国」に「グク」と「ナラ」の二つの読み方があるんかな。

調べてみると「グク」は中国語由来の「漢字語」で

「ナラ」のほうは「固有語」という韓国土着の読み方らしいな。

Permalink | 記事への反応(0) | 17:13

2020-01-14

■anond:20171214135656

韓国だと光復後もしばらくは日帝残滓で漢字語がたくさんあったけど、朴正煕大統領のころから国語醇化といって漢字語を固有語にいいかえる運動がすすんだ（感謝합니다→고맙습니다、みたいな）ので、日本人がおもってるより同音異義語はすくないです。

おなじようなはなしだと、トルコ共和国建国後のトルコ語醇化運動（オスマン帝国がずっとイスラム世界の盟主だったのでオスマン語にはアラビア語由来のことばがたくさんあったのけど、これをトルコ民族のことばにおきかえた）がとられたね。

ことばは民族をその民族たらしめる大切なものだから、どこの国でも国民国家をつくるときには国語政策というのはとてもおおきな意味をもつよ。（↑と逆むきだと、最近ではスペインにおけるカタルーニャ語の公的立場とか）

日本ではなぜか言語政策という観点がないどころか、琉球諸語が絶滅しそうなのを放置してたり、なかなかしょっぱいね…

Permalink | 記事への反応(0) | 23:21

2017-09-17

■漢字2文字は中国固有の文化

朝鮮の景徳王

全国各地の地名を固有語から中国風の漢字2文字に変更。

日本の元明天皇

全国各地の地名を固有語から中国風の漢字2文字に変更。

記録に残る古代の純和風の名前は沙牟奢允（シャクシャイン）って、日本人って元々何民族だよ。インディアンか？

もうすぐ改元だけど、また中国古典からパクって日本固有の文化バンザーイ！とか笑う。

Permalink | 記事への反応(1) | 11:44