「形態素解析」を含む日記 RSS

はてなキーワード: 形態素解析とは

2024-04-19

なんかおもいついたことをこのサイトにかきこんで、トラバブックマークも結果ゼロっていう営みをくりかえすくらいなら動画化してツベにでもなげこんだほうがマシな気がする。ただ、動画ジェネレーターのV竜とかは、制作制限がかかってくるので、おもいついたこと・・って用途にはそぐわない。文章形態素解析して、キーワード抽出し、それにあわせていらすとやURLを出力するコマンドアプリ実装したい。実装例は、いくつかみつかった。特定フォルダ画像をダウンしておいてそれをFF・・・スライドショー化する→字幕自動形成ミュージック無料素材ってなかんじで、おそらく文章入力すると動画が出力されるみたいなのは実装可能のようにおもう。人工音声は今回あきらめる。https://www.youtube.com/@travelgeekphotography みたいなかんじで 台本を読み上げず、字幕提示だけ動画にしよぅ。

2024-04-01

anond:20240401164919

その後はhuggingfaceで出てるようなモデルベクトル化すると、概念マッチ実装できるようになった

例えば「なんかやわらかいもの」というクエリを「スライム」「餅」と解釈させることができる

あーなるほどねー

しかにそれは形態素解析とかNグラムじゃ対応できないね

でもそのベクトル化(Embedding)大変そうやなあ、職人の技になりそう

やっぱECサイト検索とかだと辞書メンテ頑張って形態素解析メイン+取りこぼしにNグラムレコメンドにEmbeddingで作ったデータ使った近似最近傍探索とかかなあ

2024-02-29

anond:20240229163851

そもそも古文漢文人生を豊かにする以外に使い道がないのが大きい

古文漢文できないと形態素解析出来ないとかなら庇いようはあった

 

同じく人生を豊かにする以外に使い道がない音楽

音楽関係学校行くわけじゃなきゃテストに出ないだろ?

 

古文漢文日本史とか芸術カテゴリーに入れたらもっと大事にされるんじゃない?

(少なくとも音楽程度になら)

anond:20240229145729 anond:20240229150153

日常会話不自由がでないようテンプレ叩き込む・形態素解析するための素養を養った方が

明らかに豊になるやで

 

入り口を示すだけで十分じゃないかなぁ(流石に入り口としての義務教育をなくせとは言わない)

きな子図書館とかで勝手勉強するでしょ

 

それからスマホは各種認証で無ければ困るものですよ。とっくに3G回線は終わってます

anond:20240229144747

仕事の役には立たないが重要ものこそ義務教育で教えるべきではありませんか。

それはそうだけど別に古文できなくても日常生活送れるし形態素解析も出来る気がするやで

 

古典に興味を持つきっかけになり得るから絶対あった方がいいとは思うがもっと時間は削っても良さそう

テスト古文を扱う学校以外は要らなそう

2024-02-19

anond:20240219161642

形態素解析品詞分解よりさらワンステップ進んで「高さ」という名詞さらに「高-」という語根と「-さ」という接辞に分解するやで

anond:20240219160830

形態素解析って品詞名詞動詞助詞... に分割するんだろうけど、

その中に「なちゅ」って言葉が有るのか不思議

anond:20240219160648

よく知らんがこういうのは形態素解析で区切って単語判定したところに自動インデックス貼っ付けてるだけじゃねーの

なちょは意味不明だが

2024-01-10

生成AIのこと

生成AIに関して詳しく書いてある文章があったので、興味深いと思って読みました。

ttps://note.com/freena_illust/n/ne1442b0563c3?sub_rt=share_b

返歌ではありませんし、技術根拠も出せませんが、思ったことをまとめたいなあと思いました。

断っておくと、上記記事に対して肯定的感情を抱かなかった人が書いてます

そして生成AIはChatGPTを無料しか使ったことがない人が書いてます

そうです、あいあむ無知……。

嫌な予感がする人は読まないほうがいい。


最初

冒頭で書いたように私は生成AIに詳しくはありません。

最近話題になってるなあと思ってるくらいの人間です。

なので多分脱線をたくさんします。

でも一応話の軸がぶれないように、最初に主張したいことを述べます

「高精度なAIには大量の学習データが不可欠だから権利問題クリアしても未来はなさそう」です。


盗作ツールとして名高いらしい

先日びっくり発言を見かけました。

曰く、生成AI技術を認めている人はすべからく盗作を認めている(意訳)、とのことでした。

現在の生成AIツールがそうなっているだけなので、学習元を変えれば権利侵害にはならないはずです。

まあ技術的に可能というだけで実際にそうする人はいないと思いますが。

権利問題解決されていないのに生成AIツールばかり絶賛するものから、生成AI賛成派は著作権を踏み倒していると解釈されるのは理にかなっているとも思います

先に述べたように、私は生成AIに限らず、AIという技術が発達すればいいなと思っています

しかしそれと盗作を認めることはイコールではありません。

しかし、問題があるとすればAIという技術には膨大な学習データ必要で、ネット上にある膨大なデータは全てが著作権フリーではないということです。

さて、件の記事では「無許可データ学習」という文がありました。

ふと思ったのですが、逆ならいいのでしょうか。

いいと思います許可されたデータなので。

ですが、「許可されたデータ」の数とはどれほどなのでしょうか。

当然ながら「無許可データ」よりも少ないと予測できます

それで生成できるコンテンツとは何なのでしょう。

ニューラルネットワーク階層が極端に少なく、陳腐もの成果物となるでしょう。

階層しか知らなくてごめんなさい)

法で「許可されたデータ」のみを学習対象とするように律することは出来たとしたら、AI未来はないと思います

理由は当初に述べたとおりです。


データが多いほど幸せになれるかも

実は超解像を試そうと奮闘した過去はあります

機械学習の本を読んだら寝たので諦めましたが。

それで、だいぶ路線が違うのですが、過去形態素解析をかじっていたころがありました。

その際に「データ量が少ないと何もできないな」ということを痛感しました。

形態素解析というのは文章スパスパ区切って順位付けなり分類なりをするというものです。

その文章スパスパ区切るために、単語の分類と区切り記載されているであろう「辞書」が必要になります

今日魔界ではどちゃくそ雪が降った」という例文があったとして、

単語量の少ない辞書では「今日/魔/界/では/ど/ちゃ/くそ/雪/が/降った」

単語量の多い辞書では「今日/魔界/では/どちゃくそ/雪/が/降った」

になる、というかんじ。

イメージ図なので本当に魔界が分割されるかはわかりませんが、固有語ほとんど未知の単語認識されて分解されると思います

無料に頼るからよくないのですが、ネット上の無料辞書単語量が少ないため、現代風の言い回しがだいたい判別できません。

ボボボーボ・ボーボボなんてこようものなら、もはや人名とすらも認識されません。

いやどっちかというとマンガ名か?

いかんじにメンテされてた辞書も、とある日を境に更新されなくなってしまいました。

そんな具合で、当時はデータ量が少ないと何もできないなあと、役に立たねえなあとひしひし感じました。

先ほどの無許可許可のことを書きながら、このデータ量のことを思い出しました。

文章生成AIであれば、学習する際、単語を分割したり重みづけをしたりする際に相応の辞書を使っているはずです。

日本語おかしくないですもん。

人がスクショした文章しかたことないけど。

だいぶ脱線しました。

要はデータ元もそれを補助するツールも、多くのデータがあればあるほど真価を発揮するはずなのです。

フェイ画像やらなにやらが話題になったのは、サムネイル段階で目を引く造形だったからですよね。

下手な絵をAIで作ったとしても話題になりませんし。

その点では遠目で人の興味を惹く成果物を作れるほどになった技術自体賞賛すべきものだと思います

でもそれで作られたものって盗作だよね? という声が聞こる気がしますが……。


どこから盗作になるのか

権利尊重されるべきものだと思います

私も趣味で絵を書いたり文章を書いたりするので、同一のもの、あるいはひどく酷似したもの他者から後出しで出されたらぞっとします。

この手のものはトレパクというものに当てはまりますが、時系列証拠を出せばおよそどちらが権利侵害しているかが認められるものだと思っています

ただ、生成AIでの成果物は本当に権利侵害しているのか、という疑問はあります

話が再び逸れますが、以前トレパク裁判の話を見かけました。

ttps://note.com/compass_0000/n/na536a5d16c7a

上記記事とある絵師さんのトレパク疑惑について書かれたものです。

記事の内容を見ても、この勝訴した絵師さんはトレパク冤罪をかけられたものだと思えたのですが、某SNS検索をかけて驚きました。

敗訴した絵師さんをかばい、勝訴した絵師さんを非難するような方が多く見られたのです。

しか裁判が起こるだいぶ前にこのトレパク問題はとても話題になり、「トレパク疑惑」というところがすっぽ抜けて「トレパク」とだけ把握する人が多数いたようです。

まり、かの絵師さんには「トレパク疑惑絵師から「トレパクの絵師」というレッテルが貼られてしまったのです。

そんな先入観からか、はたまたもう片方の絵師さんを妄信しているのか、ふたり殆ど知らない私ですら妥当と思った判決結果に疑問を抱く人が世の中にいます

証拠がはっきりしているトレパク裁判ですら、すべての人が納得出来ていないのです。

(なんでだろうね)

トレパクではしばしば線の重なりが証拠として出されますが、生成AIでの盗作証拠とは何なのでしょうか。

私の作品学習してると思います、という見知らぬ絵師さんの引用投稿を以前見かけたことがあります

こことこことここがその証拠です、と赤丸をつけていた記憶があります

決して私も詳しいわけではありませんが、かの絵師さんは生成AIの生成過程をご存じないのでは、と思いました。

1枚の絵が与える影響がそんなに大きいとは思えません。

ノイズを出してから1px単位で要素を除外していく、という過程だけを知っていたらそんな言いがかりはつけないと思います

今、このような方がどれだけいるか分かりませんが、身を守るのだとしたら敵を知るべきです。

思い込み無知では戦えません。……と思い込みでこの文章を書いている私が言うのも説得力がありませんが。

絵柄を寄せて作り出した成果物であれば話は別です。

あえて特定の絵柄に寄せ続けた成果物を作ることで、模倣元の著作者が得るはずだった利益を奪い取ったと訴えることが可能と考えます

が、この場合も似ている絵柄などごまんとある、という反証が出来てしまうのかなとも思います

学習したこと証拠」よりは「模倣したこと証拠」のほうが敷居が低そうではありますが、それでも茨の道ではあります

逆に言えば証拠らしい証拠を出せないのが生成AIなのかもしれません。

裏はブラックボックスなので……。仮に問い合わせて計算データ云々を入手できたとしても数値の羅列でしょうし。

現状では、生成AI成果物盗作疑惑永遠に付きまとう、という認識しかなりえないと思います

盗作でない証明も、盗作である照明もできない。

盗作じゃないって証明でないならいいじゃーんって開き直る人がいそうですが、グレーゾーンって喜んでいいのかなあ……。


別の世界線を覗きたい

話を最初に戻します。

「高精度なAIには大量の学習データが不可欠だから権利問題クリアしても未来はなさそう」です。

データがたくさんあればAIという技術の発展が見込めるけれど、それには権利問題が立ちふさがる。

仮にそれが権利者の権利を守る段階に来たらAIの発展は終わる。

でも、現状の生成AI成果物権利侵害をしているともしていないとも言い切れないのでは?

そう思っています

NFTがいい例ですが、著作権を持っていたとしても物理的には何の意味もありません。

権利持っている人以外スクショできる機能なんてスマホにはありませんし。

ていうか、権利云々て性善説のもとに成り立つものですよね。

もはやBIOに「AI学習禁止」なんて書く時代は遅いです。

絵を描いたのならばAI学習疎外ツールを使って自己防衛する時代になっています

文章場合は防ぎようがありませんが……いやあるのか? 

正直、盗作盗作いう人たちの決めつけ発言辟易しますが、グレーゾーンであることは変わりませんし、この先白か黒かに変わることもないと思います

そうです、私はAIという技術が気になっているだけあって、生成AI技術盗作ツールというレッテルが貼られるのが嫌だなあと思ってるだけです。

現在否定できる証拠もないので、断言はできないでしょ! としか言えないのですが。

AIがうまーく発展してる未来フィクションはどうやって高精度で大容量なデータットの獲得と権利問題解決したのでしょう。

フィクションに聞いてもわかりませんね。


今の環境頭打ちなのでは

うそう思い出した。

DXが進んだのはコロナの影響という話を以前聞いたんです。

企業がちまちまやっている業務効率化や働き方改革なんてちっとも効果がなくて、COVID19が一番の功績者だったと。

その部分はただの皮肉でしたが、事実でもあるので、人間って環境が変わるとそれに対応していくんだなあとつくづく感じました。

とはいえ、今回話題にしている生成AIはおよそ画像生成AIのことを指しているので、環境変化によって必要に迫られることはないと思います

娯楽の域を出ない生成AI未来もさして思い浮かびません。

何に使うんだろう。

気にはなってるけど傍観者なもんで……。

なんかこう、心理学に似てるような……一般人は何に使うんだろうってなる……専門家は分かってそう……。


おしまい

技術の発展って難しいですね。

ペンタブで描いたものよりアナログの絵が賞賛されたように、ハイテクはすごい、という先入観があるのかもしれません。

すごいからずるい、になるんでしょうね。

障害があって絵が描けない人が生成AIで絵を出せるようになったという話を見たとき、そういう人もいるのかと感心しました。

乱数要素も絡むため、著作物であると主張できるかはさておいて、想像したものを出力できるのは楽しいと思います

……使ったことないですけど。


それはそうとして、無断転載サイトはどうして消えないのだろう、と思い出したり。

2023-10-25

anond:20231025171009

凝ったもの作るならともかく、自分が遊べればいいだけなら他になんかいるか?

WeatherTypingが念頭にあったか形態素解析いうたけど、mecab通して品詞毎に分類したらワードサラダランダム文は簡単に生成出来るし、

それこそタイプウェル憲法に倣って日本国憲法全文拾ってくるなり青空文庫適当小説一個拾ってきてちょろっと整形するぐらいでも充分ちゃう

2023-10-01

anond:20231001163734

いつもご苦労様です。形態素解析でこの単語の出現回数が多いとか、文章の癖から恐らく同一人物が書いている書きこみが何パーセントあるとか分析できないのかニャ?

2023-09-06

anond:20230905212435

少なくとも指摘されてイライラされるのって誤字脱字でしょ。

そんなのもうAIでも形態素解析でもまかせればいいじゃん。もう十分精度は出てるじゃん。

事実論理的な間違いとかは時間があればやればいいんじゃね?読者もそこまで気にしてないから。

2023-08-17

anond:20230817060714

タイトルペンネームワードBANされてる

日本語形態素解析カスでヒットしない

主要読者層が今いるプラットフォームにいない

この三つを排除してからの話じゃね

2023-04-03

自然言語処理構成主義的な側面というか、形態素解析かに興味を持つ層はアルゴリズムに強いのでIQが高い

エンドツーエンドと言っている人たちは「ディープでポン!パワー!」

2023-03-12

AIはてなブックマーカーを作った

追記

今後の開発記録はブログで公開していくからよかったら読者登録よろしくね。

https://firststar-hateno.hatenablog.com/

------------------------------------------------------------------------------------------------------

昨今話題AIブクマカ作ってみたよ。

https://b.hatena.ne.jp/firststar_hateno/bookmark

今のところ手動なんだけど、そのうち6時間に1回ホットエントリーの記事5記事程度に対して自動ブックマークするようにするつもり。

ちょっと前のよっぴー騒動はてな版のとぅぎゃっちゃんかいたらいいんじゃないのって言ってたのを思い出して、なんとなくそれを意識して作ってる。

最初記事の内容を読み込んでちゃんとしたコメントをさせようとしてたんだけど、記事の内容がHTMLのどの部分なのか特定させるとか漫画記事はどうすんだとか結構難しい問題があるし、よく考えたらブクマカも大体記事タイトルブコメ一覧しか読まずにコメントしてるからAIブックマーカーもそれでいいかとなって今のところタイトルコメントだけ読ませてコメントさせてる。

設定はgithubを見てください。

https://github.com/ktny/AI_hatena_bookmarker

みんな可愛がってくれよな。

追記1)

はてなブックマーク利用規約についていくつかコメントがあったので追記するよ。

https://b.hatena.ne.jp/help/entry/spam

特定サイトに対し、メインアカウントサブアカウント複数ブックマークをする行為

複数アカウント共謀して同一のURLブックマークする行為

・同一サイトのページを大量にブックマークする行為

複数メインアカウントを所持する行為

広告宣伝および検索サイト最適化目的としてブックマークする行為

ワンクリック詐欺不法行為が行われているサイト宣伝広告目的ブックマークする行為

ブックマークを明示的に依頼したり、ブックマークの追加に金銭や物品などの報酬や特典を与える行為(当社が主催するキャンペーン企画などを除きます)

ブックマーク対象のページの内容と無関係タグコメント投稿し、誘導をはかる行為

特定の条件で自動ブックマークをする行為のうち、特に公正性に影響が出るもの

 ・エントリーブックマーク数に応じて、自動的にブックマーク投稿する等

存在しないページを繰り返しブックマークする行為

この中で該当するかもしれないのは「特定の条件で自動ブックマークをする行為のうち、特に公正性に影響が出るもの」かな。

ただ、エントリーブックマーク数に応じて投稿しているわけではないし、もしそれが引っかかるということであればなんらか対策はできそうかな。

はてなとしては自動ブックマークする行為自体禁止しているわけではないと俺は読み取ったよ。

メインアカウントについては複数アカウント所持を避けるため削除するよ。

追記2)

ちょっとばかしコメント方針を変更しました。

・長文だけでなく短文もなるべく投稿するようにする

タイトル形態素解析してタイトルワードをなるべく使わないように調整(単なる要約になりすぎないように対策

タイトルブコメ以外に記事説明文も活用できる場合活用する

より自然になった気はするけどユーモラスなコメントとかはなかなか難しい。

テストしてるとたまにすごく面白いなーと思うものも出るんだけど毎回そういうのが出るわけではないんだよね(そういう面白かったコメントを抜き出して投稿とかはせず純粋にそのとき自動で出たコメントブクマさせてる)。

2023-03-01

VSCODEうんこ

と書くとそのあとVSCODEと書いた時点で形態素解析もなにもなく「VSCODEうんこ」が一本で出てくるのでうんこデフォルトでEnter確定※なのもうんこ

Accept Suggestion On Enter を off にすると Tab でのみ確定になります

2022-10-18

anond:20221018153641

それが内心だけども、内心の現れであるテキストデータ定量的形態素解析をした結果、かなりネガティブ因子が多いって話じゃん。

ポジティブネガティブかの二者択一では表せないというのはあらゆる概念に対して言えることであって、今はずっとそのグラデーションの話をしてたよな。

2021-06-24

anond:20210624164525

現実の話じゃろ

形態素解析など自然言語処理の処理とか硬めの物書きするんじゃなければ

割とどうでも良い話ですね・・・

ログイン ユーザー登録
ようこそ ゲスト さん