「アノテーション」を含む日記

はてなキーワード: アノテーションとは

2024-02-22

■アノテーション ツール 進化と、命令補完に、AIの進化引きずられるのでは

地味で面倒で時間がかかるアノテーション作業。

結局、ここの性能がどれだけ良いか、自動化出来るかでは。

一度AIが認識し始めれば自動化進むが、最初は必要になる。

自動化したとして、ツールの癖が出ると、それがずっと引きずられる。

アニメだと、エフェクトの名前をアノテーションつける人がわかるかとか。

名前つけられないと分離出来ない。

あとは人間がわかりにくい自然言語以外のアノテーションどうするか。

使う側だと、人間が書く短い命令をどこまで裏で補完出来るか。

補完後の命令も表示して、意図してないなら直してもらうとして、人間がわかりにくい自然言語以外のはどうするか

Permalink | 記事への反応(0) | 16:42

2024-02-17

■オープンなAIと、OpenAIはどこで差がついたままになっているのか

OpenAIがsoraでテキストから動画生成し話題になった。

モデルがオープンになっているモデルの方が、クローズドなモデルよりも進化する、という意見があったが、差がついたままだ。

何が原因か。

テクニカルペーパー(https://openai.com/research/video-generation-models-as-world-simulators)を見る限り、

予想の範囲内のことしか書かれてない。拡散モデルで画像が出来た時点から、多くの人が想像出来る範囲だろう。

もちろん全部が書かれているわけではないだろうが。

どこで差がついたままなのか。

1つ目は学習時のアノテーションの量だろう。

手がかけない問題に対して、親指、人差し指などを細かく指定すれば解決はするのだろう。

そしてきちんと画素の位置を指定して学習させているはずだ。

StableDiffusionの学習だとKohya_ssが有名だが、good_hand, bad_handみたいな一言でまとめられているのではないだろうか。

画像をどれだけ言語化できるかで、人だとそれほど詳細な言語化が出来ないことと、

StableDiffusioinだと、WD1.4taggerかBLIPの性能に引きずられているのではないか。

BLIPの代わりにGPTを使ってアノテーションをしている人も居るのだろうが、性能差があることから、

もしかするとOpenAIは角度など数値を機械的に測定したものも学習させているのかもしれない。

GPTは人に理解しにくい所は出力しないので、そこが差になっているのではないだろうか。

要はアノテーションツールがオープンなAIに足りてないということだ。

オープンなAIでは、学習時のデータがどれだけ良いか、データ量、ラーニングパラメータなどは議論されたが、アノテーションツールは議論されず、そこが差になったのではないか。

2つ目は、命令時の曖昧さを、モデル側でどれだけ拡張できるかではないだろうか。

学習時に詳細なアノテーションをしても、プロンプトを書く時は短縮していたり、意識せず省いていたりする。

例えば、「日本人の女性」とプロンプトを書いたら、現代の日本人女性を想像するはずで、

海外公的機関に保存された戦後の湿板写真時代で化粧をしていない日本人女性を意図してないはずだ。

そういった曖昧なプロンプトを意図を汲み取ってプロンプトを拡張して、推論モデルに食わせることが出来るか、

そこが差になったのではないだろうか。

Permalink | 記事への反応(0) | 03:08

2024-02-06

■NovelAI、Midjourneyはどうやってアノテーション・学習させているのか

SDXLが増えてきたが、Stable Diffusion独特の、face、eyeなどを入れていくと、

full bodyなどを指定しても顔のドアップしか出ないといった、昔から引きずっている問題が再発する。

Permalink | 記事への反応(1) | 09:23

2024-02-01

■Stable Diffusionは着せ替え人形 から変わるのか

Stable DiffusionはLoRAやControlNetが出てきて出来ることは増えた。

ただ、ControlNetは指定は出来るがすぐに破綻する。元のモデルに無いものは表現できそうで出来ない。

そして使い続けて、1000枚、2000枚と出力していくと、飽きてくる。

wildcardで色んなプロンプトを入力、ChatGPTでプロンプト作成して読み込ませたとしても、思ったより表現が出来ない、プロンプトが効かない。

特に構図やポージングは致命的なのだと思う。

絵柄も含めて着せ替えは出来るが、それだけなのだ。

LoRAで追加すればというが、アノテーションしているわけではないので、元のモデルが認識出来ないものは、全部丸めてsksなどの単語に置き換えられるので、

LoRAを探すたびになる。

Permalink | 記事への反応(0) | 09:46

2024-01-28

■anond:20240128042137

何も理解してなくて、このコメントにすら絵が云々言っててびっくりするよ。

海外勢が日本から逃げるからなんなんだ？

今後AIが人間に類する汎用性と知能を獲得できるとするなら、いま生成AIに対する投資で遅れをとると、それはもう致命的なんだよ。

今生成AIで使われてるtransformerだって生成AI用に開発されたんじゃなく、アノテーション用に作られた。今のAIに関する技術がどう他の分野に活かされていくかなんて分からない。

しかも、transformerはGoogleが気前よくオープンソースにしてくれたが、OpenAI しかり、今後は隠しておく風潮が出る可能性が高い。

絵を描いてる人は、早期にAIに食われてしまって可哀想だなと思うよ。でもここで日本が生成AIをはじめとするAIに関する開発投資で遅れをとるわけにはいかないんだ。多少の犠牲を払ってでも最前線を目指す必要がある。

Permalink | 記事への反応(2) | 05:18

2024-01-22

■[廃人日記] 2024-01-22

今日は病院へ行きました。お注射です。お注射をしてしばらくは精神があまり安定しないようです。被害妄想を持ったりしてしまいます。

精神というのは、変動を検出すると不快感を持つような気がします。鬱の時も一定の心持ちであればそれなりに安定しますが、いきなり躁になったりすると錯乱するのかもしれません。

そういえば、私はインターネット上に残した自分の黒歴史の削除を試みました。

統合失調症＋自分の名前で検索すると、誰かが勝手に私のYoutube 動画（躁状態のときのもの）の音声をテキスト化したものが置いてありましたが、どうやらそのサイトは自然言語のアノテーションのサイトらしく、編集は誰でも行えるようでした。そしてその情報に「著作権侵害です」とラベルをつけて削除してきました。

そうそう、あと黒歴史ブログも残っていました。精神を錯乱して浮世離れしていた時のブログですが、「フロントカメラが不細工でバックカメラがイケメンなのは、介入する観察者が異なるからだ！」みたいな意味不明なことを書き、セルフィーまで載せていたのです。

このブログはまだ削除できていません。というのも、Google アカウントのパスワードを紛失したからです。

Twitterにもいくつか精神錯乱時のアカウントが残っているのですが、それらも2段階認証を設定しており、ログインできなくなっているのです。

まあ、黒歴史というのはこのようにして、精神をおかしくしている時に生成してしまうものだとわかります。

ところで、インターネットを徘徊していたら、こんな文章を見ました。

つまり「人生の意味を問うても無駄。その代わり人生があなたに問うている」というものです。

もしそれが本当ならば、精神を錯乱して残した黒歴史を正常になってから振り返り、「この黒歴史、君自身はどう感じるのか？」と問うていることになります。

まったく、人生って本当に性格が悪いですね。私が嫌な思いをしていることがわからないのでしょうか。それともその嫌な経験こそが、哲学的深淵なのでしょうか。

私はその性格上、刺激を欲しがっているのです。SNSをやるのは、誰かから刺激をもらえないかというちょっとした期待に基づいています。

でも「いいねの応酬」はしっぺ返し戦略的、機械的なものになります。私が誰かにいいねすれば、その分のいいねが返ってくるというわけです。

そんなくだらない刺激のために黒歴史を残すなんていうのは、一体どういうことなんでしょうか。

SNSの繋がりなんて、所詮は浅い繋がりです。オンラインだと、相手がリアルに存在するものだと忘れてしまう人もいるようなのです。

やはり一期一会というのは、実際にオフラインで対面で会話したことのある相手の存在に対する「出会い」に感謝するような言葉であり、私をおもちゃにしようとしているネットトロールとの出会いというのは、そこまで感謝できるようなことではないと思うのです。

インターネットで発言すれば、好感を持たれたり、恨まれたり、見下されたりします。しかもその発言が、本来の私の精神状態ではないことだってあります。

「私」というものを、他人に誤解されることの恐怖が、SNSにはあります。もはや他人の目を気にして怯える場所です。

だから私は、発言する時は匿名性を重視するのです。箴言にも、愚か者が言葉数を増やしてしまうことに対する戒めがあるので、実名で語るシーンでは黙っておいた方が賢く見えるのです。

「話すは離す」という言葉もあります。結局、ネットであれカウンセリングであれ、悩みをぶちまけられる場所があれば、精神のデトックスになります。

そうやってぶちまけた内容というのは、恥ずかしい内容なので、やはり実名と紐づいてしまうと「目」の恐怖を感じます。

まあ、浅い繋がりの人たちに「見下すな」と言うのが、そもそも無理なのかもしれません。字下げ増田を「高学歴の愚者」などといって嘲笑う人たちがいますが、彼らは人の心を尊重することを軽視し、おもちゃにしています。

確かに、愚者は他人から見下されるような行動をしてしまいます。しかし、それが人間の弱さであり、弱さをお互いに認め合えるようになれば、「お前は愚かだ」などとインテリぶらずに優しい関係になれるのではないでしょうか。

無意味な戦いが世の中には溢れているのかもしれません。私は、愚かな人を守れる存在になりたいです。

Permalink | 記事への反応(0) | 20:59

2024-01-08

■AIで漫画がかけるようになるようなデータベース、出てくるのだろうか

誰かが最初にAIに学習させるためのアノテーション方法とアノテーションしたデータベースが必要になる。

Stable Diffusionなどを使って漫画が描きにくいのは1枚画像から学習させているので、合いにくい。

単にカラーだからというわけだけでもないだろう。

背景だったり、演出効果が1枚絵向けなのだ。

ネット上の複数人で漫画を読むついでにアノテーションしたものを収集するというのもあるが、

アノテーションで性能が変わったりするので難しそう。

Permalink | 記事への反応(1) | 11:10

2023-12-31

■画像生成AI、あと何が足りないのか

倫理問題はここでは置いておいて、あと何が足りていないのか。

画像に関して

ファッション、メイク、ヘアセットなど言語化、カテゴリー分けが出来てないものはコントロール出来ない
目の形などが出来ない。(元絵集めてLoRAでという方法になる）
Controlnetでポーズが動かせるというが、実際やると違和感が残る。言葉で説明しにくい（ので改善点をあげにくい）
漫画はコマのアノテーションデータ自体が足りてない。
2人キャラは描画出来るようになったが、まだ不安定。(Latentとか)
元データがある物のモデル、LoRaは増えるが、本当に真似るだけになっている。（クオリティは上がったが過学習している？）
モデルは沢山あるが、どれも似たりよったり。
モデルを全部入れ替える方法しかない。
SD, SDXLなど元バージョンが変わると引き継ぎが出来ない。
いい感じのバリエーションを複数出してくれない。プロンプトを毎回探すことになる。
飽きる
AI絵投稿サイトを見ても飽きる。Pintarestのような多様性がない。

ニュースだけ追いかけている人には、性能が上がって凄い！という感想だと思うが、

実際に定期的に触った身からすると、確かに凄いけどなんだかな、という感想だ。

プロンプト共有サイトが沢山出たが、ほぼ同じプロンプトで回っているため一通り見ると参考にならない。

多数使い回されているプロンプトより、数は少ないが自分にあったプロンプトを探す旅に出ることになり不毛だ。

動画に関して

実写動画からの変換は進んだが、元の動画がないと駄目。
実写からアニメに変換した物だと違和感が残る。（実写とアニメの表現の違い？）
まだコマごとに差分があり、バタバタする（オクルージョン埋め込みが必要？）

Permalink | 記事への反応(0) | 22:13

2023-10-14

■anond:20231014171222

今はアノテーション基準に合わせて形式的に(ロボット的に)収集してるだけやで

Permalink | 記事への反応(1) | 17:14

2023-10-12

■[自称インテリ語録] アノテーション 基準

自称インテリ語録は自分用コーパスの作成のために行っています。

意図は、箴言における「嘲る者(自分を賢いとみなし、他者を見下す傲慢な人)」を機械学習で見分けるモデルの作成です。

以下はアノテーションの基準です。

知性を誇示する投稿
他者を知的観点から見下す投稿
自分は他人よりも優れているという趣旨の投稿
特定のグループの人間等が劣っているという投稿
知性や能力について差別的に述べている投稿

厳密なアノテーション基準はありませんが、アノテータがある程度の裁量で判断します。

「著作権侵害では？」と思われるかもしれませんが、差別は社会的に相応しくないため、コーパス作成は公益性があると判断し、また創作性のないものに絞っており、自己責任でやっております。

元々は自分の「自称インテリ」の概念の精密化のために行っておりましたが、Bing AIによって様々な分析をさせることが可能であることがわかったため、自然言語資源を作るという目標に変わりました。

Permalink | 記事への反応(0) | 17:10

■anond:20231012164145

アノテーション基準などはそのうち公開するかもしれませんが、とりあえず当面は暇なときにアノテーションして、自分専用にコーパスとして使えるぐらいの量まで持っていきたいですね

Permalink | 記事への反応(0) | 16:44

2023-08-09

■anond:20230809114335

Springのがマシかあ。アノテーションとメソッドで書くフレームワークだよね。ドットネットコアはわかんね。

Permalink | 記事への反応(2) | 11:45

2023-05-11

■anond:20230511202348

AI絵には人間による選別と調整が入ってるから厳密には蒸留ではないかな。高等なアノテーションツールとも言える。

Permalink | 記事への反応(0) | 20:56

2023-03-28

■anond:20230327194840

Perl5の実用的な面での特徴は、異常なまでの後方互換性にある。

25年前のPerl4向けのスクリプトですら、ほとんど修正なしに最新のperl 5.36.0で動いてしまう。他のプログラミング言語ではあまり見られない特徴である。この特徴はある程度は今後も維持されるし、いまPerl5を書いている人の多くが望んでいることだろう。

しかし、後方互換性を守るあまり現代の言語に備わっているような機能が欠けている現状がある。ただ、それも改善されつつあり、後方互換性を守る形で慎重に取り入れられている。

一方で自由度が高すぎる文法は、後から修正を重ねていくようなものには不向きかもしれない。linterであったり、型アノテーションを書くようなモジュールも存在する。このようなものを用いて自分を律して書く分にはメンテ可能であるものの、現代のように多くの人が一つのスクリプトをいじることが求められる環境では不向きと言える。

実用的な面で向いているのは「一回書いたら修正を行わないスクリプト」かつ「10年単位で動かす必要のあるもの」である。そんなものはあるのかと思う人もいるかもしれないが、規模が小さければぴったりハマる場面もある。

言語としてはコンテキストだったり、ブロック単位で言語の挙動を変えられる点などが面白ポイントであるものの、これらはホビーとして楽しむのが良いというのが私の見解である。

Permalink | 記事への反応(0) | 01:52

2023-03-06

■Stable Diffusionって、画像 から物の形状どうやって認識してるのだろう

DreamBoothでファインチューニングする時は、既に学習しているモデルが認識しているので、

学習させたい画像とキャプションを食われば良いってのはわかる。

新しいキャラクターを学習させる場合でも、もう殆どのパーツは既にモデルが認識していて、

形状なり色が違うだけだから、それに差し替えるって感じだと理解している。

わからないのは、まっさらなモデルの場合、512x512pixのうち、単語がどの場所を指しているかわからないと思うんだよな。

一回、誰かピクセル単位でアノテーションしたのだろうか。

Permalink | 記事への反応(1) | 12:39

2023-01-12

■アノテーションのクソさ具合

某発表で、あるモデルの精度がアノテータのアノテーションが駄目になって追加の基準が必要になったとか、そういう話をしてたんや

山田太郎もそれと同種のモデルを偶然公開してるが、自信のない場合は確率のエントロピーが高くなるように修正した

で、ふと「え？なんでアノテーションがいきなりダメになるの？」と疑問に思ったからアノテータに聞いたんだが、アノテーションが数による成果報酬だからって理由で山田太郎のモデルを使ってたらしかった

山田太郎のモデル以下の不要人材のくせに山田太郎のモデルで山田太郎以上のお給料得てたどうしょうもない連中だったので、それを山田太郎に伝えたらどうなるやろか

Permalink | 記事への反応(0) | 09:18

2022-12-03

■AIがっていう割に、日本でデータセット作りが話題になってないと思うんだが

一部でやってるのは知ってるが、弱いまま。

AI使って何出来るのは話題になるけどさ。

あとは、データセットにアノテーションツールも弱いよね。

Permalink | 記事への反応(1) | 09:53

2022-11-26

■”あの手この手でアノテーション”

約 3 件（0.20 秒）

Permalink | 記事への反応(0) | 12:58

■AI、ニューラルネットワークの前にアノテーションするためのソフトの機能足りてない気がするんだよな

手動でアノテーション

→自動でアノテーション、間違いだけ手で修正

って流れが必要だと思うんだけど、アノテーションするためのソフトって足りてない気がしてならん。

Permalink | 記事への反応(0) | 12:55

2022-11-25

■「縦読み マンガ」が先にAI出力対応すると、日本の漫画 形式は駆逐されてしまうのだろうか

AIが絵を描けるようになり、日本人なら漫画が描けるようになるのももうすぐと考えてしまうが、

AIに学習させる為のデータセットはManga109くらいしかない。

そしてアノテーションしようにも複雑だったりする。

「縦読みマンガ」は日本の漫画形式より簡略化されている（ように見える）ので、

先にAI 対応して描けるようになったら、日本形式は駆逐されるのだろうか。

NovelAIで絵を描いたのを組み込んだのは、もう出てきた。

https://globalcomix.com/c/paintings-photographs/chapters/en/1/29

Permalink | 記事への反応(0) | 05:19

2022-11-15

■AI 時代なのに、日本向けのデータセット作りとか、アノテーションとか話題にならないの、なぜ

2次元イラストのデータセットが海外で作られていたり、

その他のデータセットもそうなんだけど、

日本向けのデータセット作ろうって動きが全然ないやん。

漫画のデータセットあるのかなと思ってみたけど、あるにはあるけどって感じのだし。

大量のデータに対してアノテーションつけるツールが足りてない気もするが、

日本のネット民集めてアノテーションするってのも出来ないんだろうな。面倒だし。

Permalink | 記事への反応(1) | 15:47

2022-09-27

■趣味でアノテーション 作業

ツイッターで議論されていることを論理的に抽象化したら(自然言語処理的な意味で)アイデア生成機的に使えるのでは？と思ったのでブログでアノテーション作業を始めた。

https://tweetdiscussion.blogspot.com/2022/09/2022-072022-08ai.html

あんまし他の人から面白い行為に見えないかもしれないけど、自分としては面白いし暇つぶしにもなる。

アノテーションと言う割にルールの厳密性がなくて曖昧だが、将来的に巨大言語モデルに食わせる分にはそれでもいいとは思ってる。「自分の抽象化能力を再現できるか」という話。

例えば対象=お絵描き AI、対象A=AI、対象B=人間とすると以下のように議論を抽象化できる。(抽象化してるので、対象、対象A、対象Bに別のものを代入して色々と試せる)

対象Aと対象Bの比較
対象の特徴などについて
対象から生成されたものの共有
対象が技術的に何をやっているかについての憶測
対象Aを対象Bと比較して何をやっているかについて憶測
対象が将来こうなってほしい/ほしくないという意見
対象が将来こうなっていくだろう、という憶測
対象から生成されたものに対する感想
対象に出力させる行為に対する感想
対象にこれを出力させたい
対象のメリット、デメリットについて
対象を利用するサービスの料金や利用ルールなどに関する話
対象Aが対象Bのように社会で評価されるようになるかどうかについての意見
様々な種類の対象を比較
対象の倫理についての意見
対象から派生した空想
対象に関する法的な意見
対象を誰が賛成し、誰が反対するか、について
対象をどのようにビジネスや実用につなげるかについて
対象を利用したサービスに対して圧力をかける人などについて
対象にどんな課題があるのかについて
対象を利用する人に対する批判
対象の精度について
対象Bのもつなんらかの利点を対象Aが奪ってしまうかどうかについての意見
対象の具体的手法やサービスについての話
対象に関するサービスや対象を使う方法について教えてください、という質問
対象を何に応用するかについてのアイデア
対象の存在によって社会がどうなるかについての意見
対象がAすることとBすることはどう違うか
対象を利用する際のテクニックについて
対象に関する白熱化と、過去の他のイノベーションとの比較
対象に行為A以外にこういうことをしてもらいたい、という意見

Permalink | 記事への反応(1) | 03:03

2022-08-24

■anond:20220824221035

生成モデルの学習にアノテーションなんかいらんだろ

Permalink | 記事への反応(0) | 22:19

2022-04-14

■エルビス 演算子 ?:

？の部分がリーゼント。

TypeScriptのオブジェクトのプロパティを省略可能にする ? と、その直後の型アノテーションの : が合わさってエルビス演算子に見えてすごく困った。

日本人には読めないアルファベットを前にしたかのような感じで困った。

Permalink | 記事への反応(0) | 12:22

2021-09-16

■”あのテンションでアノテーション”

約 1 件（0.21 秒）

Permalink | 記事への反応(0) | 22:06

ようこそゲストさん