はてなキーワード: ベンチマークとは
AIで俺好みのダークファンタジー小説(短編)書かそうとしてるんだけど、どれがいいのか分からんよ…
1つ目は生成速度の問題。12Bなら快適、20B付近はやや遅め、32Bは遅め、70Bは使えたもんじゃない。
2つ目はパラメータ数と性能が比例しないこと。賢過ぎて創造性が失われてる説が濃厚。そのため、(流石に0.5Bや2Bは低過ぎると思うが)7B〜9Bの方が面白い小説書く可能性がある。ただし、性能落とすと記憶力が悪くなり、こちらが指定した設定をすっぽかしてしまうことも多々ある。
3つ目は日本語モデルの少なさ。日本語用に調整された(japanese)instructなるタイプのモデルが、やはり、流暢な日本語を出力する(と感じる)。でも、これが少ない。
そして、AIで小説書こうなんて試みをする人は少なく、イラスト界隈でいう元素法典みたいな、革新的なプロンプト集もないし、いいベンチマークもリーダーボードも見当たんねえ…
伊科田海『道産子ギャルはなまらめんこい』の無事最終巻が発売されたのを記念して、ネタバレを含む評論をさせていただく。
と言うわけで、ネタバレを含むので、嫌う方は戻ってください。
地方娘とのラブラブ恋愛マンガでなんで最後にワイ向けに致死性の毒を仕込んだの?ねえなんで? あっ、ノットフォーミ-でしたかすいませんごめんなさい。
ワイ、無事死亡したのでこれ書いてる
まぁワイの余談と色々な現実を知ってるからそう思うだけなので「こいつ(ワイのこと)マジ頭おかしいわ」って感じで読んでくださいマジで。
原作が悪いとかじゃなくて、ワイの頭とこの世のパラメータ設定をミスった運営が悪い。
最近の若い子も地元愛はかなりある。毎年継続している調査では、最近は大学を卒業した後地元に戻りたいとする回答が63%以上となっていて、これは地味に伸びている。色々な理由が考えられるが、家族とともに暮らしたいと言ったことが理由に挙げられている。
その他、現実問題として生活費が高く、初任給の伸び以上に生活費が上がっているため、大都市圏での生活が厳しいと言う事情もみられるようだ。
また、行政側の目線で見ると、ここ10年ほどか、色々な地方が地元の事をちゃんと教える教育をやっていると言う事もあるのだと思う。
が、現実問題として、実際に地元で就職するのは4割を切るのが現実である。で、ワイの地元に限ると2割もない。これは
もう現実すぎて死にそう。
こんな現実をなんで見せられなきゃならないのか。
そんなの仕事だけで十分です。。
(なお、実際には30歳超えたぐらいでUターン転職してくる人もかなりいるので、4割しか地元にいないと言う話でも無いです)
最も現実的でクソな話は
「主人公は地方での幸せな思い出を持って東京に帰りました。大卒で大企業に就職しましたが東京では家庭を持つことはできませんでした。
ヒロインは札幌の専門学校を出ましたが、業界体質としてブラックな理容美容関係は薄給すぎて一人では暮らしていくことができなくなり、結局親元に戻りましたが、その時には結婚適齢期を過ぎていて結婚することができませんでしたとさ」
だけど、その次の次ぐらいに来るのがこれ。主人公は小学校教諭という、熱心であればあるほど激務であるほど家庭が犠牲になりがちで、さらに長年その業界にいると世間からドンドンズレてて浮いてしまう状態になり転職も難しくなる職業に就いている。
さらにヒロインはメイクアップアーティストということだが、はっきり言ってこの業界、安定した職業の旦那(敢えてこの書き方してます)がいることが大前提のやりがい搾取業界であり、金になんかならない。最も安定的に稼げるのがブライダル業界と死に化粧という状態であり、これらは休日などを犠牲にして働く必要がある。それ以外は名ばかりメイクアップアーティストといいつつ、化粧品販売のセールスみたいな仕事になる。
もちろん、売れたらかなりの金になるが、その場合もライフワークバランスをワークに全振りしているような廃人に対して戦う必要がある。
と言う状況で、結婚した勢いで最初に子どもをひとり授かるが、その後2人目以降は作らないという選択肢は、必然であろう。
これ、音大卒がアーティストにも、そして学校教育法第1条に定める学校の教諭にもなれなかった場合になる職業のひとつと言う性質があり、音大卒が大量に余っている中、音大卒でないと就職できない。と言う事は娘は音大を卒業していることは間違い無いと思われるが、私立では900万円ほどかかる。もちろん、札幌教育大学を出ていると言う可能性もあるが。
ちなみに娘の旦那は歯科医だそうです。コンビニより数が多い事でお馴染みの歯科医……。
なんつーかさ。リアリティありすぎ。あえて一人っ子にして、所得水準的に相当な無理をしないと進学できない所に進学させるとか、ワイをころしにきてる
北見市から札幌市。高速道路は繋がっているが、ノンストップで4時間かかる。東京大阪間の新幹線の半分で、時間的距離で見ると東京広島と同じぐらいなのであった。
何か緊急事態が発生したとき、呼んだところで多くの場合手遅れになるし、ちょっと子どもを見ててほしい、と言う程度で呼ぶことはほぼ難しい距離である
実は、地方での現実もこれがある。県内の中核都市から離れた土地の出身者が、地域の中核市に出て家庭を築く、と言うケース、実は公共交通機関がショボいのと、高速道路もそれほど整備されてないために時間的距離がかなり長い事が多いのだ。そうすると、都市部で子育てするときの悪い部分と、地方で子育てする悪い部分の両方を兼ね備えたような状況になってしまうことがある。
こうなると実家が持っているリソースを活用する事ができないために、選択肢が限られてくる。
日本は公共交通が優れていると言われているが、地方都市と地方都市の間を移動しようとするとものすごく手間がかかることが多い。公共交通だと一度東京か大阪どちらかに出てからの方が早いと言うケースが非常に多く、それ以外では車移動になってしまう。
これが地方と地方の間の連携的な動きを結構阻害している所があって、結構苦労している。
なんでこんな苦労を思い出させるような展開にするのか。
作者の先生は北見市出身札幌市在住なので、たぶん自分の周りの人々のリアルな様子をベンチマークして、そこから見える世界で最も幸せなラストを選んだのだと思うので、それは全然問題ない。
ないんだけど、それについて妙な知恵を付けたようなワイのような人からみると、もうなんかね。
現実がクソで、現実を忘れて楽しんでたラブコメの最後で毒ガスが出てきた
そんな気分なのでした。ハハッ。まぁノットフォーミーだったのを今更ながら気付いたんですね。はははのは。
ヒロインは、メイクの先進地、1回プチ留学していた韓国に今度は本格的に留学することにしました。
主人公は色々な事を悩みましたが、東京の大学に進学しました。しかし、韓国への留学プログラムで2年目には留学して二人は韓国で同棲を始めました。
ヒロインは独立を前提に韓国のメイクアップアーティストの会社に就職し、主人公もそれに合わせて韓国の大学に正式に移籍、4年後の修了に合わせてふるさと北見に戻ります。
ヒロインはオンラインをベースにメイクアップ講師の仕事をしながら起業し、主人公は地元北見の企業(貿易商社)に就職して、充実した日々を送っています。
二人とも出張が多い仕事ですが、じいちゃんばあちゃんひいじいちゃん達の援助があるから、家族で子育てです。
家も、大往生でなくなった祖父母の家を受け継ぎ、北見の広い土地でのびのびと4人の子どもを育てました。
その様子が一つのロールモデルとなり、周りの友人知人達にも影響を与え、子ども達にもよきロールモデルとなり、子ども達も恋をして、就職し、結婚して、自分らしく生きています。
妄想だと思うでしょ?
でもこう言う人実際に結構いるんですよね。地元で楽しく暮らしている人、都会に行って微妙に失敗する人よりはたぶん多いです。可視化されにくいけど。例えばヒロインの育った家とかはまさにそれなのよ。
でも、マンガにすると、特にこのマンガの読者層に対してリアリティがなくなってしまってだめなのかなあとか、思ってしまいました。
ごめんなさい。
固定回線は1Gbpsで十分でせいぜい2.5Gbpsもあれば余裕で暮らしていける
例えばNETFLIXの4K映像でも「推奨速度:15Mbps以上」とか書いてあるぐらいで
10倍の150Mbpsを用意するとして、家の中のテレビ3台動員しても450Mbpsあれば十分
10Gbpsになって速くなったって言ってるやつはベンチマーク測ってるだけか
「自宅に光ファイバーを引いたらインターネットまで専用の光ファイバーが直結される!」
あなたの家の光ファイバーは隣の家とかと共用されていて、時間を区切って使ってる
なので10人いれば10分の1になるし100人いれば100分の1になる
確か最大で128分岐までされてて、その人数で2.4Gbpsを共有してる
NTTが不人気で使ってる人が少ないと1Gbpsが出るけど、人が増えてくると全然出なくなる
関東エリアではNTTが強いから全然速度は出ず、西エリアは競合が多いので逆にNTTのスピードが速い
10Gに変えると当然使ってる人が少ないからスピードは出るけど
そもそも使うアプリ無いから体感できないし、増えてきたら遅くなる
まずパケロスなんて相当なことがないと起きないから
遅延についても、ファイバー分岐で共有してる人数が多いと待ち時間が出るけど
実際には1〜2msぐらいでほぼ関係ない
光の伝送遅延はご存じの通り無視できるレベルで、途中経路の遅延もほとんどない
で、結局は最後のサーバーとかPCでやってる処理で遅延が発生してるっていうだけ
じゃぁなんで10Gbps売ってるのか?っていうと、お前らが買うからだよ!
10Gbpsなんて意味ないって通信業者はみんな知ってたから手を出さなかったんだけど
NUROが勝手に10Gとか2.5Gとか売り出してゴッソリ客を持って行ったわけ
そうすると防衛上しかたなく10Gとか売り出すしか無くて渋々提供してるのが10Gで
最近秋葉原の「U Mobile Shop」で開催されたセールで購入したIntel NUCキット(NUC6CAYS)に
ついてのレビューです。
このミニPCは、その小さなボディに秘めた可能性に驚かされることばかりでした。
それでは、購入から設定、そして実際の使用感まで、詳しく見ていきましょう。
NUC6CAYSの画像: https://i.imgur.com/LrfNMrA.jpeg
1. 購入経緯
2024年9月14日、秋葉原の「U Mobile Shop」とそのオンラインストアで中古ミニPCのセールが
開始されました。
オンラインストアは午前0時からスタートし、私はこの機会を逃すまいと注文しました。
Intel製Windows 10ミニPC中古が3,000円でセール!【Intel NUCキット】
https://daily-gadget.net/2024/09/12/post-77177/
セールの目玉商品だったIntel NUCキット(NUC6CAYS)の仕様は以下の通りでした:
- メモリ: 4GB
- ストレージ: 32GB
- OS: Windows 10 Home
https://youtu.be/Q9gM8jAOf_0?si=kr-9lrfr20P0eG-Z
残念ながらWindows11には非対応ですが、そのために価格は3,000円!でした。
2. 開封と初期の印象
商品が届いてすぐに開封しました。外観は予想以上にきれいで、ミニPCとは思えないほど
頑丈そうで加工精度が高い印象を受けました。
手に取ってみると、その小さな筐体からは想像できないほどの重量感があり、
a. まず、HDMIケーブルでモニターに接続し、2.4GHz帯のワイヤレスキーボード
b. 電源を入れると、問題なくモニターに映像が表示され、キーボードとタッチパッドも
c. BIOS画面はIntel独自のデザインで、タッチパッドでスムーズに操作できました。
3-2. Windows 10の起動
そのまま起動すると、内蔵eMMC(32GB)にインストールされていたWindows 10が
立ち上がりました。起動は速く、基本的な操作も問題なくできました。
ただし、機能更新プログラムのバージョンは相当古いものでした。
注目すべき点は、CPUファンが搭載されているにもかかわらず、とても静かだったことです。
デスクトップ環境として使用する上で、この静音性は大きなメリットだと感じました。
ネットで見つけた分解写真: https://i.imgur.com/BXApN8U.png
まず、空きスロットに8GBのDDR3Lのメモリを追加で挿し、12GBに増設しました。
BIOSで問題なく認識され、システムの応答性が向上したように感じました。
次に、2.5インチSATA SSD 1TBを増設しました。内蔵の増設スロットを利用したので、
取り付けは非常に簡単でした。
4-3. eMMCの無効化
搭載されていたeMMCは容量が32GBと限られていたため、BIOSから無効化することにしました。
ただし、元のWindows 10インストールを保険として残しておきたかったので、
完全に消去することはしませんでした。
無効化後、NUC6CAYSを起動すると新しく増設した2.5インチSATA SSDにインストール
されていたWindows 10が問題なく起動しました。
Windows 10も快適に動作しましたが、さらに軽量なOSでの使用感を試すため、
a. インストール自体はスムーズに完了し、特に問題は発生しませんでした。
c. YouTube FHDの60FPS動画も問題なく再生でき、Wi-Fi接続も安定していました。
Chrome OS Flex上でいくつかのベンチマークテストを実行しました:
シングルスコア:約15,000 マルチスコア:約110,000
b. WebGL Aquarium:5,000匹の魚で約35FPS
ベンチマークの画像: https://i.imgur.com/5zmXXbc.jpeg
これらの結果から、高性能とは言えないものの、日常的な使用には耐える性能を
持っていることがわかりました。
特筆すべきは、これらのテスト中もファンの音がほとんど聞こえなかったことです。
天板に直接耳を当てないと音が聞き取れないほどの静音性は驚きでした。
6.総評
Intel NUCキット(NUC6CAYS)は、その小さなボディからは想像できないほどの
可能性を秘めていました。
6-1. 長所:
- 驚くほどの静音性
6-2. 短所:
- 高負荷のタスクには向かない
- 自宅用のChromebox的な使い方
3,000円という破格の価格で手に入れたこのマシンですが、その価値は金額をはるかに
超えています。
拡張性、静音性、そしてある程度の性能を兼ね備えたこのミニPCは、様々な用途に適応
できる素晴らしいマシンだと言えると感じました。
Chrome OS Flexの検証に続いて、Linux開発環境の可能性も探ってみました。結果は予想以上に良好で、
Chrome OS Flex上でLinux(Beta)を有効にし、開発環境をセットアップしました。
Linux開発環境の画像: https://i.imgur.com/8URQQSU.png
Linux環境で、以下のアプリケーションをインストールし、動作を確認しました:
参考サイト:初期設定&日本語入力を使えるようにする方法|ChromebookでLinux
https://catalyst-wakaba.com/linux-on-chrome-os/
※これは「グラアプデは正直微妙だった」と思っている派の人間が書いています
※グラフィックの専門知識はない人間が書いてるので用語の間違いがある可能性あり
トータルで言えば微妙だと感じました。悪いところ>良くなったところという感じで「トータルで言えば」微妙で、良いところもあります。
物の質感や装備の質感が良くなったりしたものがあり、細かい装飾もよく見えるようになったのは良い。
エーテライトも輝いていて綺麗になったと思いました(ただし眩しすぎるエーテライトは目が痛い)。
でも装備や物の質感と2色染色できるようになった以外のメリットがあまり感じない。
それも別に大掛かりなグラアプデをしなくてもテクスチャの細かさなど変えるだけで良かったのでは?
2色染色も装備によってはボタンの糸の色(目を凝らして見えるかどうか)が変わるだけだったりして、微妙なものも沢山あるのが残念。
悪いところは、キャラグラフィック(例えば目や口の形)が何故か変わっていたり、表情がおかしい、ライトの関係がおかしい。
吉田P/Dが「印象が変わらない」と言って、ベンチマークのグラアプデの項目にも「4. 今までのイメージを大切にする」と書いてあったにも関わらず、明らかに変わって劣化したところも多数ある。
フォーラムで「キャラのパーツガチャ」と表現している人が居たけどその通りだと思った。
ある種族のあるパーツは「ほぼそのままの形」でアップデートされている。
でも、他のパーツは釣り目が垂れ目になっていたり、形が変わっていたりする。
「ほぼそのままの形」の人は満足するだろうが、形が変わった人は「何故自分のキャラは以前と違うのか」となるのは仕方ない。
後頭部あたりに少し強めのライトが当たると、髪の毛全部が(ライトが当たらないはずの前髪まで)、発光します(以前は発光しなかった)。
背景も、綺麗だった空(美しいグラデーションがあるような空)などが何故か強く霞かかったように一色になったり(アバラシア雲海)
青く綺麗な空と海の境界線が、何故か緑っぽく暗くなり、ぼやけて見えないような感じになったり。(コスタ・デル・ソル。シーリゾートのような雰囲気の場所)
あと全体的なフィールドの光・ライトのコントラストが高くなって、目が痛くなったりしやすくなりました。
※どう微妙になったか言い出すとキリが無いのでこの辺までにしておきます。
満足派が満足してない派を叩くという流れを見かけるのでちょっと怖い。
自分は満足してない派で、「満足してる派」の声が大きく聞こえてくる気がするし、SNSでの少しの投稿がそう見えているだけかもしれないけど。
ニュアンスとしては「まだキャラグラに細かく言ってるのか、そろそろ慣れたら」や「嫌なら辞めたら」などそういう感じのことです。
プレイヤー間の対立=他人のプレイスタイルを受け入れられないということなのかと感じている。
FF14の世界を 「キャラやキャラの生きる世界が好き」、「世界観・一つのファンタジー世界を見ているようで好き」というような人は、キャラクターや背景などをよく見ている人が多く、グラアプデは残念という感想を抱きやすいと思います。
自分は、バトルコンテンツも好きで戦闘のエンドコンテンツも行く程好きだけど、背景やキャラを見ているのも好きだったからグラアプデは残念だった。
キャラクターや背景にこだわりを持ってグラフィックを見ているプレイヤーは「別のプレイスタイル」を持った人たちであり、その人達の遊び方を否定しないであげてほしい。
例えば全く戦闘しない人が「まだ絶(戦闘エンドコンテンツ)とか作ってるのか?ほとんどの人が行かないんだから作る必要ない。それにコスト割くなら別のコンテンツ作って」と言ったらとても叩かれると思います。
FF14はハウジング機能もあるしキャラの服も課金で買えるゲームだから、キャラ愛や世界愛の強い人が居てもおかしくない。
満足している人はそれでいいと思います。パーツごとにクオリティの違いがあったりするから「満足派」と「満足してない派」が出るのも仕方ない。
でも、他の人のプレイスタイルや物の見方や感じ方を否定しないであげてほしい。
あと「嫌なら辞めたら」と言っている人たちは、自分がこれは改悪だというバトル調整や納得できない内容があったら何も言わずFF14辞めるんだろうか。
自分は(自分が興味のないところでも)コンテンツが充実したり機能が増えたり、改善していくのは全体的なプレイヤーの満足度が上がるのでいいことだと思います。
実際ゲーム中のUIなどが改善されて遊びやすくなっていってるのも「プレイヤーの声があったから」改善されていっていると思います。
逆に運営が様々な点で微妙なポイントを放置しているなら、ゲームは遊び辛いものになって人は辞めるだろう。
「嫌なら辞めろ」という流れでプレイヤーが減り、本当に全く声を上げずに改悪され続けることがあったとして、そうして人が減っていった先には衰退しか無いと考えている。
そっちのほうがいいんだよな。
RTX3060は何もしないでも普通に動くしね。
ただ、最近はIntel ARC A750でもMikumikudanceのMMDも表示されるようになっていて、
SPARKLE Intel Arc A750 ORC OC Edition SA750C-8GOC [PCIExp 8GB]
¥31,700
https://kakaku.com/item/K0001558335/?lid=shop_history_4_text
で新品が買えるし、原神も動く
https://note.com/yamashita_eee/n/n0330b95e7296
高画質60fpsで動作する
平均フレームレート: 106.972
最低フレームレート: 44
ファイナルファンタジーXIV: 黄金のレガシー ベンチマーク Ver. 1.1
SCORE: 14959 とても快適
1920x1080 最高品質 DirectX11 FSR フルスクリーンモード
みたいな感じなので、キャラクターの表示を最小にすればモブハンで少しカクツク程度で済む
DaVinci Resolve Studio:4060tiより少し遅め
Adobe Premiere Pro:4060tiの1.0~1.2倍のスコア
Motion Graphics/VFX:A750だと動かない(A770だと4060tiの1.0~1.4倍のスコア)
Unreal Engine:A750で3060の9割程度の性能(A770で3060と同じぐらい)
Blender:3060の8割程度の性能
Stable Diffusion:4060の9割程度の性能
ものにもよるが、最近は3060を超えるか少し遅いぐらいの性能はあるんで金がないならIntel ARC A750の新品か中古を買ったほうがいい
Intel ARC A750やA770だと採掘できないんで、中古でも問題ない
金があるなら、Battlemage買ったほうがいいが、初物は高い
なので、リスクをとっても安く済ませたいなら、Intel ARC A750になって、手間をかけたくなければ、少し上乗せして、RTX3060 12GBあたりを買ったほうがいい
(ラーメンショップは別として)家系の元祖である吉村家から喧嘩を売るかのように独立して生まれたのが六角家だ
家系の元祖は確かに吉村家だが、昭和63年に生まれた六角家が家系のベンチマーク的存在だと私は考えている
その理由は、現在家系を自称するお店は吉村家よりは六角家の味に近いからだ
吉村家は醤油ダレをガツンと効かせるのに対して、六角家はスープ(出汁)を重視して家系ラーメンに変化をもたらした
その変化は、吉村家と比べると六角家の方が食べやすく、多少は万人受けするラーメンになった
万人受けといっても吉村家よりはマシと言う程度で、昔は獣汁と呼ばれるくらい臭いしクセがあった
六角家をもってしても、その頃の家系はまだまだ人を選ぶラーメンだった
壱六家はげんこつを使わずに豚頭を使うことでクリーミーな家系を発明した
壱六家以後、スープの獣臭さは年々弱くなり、ラーメン本から獣汁という言葉が消えていったのではないかと私は考えている
(横浜の都市化が進み、店で獣臭いスープを炊けなくなったこともあるだろうけど)
壱六家は吉村家や、そこから独立したお店で修行したわけでもない非直系
この壱六家を元祖とし、壱系と呼ばれるくらいに広がり、現在展開されている資本系とか呼ばれるのをたどると壱六家に行き着く店も多い
https://hamarepo.com/story.php?page_no=2&story_id=2328
本当に壱六家発祥なのか怪しいと思っているけれど、昔は今ほど家系でライスを食べる文化は定着していなくて、直系でもライスを食べる人が増えてきた頃は違和感があった
直系以外は認めないという方も、壱六家発祥とされるライスの美味しい食べ方を実践しているのではないかと思う
なので、スープに浸した海苔でライスを巻いているラオタがいたら「それって壱六家発祥だから直系の食べ方じゃないよね」といじめてあげよう
ライスの食べ方だけじゃなく、直系ですら壱六家の影響を受けた食べやすい臭くない家系になっていて、現在直系にこだわるほどかなと私は考えている
ただ、資本系と呼ばれるお店には家系とは呼び難いものも多いから、資本系を家系と一緒にしたくないという気持ちも理解できる
二郎系はインスパイアと呼んでも、資本系の家系をインスパイアと呼びたくないラオタの微妙な感情があるのです
直系とか資本系とか知らねーよって方も直系と資本系をそれぞれ食べたら違いがわかると思うので、直系を探して食べてみて欲しい
食について一切語るなよな
最後に、定量化するのが最も難しいが、それに劣らず重要な改善のカテゴリーを紹介しよう。
難しい数学の問題を解くように言われたとき、頭に浮かんだことを即座に答えなければならないとしたらどうだろう。最も単純な問題を除いて、苦労するのは明らかだろう。しかしつい最近まで、LLMにはそうやって数学の問題を解かせていた。その代わり、私たちのほとんどはスクラッチパッドで段階的に問題を解いていき、その方法ではるかに難しい問題を解くことができる。「思考の連鎖」プロンプトは、LLMのそれを解き放った。生の能力は優れているにもかかわらず、明らかな足かせがあるため、LLMは数学が苦手なのだ。
私たちはここ数年で、モデルの「足かせを外す」ことに大きな進歩を遂げました。これは単に優れたベースモデルをトレーニングするだけでなく、アルゴリズムの改良によってモデルの能力を引き出すものです:
足場作り。CoT++について考えてみよう:ただ問題を解くようモデルに求めるのではなく、あるモデルに攻撃計画を立てさせ、別のモデルに可能性のある解決策をたくさん提案させ、別のモデルにそれを批評させる、といった具合だ。例えば、HumanEval(コーディング問題)では、単純な足場作りによってGPT-3.5が足場なしのGPT-4を上回った。SWE-Bench(実世界のソフトウェアエンジニアリングのタスクを解くベンチマーク)では、GPT-4は~2%しか正しく解くことができませんが、Devinのエージェントの足場があれば14-23%に跳ね上がります。(後ほど詳しく説明するが、エージェントのアンロックはまだ初期段階に過ぎない。)
ツール:もし人間が電卓やコンピュータを使うことを許されなかったらと想像してみてほしい。まだ始まったばかりだが、ChatGPTはウェブブラウザを使ったり、コードを実行したりできるようになった。
エポックAIによる研究によると足場作りやツールの使用など、これらのテクニックのいくつかを調査したところ、このようなテクニックは多くのベンチマークで通常5~30倍の効果的な計算量の向上をもたらすことがわかった。METR(モデルを評価する組織)も同様に、同じGPT-4ベースモデルからのアンホブリングによって、エージェントタスクのセットで非常に大きなパフォーマンスの向上を発見しました。
https://situational-awareness.ai/wp-content/uploads/2024/06/metr_gains_over_time-1024x597.png
これらをコンピュートとアルゴリズムの効率で統一した実効的なコンピュート規模に当てはめることは困難ですが、少なくともコンピュート規模の拡大やアルゴリズムの効率とほぼ同規模の大きな進歩であることは明らかです。(また、アルゴリズムの進歩が中心的な役割を担っていることも浮き彫りになっています。0.5OOM/年の計算効率は、すでに重要なものではありますが、ストーリーの一部に過ぎません。)
「アンホブリング」こそが、実際にこれらのモデルが有用になることを可能にしたのであり、今日多くの商業アプリケーションの足かせとなっているものの多くは、この種のさらなる「アンホブリング」の必要性であると私は主張したい。実際、今日のモデルはまだ信じられないほど足かせが多い!例えば
ここでの可能性は非常に大きく、私たちはここで急速に低空飛行の果実を摘んでいる。これは非常に重要です。"GPT-6 ChatGPT "を想像するだけでは完全に間違っています。 GPT-6+RLHFと比べれば、進歩は段違いだ。2027年までには、チャットボットというより、エージェントのような、同僚のようなものが登場するだろう。
続き I.GPT-4からAGIへ:OOMを数える(8) https://anond.hatelabo.jp/20240605210232
コンピュートへの大規模な投資が注目される一方で、アルゴリズムの進歩も同様に重要な進歩の原動力であると思われる(そして、これまで劇的に過小評価されてきた)。
アルゴリズムの進歩がどれほど大きな意味を持つかを理解するために、MATHベンチマーク(高校生の競技用数学)において、わずか2年間で~50%の精度を達成するために必要な価格が下がったことを示す次の図を考えてみてください。(比較のために、数学が特に好きではないコンピュータサイエンスの博士課程の学生が40%のスコアを出したので、これはすでにかなり良いことです)。推論効率は2年足らずで3OOMs-1,000倍近く向上した。
https://situational-awareness.ai/wp-content/uploads/2024/06/math_inference_cost-1024x819.png
これは推論効率だけの数字だが(公開データから推論するのが難しいトレーニング効率の向上と一致するかどうかはわからない)、アルゴリズムの進歩は非常に大きく、また実際に起こっている。
この記事では、アルゴリズムの進歩を2種類に分けて説明します。まず、「パラダイム内」でのアルゴリズムの改良を取り上げることにしま す。例えば、より優れたアルゴリズムによって、同じパフォーマンスを達成しながら、トレーニングの計算量を10倍減らすことができるかもしれません。その結果、有効計算量は10倍(1OOM)になります。(後ほど「アンホブリング」を取り上げますが、これはベースモデルの能力を解き放つ「パラダイム拡張/アプリケーション拡張」的なアルゴリズムの進歩と考えることができます)。
一歩下がって長期的な傾向を見ると、私たちはかなり一貫した割合で新しいアルゴリズムの改良を発見しているようです。しかし、長期的なトレンドラインは予測可能であり、グラフ上の直線である。トレンドラインを信じよう。
アルゴリズム研究がほとんど公開されており、10年前にさかのぼるデータがある)ImageNetでは、2012年から2021年までの9年間で、計算効率が一貫して約0.5OOM/年向上しています。
アルゴリズムの進歩を測定することができます。同じ性能のモデルを訓練するために必要な計算量は、2012年と比較して2021年にはどれくらい少なくなっているのでしょうか?その結果、アルゴリズムの効率は年間0.5 OOMs/年程度向上していることがわかります。出典Erdil and Besiroglu 2022.
これは非常に大きなことです。つまり、4年後には、~100倍少ない計算量で同じ性能を達成できるということです(同時に、同じ計算量ではるかに高い性能も達成できます!)。
残念ながら、研究室はこれに関する内部データを公表していないため、過去4年間のフロンティアLLMのアルゴリズムの進歩を測定することは難しい。EpochAIは、言語モデリングに関するImageNetの結果を再現した新しい研究を行っており、2012年から2023年までのLLMのアルゴリズム効率のトレンドは、同様に~0.5OOM/年であると推定しています。(しかし、これはエラーバーが広く、また、主要なラボがアルゴリズム効率の公表を停止しているため、最近の上昇を捕捉していません)。
https://situational-awareness.ai/wp-content/uploads/2024/06/llm_efficiency_epoch-1-1024x711.png
Epoch AIによる言語モデリングにおけるアルゴリズム効率の推定。この試算によると、私たちは8年間で~4OOMの効率向上を達成したことになります。
より直接的に過去4年間を見ると、GPT-2からGPT-3は基本的に単純なスケールアップでした(論文によると)が、GPT-3以降、公に知られ、公に干渉可能な多くの利益がありました:
最近リリースされたGemini 1.5 Flashは、"GPT-3.75レベル "とGPT-4レベルの間の性能を提供する一方で、オリジナルのGPT-4よりも85倍/57倍(入力/出力)安い(驚異的な利益!)。
公開されている情報を総合すると、GPT-2からGPT-4へのジャンプには、1-2 OOMのアルゴリズム効率向上が含まれていたことになります。
https://situational-awareness.ai/wp-content/uploads/2024/06/stacked_compute_algos-1024x866.png
GPT-4に続く4年間はこの傾向が続くと予想され、2027年までに平均0.5OOMs/年の計算効率、つまりGPT-4と比較して~2OOMsの向上が見込まれます。計算効率の向上は、低空飛行の果実を摘み取るようになるにつれて難しくなる一方、新たなアルゴリズムの改良を見出すためのAIラボの資金と人材への投資は急速に増加しています。 (少なくとも、公開されている推論コストの効率化は、まったく減速していないようだ)。ハイエンドでは、より根本的な、トランスフォーマーのようなブレークスルーが起こり、さらに大きな利益が得られる可能性さえある。
これらをまとめると、2027年末までには(GPT-4と比較して)1~3OOMのアルゴリズム効率向上が期待できることになります。
続き I.GPT-4からAGIへ:OOMを数える(6) https://anond.hatelabo.jp/20240605205754