・2018年　 IBMがNVIDIAと開発した「Summit」がスパコン世界ランキング1位の座を5年ぶりに中国から奪還。全計算のうち96%がGPUによって処理され、HPC（ハイパフォーマンスコンピューティング）におけるGPUの地位は決定的になる。NVIDIAの開発したCPU-GPU間の高速リンク「NVLink」が大規模に活用される。「Summit」は2020年に「富岳」にトップを奪われるまで1位を維持。

・2018~2021年　BERTやXLNet、GPT2など大規模言語モデルの幕開け。まだ研究者が使うレベル。

・2019年　 NVIDIA CEOジェスン・ファン（革ジャンおぢ）が「ムーアの法則は終わった」と見解を表明。半導体のシングルスレッド性能の向上は限界に達し、チップレットを始めとした並列化・集積化アーキテクチャ勝負の時代に入る。

・2022年　 NVIDIAがH100発表。Transformerモデルの学習・推論機能を大幅に強化したサーバ向けGPUで、もはや単体でもスパコンと呼べる性能を発揮する。H100はコアチップGH100をTSMC N4プロセスで製造、SK Hynix製HBMとともにTSMC CoWoSパッケージング技術で集積したパッケージ。※N4プロセスは最新のiPhone向けSoCで採用されたN3 プロセスの1つ前の世代だが、サーバ/デスクトップ製品向けプロセスとモバイル製品向けプロセスはクロックや電流量が異なり、HPC向けはN4が最新と言ってよい。

・2022年　画像生成AI ブーム。DALL-E2、Midjourney、Stable Diffusionなどが相次いで発表。

・2022年　ChatGPT発表。アクティブユーザ1億人達成に2カ月は史上最速。

・2023年　ChatGPT有料版公開。Microsoft Copilot、Google Bard（Gemini）など商用化への動きが相次ぐ。各企業がNVIDIA H100の大量調達に動く。

・2024年　 NVIDIAが時価総額世界4位に到達。半導体メーカー売上ランキング世界1位達成（予定）。

こうして見るとNVIDIAにとっての転換点は「ディープラーニングの発明」「GPGPU向けプログラミング環境 CUDAの発表」「チップセットの販売からコンピューティングユニットの販売に転換」という3つが同時に起こった2006年であると言えそう。以降、NVIDIAはゲーマー向け製品やモバイル向け製品を販売する裏で、CUDAによってGPGPUの独占を続け、仮装通貨マイニングやスパコンでの活躍と言ったホップステップを経て今回の大きな飛躍を成し遂げた、と綺麗にまとめられるだろう。

Permalink | 記事への反応(0) | 04:14

2024-02-19

■タスク マネージャーのGPU箇所、CUDAに切り替え出来ること、パソコン詳しい人でも知らない

3Dとか、Copyとかになっている箇所をクリックすると、メニューが出てきてCUDAを選択出来る。

Permalink | 記事への反応(0) | 18:29

2024-01-05

■anond:20240105165226

建築の世界では豆腐を建材にしない。

javascriptの世界から逃げ出すのです。

CUDA プログラミングをしましょう。

Permalink | 記事への反応(0) | 16:56

2023-08-02

■詐欺 AI 開発者を見破る方法

または「私はWeb3を直接書いてます」というタイプの場合。

開発言語を聞きましょう。
- Python の場合
  - ライブラリ使ってるだけじゃん、その名前とバージョンをメモすること
  - C で Cuda をかけないとライバルに負けないと聞いてみましょう。
- ソリデティの場合
  - それで作る場合は、本当に革新的なコードになるのかを聞いてみましょう。
  - Rust や Go でセキュアなコードを書くつもりはあるか聞いてみましょう。
- その他の言語の場合
  - なぜPythonを使わないのか聞いてみましょう。

実行環境について聞く。

クラウドかオンプレについて聞く。
- クラウドならば PCI-DSS のことは知ってるか聞く。
- それに加えて、オンプレならファイアーヲールや電源の喪失についても聞くこと。
費用について
- どれぐらいのコストがかかるのかを聞く

さいごに

講演会をひらく理由について聞く
- なぜ講演会を開く必要があるのかを聞く。
  - かねないの？って聞く。
  - 利用しているマシンのスペックと月々の費用について聞く。

Permalink | 記事への反応(4) | 20:21

2023-07-21

■anond:20230721192652

CUDAでGPGPUが流行り始めたころにNVDAを買ったワイを褒めて欲しい

それは普通にすごい。

信じてガチホすることが本当に難しいんだよな。

俺も上に書いた通りで今から量子コンピュータ銘柄を10年ガチホできるかっていったらかなり難しいもん。（今はちょっと持ってる）

持たない方がいい理屈は無限に作れるんだよな。

Permalink | 記事への反応(0) | 20:56

■anond:20230720203225

CUDAでGPGPUが流行り始めたころにNVDAを買ったワイを褒めて欲しい

Permalink | 記事への反応(1) | 19:26

2023-07-13

■anond:20230710101330

フツーに３でしょ。Cuda かけるやつはPythonなんてすぐできるだろうけど、逆はない。

Permalink | 記事への反応(0) | 12:55

2023-07-10

■機械学習でNVIDIA一強になってしまっているのは何故？

仮説1) ハード性能として、演算器とメモリ間のデータのやり取りの隠蔽が上手く、性能が出ている

単体の演算器の性能なんてクロック周波数が速くなっている現代だと数クロックの差なんてわからないだろう。

メモリーは社外の汎用品GDDRを使う以上、帯域やレイテンシは変わらない。

違いが出てくるとすると、どうやってメモリ間を隠蔽しているかというのが想像出来る。

データ待っている期間を出来るだけ少なくする、といった感じだ。

仮説2) ハード性能として、多数の演算器を動かしても問題ないように電源を工夫している

演算器を並列に多数動かすと配線抵抗などで電源がドロップする。

電源配線のノウハウをNVIDIAが持っていて一日の長がある

仮説3) ソフトとして、CUDA、PyTorch のチューニングが出来ている。ドライバの出来がいい。

チューニングで性能上がっているのなら何処がボトルネックになりそうな所をあげているのか。

PyTorchだけで見ると、コード量は少ないので、移植しようと思えば出来るように見える。

Permalink | 記事への反応(1) | 10:13

2023-02-28

■VRAM24GBで足りないの、つらい

なんでどれもこれもAIのモデルは大きいんや

そして入るくらいのモデルは、やっぱり性能低くて何も出来ん

スワップみたいな仕組みもなく、CUDA error: out of memoryで落ちるし

Permalink | 記事への反応(1) | 13:55

2022-11-10

■日本の半導体 復権出来るかどうか

圧倒的に足りてない物

半導体を設計する為のソフト（EDA ソフト）

Webのようにオープンソースの設計ソフトはない。

cadence、synopsysという米国企業がほぼ独占している。

なんで重要かというと、色々理由はあるが、1例を上げると製造した時に問題が起こらないかをデザインルールをチェックする。

TSMCが新しい○nmプロセスを出すときは、必ずCacence、Synopsysが対応したとプレスリリースを出している。

デザインルールをチェックしない場合、配線間が短く設計し過ぎていてショートして最悪チップが動かないといった自体になる。

ちなみに中国もEDA 企業は立ち上げ出来てない（一応中国国内 EDA ベンダーはあるが）

日本で独自に2nmプロセスを立ち上げるとして、当たり前だがCadenceかSynopsysに対応してもらう、ということになるはずだ。

日本のソフトウェアを立ち上げるのは流石に難しいのではないだろうか。

Cadence、Synopsysともライセンス量が馬鹿みたいに高い。

1チップ作るのに○億と量産前に飛んでいく。

CPU サーバー上でシミュレーターを動かす方法もあるが、先端ロジックだとトランジスタ数が多くなりすぎて、エミュレータを使わないとまともに検証が出来ない。

エミュレータはFPGAみたいなもので、実チップまでは早くならないがシミュレーターより断然早い。

Cadence、Synopsysともエミュレータも出しているが、こちらも高い。ポンポン買えるものでもない。

チップの次はボード設計する為のソフトや、熱シミュレーター、EMCなど必要になる。

ボードはなんとかしようと思えば出来るはず・・・。先端の高密度はCadence、Altium使いたいが。

ちなみにAltiumに関する書籍は日本にはないが、中国では何冊も出ている。

ボード設計はチップより楽に解析されるので優先度は低い。

設計したチップを使ってくれる市場、対応するミドルウェア

先端ロジックで設計する会社、製造する工場を作ったとして、作った物が売れないと意味がない。

何を作るのか、だ。

しかも今時の先端ロジックは金がかかりすぎて、グローバルで億単位で売らないと半導体にかかる費用がペイしない。

車に沢山半導体が使われるんだということで報道されるが、台数が少ないので、後回しにされて、半導体不足が解消しないってのは昨今の状況だった。

高温まで対応するなど要求スペックが厳しいわりに、数が売れないので半導体企業としては美味しくない。

PS5の台数でも厳しいはずだ。(PS5は売れば売るほど赤字だし）

スマホほど単価が高くて、体積が小さいの輸送費がかからない、そんなものがないといけない。

AI向けはまだまだどれだけ演算能力があっても足りないので、そっち向けはありかもしれない。

ただチップを作っただけでは動かず、ドライバー、ミドルウェアが必要になる。

インテルがやったようにCUDA からコンバートするソフトを用意するなども必要だろう。

それだけやっても、市場がないかもしれない。

相当性能高いチップを作ったとしても、国内市場だけでペイしないだろう。

ソフトウェアエンジニアの方々も、チップが相当性能高くても携わりたくないのではないか。

NVIDIAのGPUを8個とか、数増やしてどっこいどっこいの性能のチップなら、わざわざ国産チップ用にソフトを作る必要がない。

Permalink | 記事への反応(3) | 21:55

2022-10-16

■anond:20221016120034

5年前だろうと同じことだぞ。

そもそも CUDAとPythonは関係ないのであんま分かってなさそう。

大方pytorchかtensorflowあたり使っててcuda 環境との区別がついてないんだろうな。

Permalink | 記事への反応(0) | 12:07

■NovelAIが重すぎるから ローカル 環境にNAI環境を構築する(2022年 10月16日版)(追記あり)

せっかく課金したのにユーザが増えまくっているのか滅茶苦茶重くなっていて最悪。

だから流出したモデルを使ってローカルでNAIの環境を構築する。

ネットには情報もだいぶ転がってるけど陳腐化した情報があまりに多いため増田にまとめることにした。

もしかしたらこの記事もすでに陳腐化しているかもしれないが…単純に間違ってたらトラバで教えてほしい。

もちろん自己責任。この記事を見て導入した結果何かあっても増田は何も保証しない。

英語がわかる人はこっちを見た方が早いと思う。今は導入RTAができるくらい導入は楽になっている。

https://rentry.org/nai-speedrun

推奨環境

VRAMが2GB以上あるNVIDIA製のグラフィックボードがあればローカル環境を構築できる。

GPUの世代はGTX700シリーズ以降。なので一昔前のミドル級ボードでも動作するらしい。

Intelのオンボード GPUでも実行する方法があるらしい(stable_diffusion.openvino)が今回は割愛する。自分で探してね。

その他の推奨環境は以下の通り。

対応 OS：Windows7以上(と言うがM1Macでも動作する方法があるとかなんとか)
必要な空きストレージ容量：20GB以上
メインメモリ：16GB以上(VRAMもたくさん必要だが起動時にメインメモリも大量に食う。Web UI起動時にタスクマネージャを見ているとよくわかる)

スマホしか持ってないような人やこういうのがよくわからない人はNovelAIを使った方が良いと思う。

今は重いけど、きっとそのうちみんな飽きてサーバも軽くなるかもしれないし。

(追記)NovelAIがリソースを確保してサーバが軽くなったからリスクを背負ってまで導入しなくても良いかも

手順1：PythonとGitを導入する

(追記)Pythonは当然3系。最新の奴を入れれば問題無い。

導入方法はいちいち書かないけど、「python --version」や「git -v」で

正常にバージョン情報が出る(パスがきちんと通っている)ことはちゃんと確認しよう。

手順2：Stable Diffusion web UI(AUTOMATIC1111)を導入する

Stable Diffusion web UIはStable Diffusionやそれをベースとした画像生成AIを利用するためのフロントエンド。

その中でも特に開発が活発でデファクトスタンダードとなっているのがAUTOMATIC1111版だ。

導入したい適当なディレクトリに対してPowerShellなどで

「git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git」

とやってやれば必要なファイルの導入が行われる。

なお、AUTOMATIC1111版は数時間単位でコミットが行われるから

定期的に「git pull origin master」で更新しよう。

手順3：BitTorrentで流出 モデルをダウンロードする

クライアントはqBitTorrentが一番楽だと思う。

ここにはさすがにmagnetリンクは書かないから各自ググって欲しい。

結構誤解されがちなことだが流出データ50GBを全部ダウンロードする必要は無い。

必要なファイルはanimefull-final-prunedディレクトリの中身とanimevae.ptだから5GBちょっとくらいなんじゃないかな。

もし余裕があるならmodule ディレクトリの中身もダウンロードすればいいけど、ぶっちゃけ必要無いんじゃないか？

手順4：ダウンロードした各ファイルをリネーム・移動

まずはanimefull-final-prunedの中身のファイルをリネーム。

「model.ckpt」を「animefinal-full-pruned.ckpt」のようなわかりやすい名前にして、

「animevae.pt」を例えば「animefinal-full-pruned.vae.pt」のような拡張子以外は同じファイル名にする。

Web UI起動フォルダ配下の\models\Stable-diffusionにリネームしたファイルを移動させれば配置はOK。

ちなみにmodule ディレクトリの中身は\models\hypernetworksに移動させて使う。

それらのファイルを設定で適用させると画風が結構変わるがNovelAI 再現とは関係無いみたいだ。

(追記)module ディレクトリの中身の.pt ファイルはhypernetworksという技術によって画風などを学習したものらしい。

すでに複数のイラストレーターの画風を学習したpt ファイルが作成されており議論を呼んでいる。

手順5：web ui-user.batの中身に設定を追加する

自分のグラボのVRAMが4GB未満の場合は「set COMMANDLINE_ARGS=」の後に

4GB未満の場合は「--medvram」、2GB未満の場合は「--lowvram」とパラメータを追加しておこう。

自分の持ってるグラボのVRAMがわからないときはGPU-Zなどで調べよう。

またGTX1600系固有のバグ(単色の画像が出力される)があるらしいので

その場合は「--no-half-vae」もしくは「--no-half」や「--precision full」とパラメータを追加。

ちなみにパラメータに「--xformers」を追加してxformersを導入・使用すると

消費VRAMが減って画像生成処理時間も短縮されるので是非導入しよう。

画像から danbooruのタグをAIで調査するdeepdanbooruを利用する場合は「--deepdanbooru」を追加。

これらの設定は同時に複数適用させることもできる。例えば

set COMMANDLINE_ARGS=--medvram --xformers --deepdanbooru

のようになる。

手順6：web ui-user.bat起動、設定変更

ターミナルやPowerShellなどでweb ui-user.batを起動しweb UIの初期導入と起動を行う。

過去には手動でCUDA等を導入する必要があったが、現在はこの初期導入でだいたいの導入が行われる。

ずいぶん楽にはなったがその分初期導入の時間は結構長い。10分～20分くらいかかるかもしれない。

途中で導入処理がエラーで止まってしまった場合は管理者権限で実行するなどして対応して欲しい。

起動ができたらSettingで以下の設定を変更してNovelAIに近づける。

Stop At last layers of CLIP modelを2に、

Eta noise seed deltaを31337にする。

これで設定は完了！

おまけ：アスカ テスト

設定を合わせて完全にNovelAIと同じ内容になったのかを確認するテストがある。

出力結果から海外じゃHallo Asuka Testなんて呼ばれている。

これは初期SEEDをはじめとする設定内容が完全に一致していれば同じ出力結果を得られる仕組みを利用している。

プロンプトの内容：masterpiece, best quality, masterpiece, asuka langley sitting cross legged on a chair
ネガティブプロンプトの内容：lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts,signature, watermark, user name, blurry, artist name
サンプリングのステップ数：28
サンプリング形式：Euler
CFG Scale(プロンプトの強度)：12
初期Seed：2870305590

この内容で見事下の画像と全く同じ画像が出力されれば合格だ。

https://i.imgur.com/Bfl5qJB.jpg

なお、このテストはAUTOMATIC1111のバージョンやxformersの適用状態によっては微妙に違う画像が出力されることがあるらしい。

xformersを適用させている増田の環境だと確かに二つ並べると間違い探しレベルの違いがあった。

正直このテストをクリアしなくても十分だと個人的には思う。

おまけ2：その他便利になる設定や拡張機能

「Booru tag autocompletion for A1111」を導入すればNovelAIのように自動でdanbooruのタグを保管してくれる。

注意

画像生成AI モデルはStable DiffusionがOSSのため派生が結構多い。

自前で追加学習もできるため自前で学習した追加AI モデルを4chanのような掲示板などで共有する人もいるらしい。

しかしそのようなモデルの中にウィルスのような悪意のある動作を行うものもあるらしい。

FBIがペドフィリアを一網打尽にするためにIPアドレスなどの個人情報を抜き出す動作を行うロリ特化AI モデルを掲示板で配布していて

しかもそれには本物の児童ポルノが教師データとして使われている…などという都市伝説的な話が今界隈を賑わせている。

それが本当の話かどうかはわからないが、とにかく変なところからモデルをダウンロードするのは危険なのでやめよう。

自己矛盾溢れる注意喚起かもしれないが…

Permalink | 記事への反応(6) | 02:55

2022-09-12

■anond:20220910190934

俺最近 cuda触り始めたにわかだからピンと来ないんだけどwslでLinux使ってても特に困ってないよ。何が面倒臭いの？

Permalink | 記事への反応(0) | 03:25

2022-09-10

■anond:20220910173047

カーネルエンジニアやデストリでもWindows使ってるのにドヤ顔でデスクトップ Linux使ってるヤツ
デスクトップ環境周りのコミッターとか自作 OSやドライバ作ってるとかなら納得だけど
どーせ単なるユーザー利用でしょ？

GPU使おうとすると、cuda ドライバとかの相性云々がマジで本当に死ぬほどめんどくさいので大人しくLinux使った方が楽なんだよなあ。

あとwindowsってパッケージマネージャが無いのがめちゃくちゃ困る。今はあるのかな？

Permalink | 記事への反応(4) | 19:09

2022-08-31

■

プログラミングとは無縁の職業だが久々に勉強としてゲーミングPC（wsl2）上でstable diffusion回せるような環境を作ろうとしたらこんな時間になってしまった

wsl2上でcuda使えるようにするのにまず躓いて、GPGとかいうのが問題だとわかるのに1時間くらいかかって、

そのあとビデオメモリ不足でプログラムが回らない問題が起きて、まぁこれはメモリ少なくて済むフォークを使えばいいとすぐわかったので問題なかったが、

最後anacondaで一度includeできたモジュールが何故かincludeできなくなる問題が発生してpathとかいじったりしたがうまくいかず、最終的にはvscodeの問題だとわかって一度wsl2を切断して再接続したら治ったけどこの対応に2時間くらいかけてしまった

まぁ結果一日かけずにstable diffusionを動かすことができるようになったから良かったけど

本当はいい感じの絵を出せる文章とかコード変えてエッチな絵を生成できるようにしたり中身を見て勉強しようと思ってたけどそれは明日以降だな

Permalink | 記事への反応(1) | 03:19

2022-08-24

■anond:20220823205005

元増田とは別の書き方を参考までに。

https://note.com/npaka/n/ndd549d2ce556

基本的にこの記事と同じ方法。

from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", use_auth_token=YOUR_TOKEN)
pipe.to("cuda")

def dummy_checker(images, **kwargs): return images, False
pipe.safety_checker = dummy_checker

下の2行を追加するだけ。これでも動いた。

Permalink | 記事への反応(0) | 10:38

2022-05-27

■anond:20220527070030

＞ Hyper-V の利用でなにか難しいポイントがあるとはとても思えないし

CUDAを叩けてなくて困っとります

機械学習で使いたい

Permalink | 記事への反応(1) | 07:02

2022-04-25

■MATLABは今後どういう扱いになるのか

MATLABを使っているが、どうも中途半端な存在になっている。

端的にいうと、お金を払っただけの価値があるか、だ。

①言語的な競合はもちろんPythonになるが、Pythonとの差別化が出来てない。

Python側は純粋なPythonだと遅いが、今はC++のラッパーとして使うのが多くなっており、Pythonの方が速いということが起こる。

最近のMATLABはJIT コンパイラによって昔ほどfor文を気にしなくても良くなっているが、それでも遅さは気になる。

GPU、分散コンピューティングにMATLABは対応しているが、使いこなすのに苦労する。

GPU使う場合だと、CUDAをそのまま使いたくなるし、GPU メモリーとのやり取りといったオーバーヘッドが加わるので、

単純にGPU使うようにしたら速くなるってことはなく、処理時間を測りながらトライアルを繰り返すことになる。

MATLAB側のエディタは機能が増えているとはいえ、Python+VSCodeとの対抗となると辛いものがある。

toolboxを追加で課金してCコードを吐き出すことはできるが、劇的に速くなるわけではない。

②toolboxは沢山あるが、使い始めると色々足りておらず、Pythonのエコシステムが欲しくなる

toolboxは追加課金で開放されるDLCだ。

toolboxが多くなりすぎていることと、手を広げすぎているのかtoolboxを買って使ってみると色々足りないことがある。

買う前に調べるわけだが、色んな事ができそうだと思って購入し、実際使っていくと、嘘は言ってないが事あるごとに使いにくい所が出てくる。

GUI周りに関しては不満が多い。

③GUIが重い、使いにくい

事あるごとにGUIが重たいのが気になって仕方ない。

また使いにくいのが多い。デザインが良いというのはコンシューマ用ではないので気にしないが、重たさと使いにくさで嫌になってくる。

④plotや可視化周りが重い

エクセルが普通になっている今、エクセルで出来ないことが出来て欲しいが、そうなっていない。

色々書いたが、MATLABは中途半端なのだ。

そりゃ便利な場合もある。あるが、かなり限定的だったりする。

Permalink | 記事への反応(1) | 17:56

2022-02-05

■anond:20220205141525

CUDA カーネル書いてるとかか？

Permalink | 記事への反応(0) | 18:18

2021-08-31

■anond:20210831192636

自己レスだがこのあたりか

GPGPU アプリケーション開発の環境およびAPIとしては、ハードウェア内部構造自体が汎用性を増したDirectX 10 世代の統合型シェーダーアーキテクチャ GPUの登場以降、NVIDIAによるGPGPU専用の統合開発環境「CUDA」や、AMDによるGPGPU基盤「AMD Stream」（旧称 ATI Stream）、そしてクロノス・グループによる標準規格「OpenCL」が現われ、GPGPU 活用の幅が広がりつつある。 https://ja.wikipedia.org/wiki/%E3%82%AF%E3%83%AD%E3%83%8E%E3%82%B9%E3%83%BB%E3%82%B0%E3%83%AB%E3%83%BC%E3%83%97

Permalink | 記事への反応(0) | 19:28

「Cuda」を含む日記

■CUDAは、AI向けでエコシステムというほど資産あるのか？

■NVIDIAとAIの小史

■タスクマネージャーのGPU箇所、CUDAに切り替え出来ること、パソコン詳しい人でも知らない

■詐欺AI開発者を見破る方法

■機械学習でNVIDIA一強になってしまっているのは何故？

仮説1) ハード性能として、演算器とメモリ間のデータのやり取りの隠蔽が上手く、性能が出ている

仮説2) ハード性能として、多数の演算器を動かしても問題ないように電源を工夫している

仮説3) ソフトとして、CUDA、PyTorch のチューニングが出来ている。ドライバの出来がいい。

■VRAM24GBで足りないの、つらい

■日本の半導体復権出来るかどうか

半導体を設計する為のソフト（EDAソフト）

設計したチップを使ってくれる市場、対応するミドルウェア

■NovelAIが重すぎるからローカル環境にNAI環境を構築する(2022年10月16日版)(追記あり)

推奨環境

手順1：PythonとGitを導入する

手順2：Stable Diffusion web UI(AUTOMATIC1111)を導入する

手順3：BitTorrentで流出モデルをダウンロードする

手順4：ダウンロードした各ファイルをリネーム・移動

手順5：webui-user.batの中身に設定を追加する

手順6：webui-user.bat起動、設定変更

おまけ：アスカテスト