帯域はM1 MBPとIntel MBP(Ice Lake)でチャネル数同じ、前者はLPDDR4X-4266、後者はLPDDR4X-3733なのでメモリ帯域は14%しか向上していません。また、x86／x64最新世代のTiger Lake／ReniorはLPDDR4X-4266に対応しています。レイテンシはM1が96.8ns、Tiger Lakeが98.4nsでほぼ同等です。

Apple M1の実力を最新世代のIntel/AMD CPUと比較。M1が両者を大きく上回る結果ににあるように、SiP化によって消費電力の削減は期待できます。

DRAMとの物理的距離が縮まって、レイテンシが短くなって速い

違います。

SoC-DRAM間がマザーボード上で30cmあったとしても、電気信号の伝送にかかる時間は片道1nsです。仮にSiP化で物理的距離が1/100になったとしてもレイテンシ 100usが98.02usになるだけで、CPUにとってDRAMが絶望的に遠いことに変わりありません。

M1はUMA（Unified Memory Architecture）でCPUとGPUその他でメモリを共有しているから速い

違います。

まず、同一チップ上のCPUとGPUが同一のメモリーコントローラ／DRAMを共有するという意味では、Intelは2011年のSandy Bridge、AMDも2011年のLlanoから UMAです。一歩進んだメモリ空間の共有、コヒーレンシの確保という意味でも、AMDは2014年のKaveriから対応していて、この点においてM1に革新性はありません。

M1はCPU／GPU／メモリーコントローラ／I/Oがワンチップになっているから速い

違います。

上記のSandy Bridge、Llanoの世代からかつてのノースブリッジがCPUに取り込まれたため、2011年以降のモバイル PC向け”CPU”のほぼ全てにはGPU／メモリーコントローラが含まれています。

かつてのサウスブリッジはIntelは今でもワンチップ化こそしていませんが、2013年のHaswell からMCMでワンパッケージ内には収められています。AMDは2014年のCarrizoからサウスブリッジ機能もCPUに取り込まれています。

この意味で、x86／x64のモバイル PC向け”CPU”は、かなり以前から SoCです。

M1はNPUがあるから速い

違います。

NPUを活かせるアプリケーションは2020年現在では未だ限定的です。もしNPUの有無によってUXが決定的に改善されるなら、NPUありのSnapdargon 8cxを積むSurface Pro Xは同世代のSurface Pro 7よりずっと快適でなければなりませんが、そのような事実はありません。

M1が速いのは単にM1のCPU／GPUが速いからです。

M1のCPUコアが採用するArm ISAはRISCだから速い

違います。

CISC／RISCの論争は20年以上前に終わった話です。その後CISCはRISCの美点、RISCはCISCの美点を取り入れたので、現代のCPUはISAがCISCか／RISCかだけで性能が決定されることはありません。

歴史的経緯から x86／x64のデコーダが複雑になりがちなのは事実ですが、5W以下のローパワープロセッサの開発へ向かうIntelにあるように、ISAの差による消費電力増は10～20%のレンジで、さらに性能増によって相殺される分、電力効率の差としてはわずかです。

じゃあ結局、なんでM1は速いの？

頑張って最適化してIPC上げたのと、スマホ由来の積極的なDVFS・クロックゲーティング・パワーゲーティングで浮いた消費電力を回しているからです。

気が向いたら書きます。

Permalink | 記事への反応(5) | 14:39

2020-09-23

■

いまどきXPに対応しようとでも思わない限りは、

不必要なコード

互換性を吸収するXP 対応コード　

抜けばXのみ対応となり　数クロック高速化する　可能な限り　薄く小さく作ってある

Permalink | 記事への反応(0) | 11:02

2020-08-30

■

じじどもも、化け物クラスが出てきた。ライゼンが、単機なわけがない。ありゃ、仲間の一人っていう設定だ。

わかいやつらも未成年に見える外見で、あのざま。マニュアルにない処理ぐらい呼んでくる。

そしてなにより０．０６２５/8世代の第１０世代サンプル

チケットが余りまくってるから

リクエストだしといた。

　すっ

　　　とん

って１クロックで切り替えたいから命令作ってくれ。プログラムで書いたらすごい単純な命令だ。

Permalink | 記事への反応(1) | 22:34

2020-08-13

■anond:20200813125020

予測演算機構とかな、数クロック前からわかってると　ちがうよね・・・うん

Permalink | 記事への反応(0) | 12:51

2020-08-05

■

わかった。しょうがない。ARMさんは３２クロックぐらいでもいいぉ？（更に謙虚な村人）

Permalink | 記事への反応(0) | 07:34

■anond:20200805065825

ARMさんは複数クロックにしたいだろうから命令数６命令ぐらいにしていいよ

Permalink | 記事への反応(0) | 07:03

2020-08-03

■

メモリー上で直接演算ができる、レジスターを持っているスタックマシンという謎なものもさることながら

どうせSIMDでXMMレジスターが１５本もあってHyper Threadも対応していることなので

１６Bitに対応して

すっ

　　とん

っていう機能も欲しいです。すでにあるそうなので使い方がんばって覚えるけれど　ベンチマークがまだ不安定１００nanoぐらいなんですが・・・たぶんスタックの切り替え間違えている気が

場合によっては８Mのキャッシュも１６このスレイブスレッドごとすべて

すっ

　　とん

って切り替えてほしいの　マスターから見ると１６本はスレイブスレッドだからマスタースレッドが切り替わるとスレイブ１６スレッドも全部切り替わるから

８Mの３次キャッシュも全部切り替えてほしいの１クロックで

Permalink | 記事への反応(1) | 01:03

2020-08-02

■

２０年ぐらいまえから同じ議論をしている気がしますが

もともとは西海岸の論文がありまして

しかも今はAVX５１２ぐらいがありましてASCIIだと６４文字ぐらいが１クロックで比較演算できる時代になっておりまして

512ビットまでは１ワードということになり

マルチコアでコア番号がわかってればこんなもんただのヘテロプロセスだから大したことはないんだけど

内部処理を１６Bit化したいんですけど・・・

Permalink | 記事への反応(0) | 23:15

■anond:20200802122707

単精度と倍精度の違いは、単純にはシングルコアとデュアルコア。クロック数が速くなるわけではないが、計算量は２倍になる。

これに対して、ターボブーストというのはクロック数酢の物が上がるので計算速度が上がってる。FLOPSの増加にも色々あるのでFLOPSが増加したからと行ってブーストなのか、コア数を増やしたのかの違いが重要になる

Permalink | 記事への反応(0) | 12:29

■anond:20200802122513

単精度と倍精度は、FLOPS　つまり計算量は２倍になりえるが、SIMDみたいなもの。時間つまりクロック数が倍になるわけではない。

FLOPSと時間つまり／Secだからといって時間が早くなっているとは限らない

Permalink | 記事への反応(1) | 12:27

■

だから

すっ

　　とん

マエフレームの計算

　　２フレーム目の計算

　　　で　とん

なんだけど

ところでインテルさん　クロックの計算方法について　ちょっとききたいことがあるのですが　この仕組　マルチコアに使える？

すっ

　　トン

って　あのね

Permalink | 記事への反応(0) | 09:28

2020-08-01

■anond:20200801225627

掛け算と足し算を１クロックでやってきたIntelさんには簡単だと思うの。

難しいことはいってない。ただレジスター全部っていうときに、レジスター数増やしたの僕じゃないの。自己責任。

１６Bitで大丈夫。コア当たり・・・

Permalink | 記事への反応(1) | 23:00

■anond:20200801182904

１GHZとして１０００＊１０００＊１０００／１２０ｆｐｓｘ３ｘ４ｘ１０００

１４４０ｘ１０００＝２＊１０００＊１０００

５００クロックぐらいｘ３ｘ４コアｘ４SIMD

Permalink | 記事への反応(1) | 18:35

2020-07-24

■

女プログラマー

まぁ　４クロックはしょうがない。４回掛け算であれば、先行入力もきたいしやすい。実質２クロックには成る　１クロックめが演算終わる頃には４クロック目は　どう考えても１次キャッシュにある

あとはストリームでながせばよい。ややRISCではあるが、行列より動画再生支援スロットのほうがわれらがつかう。３ｘ４＝１２程度のロスはしかたがない。

現実に商売で使う動画再生支援を優先してほしい

Permalink | 記事への反応(0) | 11:14

■anond:20200724072339

Intel 選手の質問：これ１クロック以内にやれっていういみですよね？ブーストみたいな？

　↓

勇者ヨシヒコの回答：すっ　トン

Permalink | 記事への反応(1) | 07:33

■

動画再生支援　すっ　トン　１クロック化作戦　予測分岐　といえば　予測分岐なんだけど

　あの　どこに配線してるの？　なんか　こう　スタックミシン？っていう　こう　時間と　空間を　同時に指定しろ　ぐらいの騒ぎなんじゃ・・・ロイドーー説明　　

　あの　博士　スタックしない　スタックマシーンは　スタックマシーンですか？

　CISCSIMD化レジスター対応スタックマシーン？

　Intel 選手　魔王様とヨシヒコ様がたたかっているとはいえ　すごいことをいいだしたーーーー

　Intel 選手は　大丈夫　さぁ　パナソニック選手・・・どうやって対応するか？

　さぁ　

　Google先生のレジスター対応　スタックマシンもかなりひどいけど

　動画再生支援レーン命令対応　スタックマシンもひどい

　あのー　ちょっとそこ行く　本AKB48　大島優子さん　撮影上仕方ないとはいえ　技術スタッフ　なにげに　いいよ　とかいってるけど　これ　ひどくね？

　可変命令レジスター長　スタックマシンとか

　ソフト屋としてはきにならなかったんだけど　いまハード？っておもって　きに・・・すっ　トン↑

Permalink | 記事への反応(1) | 07:23

2020-07-22

■

プログラマーにとって　ギャルのパンティーおくれ　っていうていどの望み　

Intelの動画再生支援のための　レーン数を　ソフトではなく　ハードウェア支援にして　３ｘ４＝１２こある　を実装するために　８Bit マイコンから　１６Bitにして、CISCらしく１クロックでお願い　XMMとか私分かる程度だから　だいじょうーぶ　４倍SIMD　１２倍界王拳がつかいたいの　３ｘ４＝１２ぐらいわかるから　だいじょうぶ　ぴしっ　ぴしっ　あーん　それSMよ

小娘　そんなかんたんなことでいいのか？

Permalink | 記事への反応(0) | 20:32

■anond:20200722193509

マニュアル見たらだってここに　２個同時って書いてあるから　じゃぁ　２　４　８　１６

の支援機構　１クロック　XMM

Permalink | 記事への反応(1) | 19:39