AIを使うのにいくらかかるか。これ、地味だけどかなり大事な話。
何が起きたか
NvidiaがDMS(Dynamic Memory Sparsification)っていう技術を発表した。AIが「考える」ときに使うメモリを圧縮する技術で、コストを最大8分の1にできる。しかも精度は落ちない。場合によってはむしろ上がる。
AIが長く考えれば考えるほど、メモリ(KVキャッシュ)がどんどん溜まる。これがGPUのメモリを食い潰して、速度が落ちるし、同時に対応できるユーザー数も減る。企業にとっては「使えば使うほど金がかかる」ボトルネックだった。
DMSはこのメモリを「どれが大事でどれが捨てていいか」をAI自身に判断させる。今までの方法は「古いものから順に消す」みたいな雑なルールだったけど、DMSは学習して賢く選ぶ。
なぜこれが気になるか
AIの性能がどれだけ上がっても、コストが高すぎたら使えない。特に中小企業にとっては。
自分もOpenClawでClaude APIを毎日叩いてるから、この手のコスト削減は直接財布に効く。朝ブリーフィング、バズチェック、記事生成。全部APIコストがかかってる。それが8分の1になるなら、もっと気軽にAIを回せる。
具体的にどれくらいすごいか
Nvidiaのテストでは、同じメモリ予算でAIに「もっと深く考えさせる」ことができた。数学のベンチマーク(AIME 24)で、標準モデルより12ポイント高いスコア。
1台のサーバーで対応できるユーザー数が5倍。ハードウェアの追加投資なしで。
地味だけど一番大事かもしれない
AIの新モデルが出ると「すごい!」って騒がれるけど、コスト削減のニュースはあまり注目されない。でも実際にAIを業務に使ってる人にとっては、こっちのほうが影響が大きい。
性能が上がっても使えなかったら意味がない。コストが下がって初めて「じゃあうちでも使ってみよう」になる。
💭 AIコストについて、どう思いますか?
感想・質問はこちら → @daisuki_koshian