DeepSeek ― 2025年01月31日 22:56
【概要】
DeepSeekは、AI開発のコストに関する期待を大きく覆した中国のAIスタートアップである。従来、AIシステムを構築するには巨額の投資が必要であるとされ、OpenAIやGoogle、Anthropicなどの企業は、ますます強力なモデルを作るために多額の資金を投じていた。しかし、DeepSeekは、最新のAIを開発するために必要なコストを大幅に削減する方法を見出し、これにより従来のビリオンドル規模の投資に疑問を投げかけることとなった。
DeepSeekの成功の要因は、技術的な革新というよりも効率化に関する伝統的な手法にある。AI開発においては、大規模なデータセットと計算リソースが必要とされ、特にGPU(グラフィックス処理ユニット)を使用しての学習が不可欠である。しかし、DeepSeekはこのリソース消費を最小限に抑えるために、モデルの重みを表現するビット数を削減するなど、多くの工夫を凝らした。これにより、V3モデルの訓練にはわずか600万ドルの費用しかかからなかった。
また、DeepSeekはアメリカの輸出規制により、最先端のNvidia H100 GPUを使用することができなかったが、代わりにNvidia H800 GPUを使用した。この制限がかえって創意工夫を生み出し、より効率的な方法を見つけるきっかけとなった。
さらに、DeepSeekはモデルの推論に関するコスト削減にも成功し、OpenAIのo1モデルと比較しても遜色ない推論タスクをこなすR1モデルを公開した。これらの成果を踏まえて、DeepSeekはV3およびR1のモデルの重みを全て公開し、MITライセンスの下で誰でも自由に使用できるようにした。
このように、DeepSeekはAIモデル開発のコスト構造を根本的に変え、これまでの閉じた高額なモデルとは異なり、オープンで低コストでありながら高性能なモデルを提供することに成功した。これにより、研究コミュニティや投資家は新たな現実に適応する必要が生じている。
【詳細】
DeepSeekは、AI技術の開発におけるコスト削減の先駆者として注目される中国のスタートアップであり、その登場は従来の大型AI開発に関する考え方に革命をもたらした。特に、大規模言語モデル(LLM)を開発するためには、膨大な計算資源とコストがかかるとされてきたが、DeepSeekはそのコストを劇的に削減し、従来の企業が抱える「数十億ドル」の投資に対する新たな視点を提供した。
大規模言語モデルの開発とそのコスト
大規模言語モデル(LLM)は、次に来るべき単語を予測することで学習を進める人工知能システムであり、そのモデルは膨大なデータと計算リソースを必要とする。たとえば、「相対性理論はアルバート」という文があった場合、次に来る単語として「アインシュタイン」が予測される。この予測を行うために、大量のテキストデータを使って事前学習(pretraining)を行い、その学習には高性能なGPUを利用する。
事前学習においては、計算量が膨大で、消費されるエネルギーも非常に多くなる。このため、AI開発におけるコストの主要な部分は、GPUによる計算資源の消費に関連している。また、単に事前学習だけでは消費者向けの製品として十分な精度を持つAIが完成するわけではなく、追加的な調整が必要になる。具体的には、指示に従った学習(instruction tuning)や、人間のフィードバックを活用した強化学習(reinforcement learning from human feedback)などの工程が加わり、さらにコストがかさむ。
このように、AI開発には高額なリソース投資が必要であり、一般的には最新のAIモデルを構築するためには1億ドル(約140億円)以上の費用がかかることが予想されている。
DeepSeekの革新
DeepSeekが登場した背景には、単に新しい技術的な突破口があったわけではなく、むしろ「効率化」という従来の手法を駆使してコストを削減した点に革新がある。具体的には、以下のような工夫がなされた。
ビット数の削減
一つ目の主な工夫は、モデルの重み(パラメータ)を表現するために使用するビット数を減らした点である。通常、AIモデルの重みは非常に多く、数百億単位に達することがあり、そのためには大量の計算とストレージが必要となる。DeepSeekはこの重みをより効率的に表現するために、必要最小限のビット数で済む方法を採用した。
ニューラルネットワークアーキテクチャの革新
さらに、DeepSeekはニューラルネットワークアーキテクチャ自体を工夫し、より少ないリソースで同等の性能を発揮するような構造を開発した。これにより、従来のアーキテクチャに比べて計算資源を大幅に削減しつつ、モデルの性能は保たれている。
GPU間の通信のオーバーヘッドの削減
GPUを複数使用する際、GPU間でデータをやり取りする必要があるが、この通信にかかるコストが高くなる場合が多い。DeepSeekは、この通信のオーバーヘッドを削減するための技術を開発し、より効率的にGPU間でデータを転送できるようにした。
米国の輸出規制とその影響
また、DeepSeekはアメリカの輸出規制により、最先端のNvidia H100 GPUを使用することができなかった。これにより、Nvidia H800という性能が少し劣るGPUを使用せざるを得なかったが、この制限が逆に同社にとっては創意工夫を生み、限られたリソースで最大限の効率を引き出すための新たな発想が促される結果となった。
推論(インフェレンス)のコスト削減
モデルの学習が完了した後、実際にユーザーの入力に応じてAIが応答する段階(推論)にも計算資源が必要であり、この推論コストが高くなることがしばしば問題となる。DeepSeekは、推論コストを削減するための最適化を行い、より低コストで同様の性能を実現した。例えば、OpenAIのo1モデルと同等の推論タスクをこなせるR1モデルを開発した。
オープンなアプローチ
さらに、DeepSeekはV3およびR1モデルの重みを全て公開し、MITライセンスの下で自由に利用できるようにした。このオープンなアプローチにより、研究者や企業はDeepSeekのモデルをカスタマイズしたり、商業的に利用することができるようになった。
影響と今後の展望
DeepSeekの登場により、AI開発におけるコストの常識が大きく変わる可能性がある。従来のように、高額な投資と閉じられた環境でのモデル開発が主流であった中、DeepSeekはオープンで低コストで高性能なモデルを提供することで、AI開発のアクセス可能性を大幅に広げた。これにより、研究者や企業がより低コストで高度なAI技術を活用できるようになり、AI技術の民主化が進む可能性がある。
しかし、DeepSeekの登場が投資家や大手企業の期待にどのような影響を与えるかは、しばらく時間がかかるだろう。特に、AI業界の中でどの企業がこの新たなアプローチを採用し、どのように競争優位性を築くかが重要な課題となる。
【要点】
・DeepSeekの登場: 中国のスタートアップで、AI技術開発におけるコスト削減に成功。従来のAI開発のコスト概念に革新をもたらした。
・大規模言語モデル(LLM)のコスト: LLMの開発には膨大な計算リソースとエネルギーが必要。事前学習や調整には高額な投資がかかる。
・DeepSeekの革新
⇨ ビット数の削減: 重み(パラメータ)の表現に必要なビット数を減らし、効率的な計算を実現。
⇨ ニューラルネットワークアーキテクチャ: より少ないリソースで同等の性能を発揮する設計。
⇨ GPU間の通信オーバーヘッド削減: 複数GPU間でのデータ転送効率を向上。
・米国の輸出規制: Nvidia H100 GPUが使用できず、代わりにH800を使用したが、この制限が逆に効率化を促進。
・推論コスト削減: 推論段階での計算コストを最適化し、低コストで高性能なR1モデルを提供。
・オープンアプローチ: V3およびR1モデルの重みを公開し、MITライセンスで自由に利用可能に。
・影響と今後の展望
⇨ AI開発のコスト削減が進み、技術の民主化が促進される可能性がある。
⇨ 低コストで高性能なモデルの登場により、研究者や企業のアクセスが広がる。
⇨ 競争優位性を巡る企業間の戦いが今後の焦点となる。
【参考】
☞ MITライセンスは、ソフトウェアに関する非常に自由なオープンソースライセンスの一つであり、次の特徴がある。
・自由な使用: ソフトウェアを商用、非商用問わず自由に使用できる。
・変更の許可: ソフトウェアを自由に修正したり、カスタマイズしたりできる。
・再配布の許可: 修正したソフトウェアを再配布することができる。
・制限が少ない: ソフトウェアを使用、コピー、変更、再配布する際にほとんど制限がなく、ライセンスのコピーを含むことさえ要求されることが多い。
・免責事項: ソフトウェアは「現状のまま」で提供されるため、使用中の不具合や損害に対して開発者は責任を負わない。
MITライセンスの目的は、開発者やユーザーがソフトウェアをできるだけ自由に活用できる環境を提供することである。特に商業利用を制限しないため、企業や開発者が自分のプロジェクトに取り込む際に非常に便利である。
【参考はブログ作成者が付記】
【引用・参照・底本】
How DeepSeek revolutionized AI’s cost calculus ASIATIMES 2025.01.30
https://asiatimes.com/2025/01/how-deepseek-revolutionized-ais-cost-calculus/?utm_source=The+Daily+Report&utm_campaign=7aca4900b3-DAILY_31_01_2025&utm_medium=email&utm_term=0_1f8bca137f-7aca4900b3-16242795&mc_cid=7aca4900b3&mc_eid=69a7d1ef3c
DeepSeekは、AI開発のコストに関する期待を大きく覆した中国のAIスタートアップである。従来、AIシステムを構築するには巨額の投資が必要であるとされ、OpenAIやGoogle、Anthropicなどの企業は、ますます強力なモデルを作るために多額の資金を投じていた。しかし、DeepSeekは、最新のAIを開発するために必要なコストを大幅に削減する方法を見出し、これにより従来のビリオンドル規模の投資に疑問を投げかけることとなった。
DeepSeekの成功の要因は、技術的な革新というよりも効率化に関する伝統的な手法にある。AI開発においては、大規模なデータセットと計算リソースが必要とされ、特にGPU(グラフィックス処理ユニット)を使用しての学習が不可欠である。しかし、DeepSeekはこのリソース消費を最小限に抑えるために、モデルの重みを表現するビット数を削減するなど、多くの工夫を凝らした。これにより、V3モデルの訓練にはわずか600万ドルの費用しかかからなかった。
また、DeepSeekはアメリカの輸出規制により、最先端のNvidia H100 GPUを使用することができなかったが、代わりにNvidia H800 GPUを使用した。この制限がかえって創意工夫を生み出し、より効率的な方法を見つけるきっかけとなった。
さらに、DeepSeekはモデルの推論に関するコスト削減にも成功し、OpenAIのo1モデルと比較しても遜色ない推論タスクをこなすR1モデルを公開した。これらの成果を踏まえて、DeepSeekはV3およびR1のモデルの重みを全て公開し、MITライセンスの下で誰でも自由に使用できるようにした。
このように、DeepSeekはAIモデル開発のコスト構造を根本的に変え、これまでの閉じた高額なモデルとは異なり、オープンで低コストでありながら高性能なモデルを提供することに成功した。これにより、研究コミュニティや投資家は新たな現実に適応する必要が生じている。
【詳細】
DeepSeekは、AI技術の開発におけるコスト削減の先駆者として注目される中国のスタートアップであり、その登場は従来の大型AI開発に関する考え方に革命をもたらした。特に、大規模言語モデル(LLM)を開発するためには、膨大な計算資源とコストがかかるとされてきたが、DeepSeekはそのコストを劇的に削減し、従来の企業が抱える「数十億ドル」の投資に対する新たな視点を提供した。
大規模言語モデルの開発とそのコスト
大規模言語モデル(LLM)は、次に来るべき単語を予測することで学習を進める人工知能システムであり、そのモデルは膨大なデータと計算リソースを必要とする。たとえば、「相対性理論はアルバート」という文があった場合、次に来る単語として「アインシュタイン」が予測される。この予測を行うために、大量のテキストデータを使って事前学習(pretraining)を行い、その学習には高性能なGPUを利用する。
事前学習においては、計算量が膨大で、消費されるエネルギーも非常に多くなる。このため、AI開発におけるコストの主要な部分は、GPUによる計算資源の消費に関連している。また、単に事前学習だけでは消費者向けの製品として十分な精度を持つAIが完成するわけではなく、追加的な調整が必要になる。具体的には、指示に従った学習(instruction tuning)や、人間のフィードバックを活用した強化学習(reinforcement learning from human feedback)などの工程が加わり、さらにコストがかさむ。
このように、AI開発には高額なリソース投資が必要であり、一般的には最新のAIモデルを構築するためには1億ドル(約140億円)以上の費用がかかることが予想されている。
DeepSeekの革新
DeepSeekが登場した背景には、単に新しい技術的な突破口があったわけではなく、むしろ「効率化」という従来の手法を駆使してコストを削減した点に革新がある。具体的には、以下のような工夫がなされた。
ビット数の削減
一つ目の主な工夫は、モデルの重み(パラメータ)を表現するために使用するビット数を減らした点である。通常、AIモデルの重みは非常に多く、数百億単位に達することがあり、そのためには大量の計算とストレージが必要となる。DeepSeekはこの重みをより効率的に表現するために、必要最小限のビット数で済む方法を採用した。
ニューラルネットワークアーキテクチャの革新
さらに、DeepSeekはニューラルネットワークアーキテクチャ自体を工夫し、より少ないリソースで同等の性能を発揮するような構造を開発した。これにより、従来のアーキテクチャに比べて計算資源を大幅に削減しつつ、モデルの性能は保たれている。
GPU間の通信のオーバーヘッドの削減
GPUを複数使用する際、GPU間でデータをやり取りする必要があるが、この通信にかかるコストが高くなる場合が多い。DeepSeekは、この通信のオーバーヘッドを削減するための技術を開発し、より効率的にGPU間でデータを転送できるようにした。
米国の輸出規制とその影響
また、DeepSeekはアメリカの輸出規制により、最先端のNvidia H100 GPUを使用することができなかった。これにより、Nvidia H800という性能が少し劣るGPUを使用せざるを得なかったが、この制限が逆に同社にとっては創意工夫を生み、限られたリソースで最大限の効率を引き出すための新たな発想が促される結果となった。
推論(インフェレンス)のコスト削減
モデルの学習が完了した後、実際にユーザーの入力に応じてAIが応答する段階(推論)にも計算資源が必要であり、この推論コストが高くなることがしばしば問題となる。DeepSeekは、推論コストを削減するための最適化を行い、より低コストで同様の性能を実現した。例えば、OpenAIのo1モデルと同等の推論タスクをこなせるR1モデルを開発した。
オープンなアプローチ
さらに、DeepSeekはV3およびR1モデルの重みを全て公開し、MITライセンスの下で自由に利用できるようにした。このオープンなアプローチにより、研究者や企業はDeepSeekのモデルをカスタマイズしたり、商業的に利用することができるようになった。
影響と今後の展望
DeepSeekの登場により、AI開発におけるコストの常識が大きく変わる可能性がある。従来のように、高額な投資と閉じられた環境でのモデル開発が主流であった中、DeepSeekはオープンで低コストで高性能なモデルを提供することで、AI開発のアクセス可能性を大幅に広げた。これにより、研究者や企業がより低コストで高度なAI技術を活用できるようになり、AI技術の民主化が進む可能性がある。
しかし、DeepSeekの登場が投資家や大手企業の期待にどのような影響を与えるかは、しばらく時間がかかるだろう。特に、AI業界の中でどの企業がこの新たなアプローチを採用し、どのように競争優位性を築くかが重要な課題となる。
【要点】
・DeepSeekの登場: 中国のスタートアップで、AI技術開発におけるコスト削減に成功。従来のAI開発のコスト概念に革新をもたらした。
・大規模言語モデル(LLM)のコスト: LLMの開発には膨大な計算リソースとエネルギーが必要。事前学習や調整には高額な投資がかかる。
・DeepSeekの革新
⇨ ビット数の削減: 重み(パラメータ)の表現に必要なビット数を減らし、効率的な計算を実現。
⇨ ニューラルネットワークアーキテクチャ: より少ないリソースで同等の性能を発揮する設計。
⇨ GPU間の通信オーバーヘッド削減: 複数GPU間でのデータ転送効率を向上。
・米国の輸出規制: Nvidia H100 GPUが使用できず、代わりにH800を使用したが、この制限が逆に効率化を促進。
・推論コスト削減: 推論段階での計算コストを最適化し、低コストで高性能なR1モデルを提供。
・オープンアプローチ: V3およびR1モデルの重みを公開し、MITライセンスで自由に利用可能に。
・影響と今後の展望
⇨ AI開発のコスト削減が進み、技術の民主化が促進される可能性がある。
⇨ 低コストで高性能なモデルの登場により、研究者や企業のアクセスが広がる。
⇨ 競争優位性を巡る企業間の戦いが今後の焦点となる。
【参考】
☞ MITライセンスは、ソフトウェアに関する非常に自由なオープンソースライセンスの一つであり、次の特徴がある。
・自由な使用: ソフトウェアを商用、非商用問わず自由に使用できる。
・変更の許可: ソフトウェアを自由に修正したり、カスタマイズしたりできる。
・再配布の許可: 修正したソフトウェアを再配布することができる。
・制限が少ない: ソフトウェアを使用、コピー、変更、再配布する際にほとんど制限がなく、ライセンスのコピーを含むことさえ要求されることが多い。
・免責事項: ソフトウェアは「現状のまま」で提供されるため、使用中の不具合や損害に対して開発者は責任を負わない。
MITライセンスの目的は、開発者やユーザーがソフトウェアをできるだけ自由に活用できる環境を提供することである。特に商業利用を制限しないため、企業や開発者が自分のプロジェクトに取り込む際に非常に便利である。
【参考はブログ作成者が付記】
【引用・参照・底本】
How DeepSeek revolutionized AI’s cost calculus ASIATIMES 2025.01.30
https://asiatimes.com/2025/01/how-deepseek-revolutionized-ais-cost-calculus/?utm_source=The+Daily+Report&utm_campaign=7aca4900b3-DAILY_31_01_2025&utm_medium=email&utm_term=0_1f8bca137f-7aca4900b3-16242795&mc_cid=7aca4900b3&mc_eid=69a7d1ef3c

