DeepSeekがAI開発コストを削減 ― 2025年01月30日 23:25
【概要】
DeepSeekは、中国のAIスタートアップとして、大規模言語モデル(LLM)の開発コストに関する従来の認識を覆した。OpenAIのChatGPT、GoogleのGemini、AnthropicのClaudeなどの先端AIモデルは、多言語に対応し流暢な文章を生成することで注目を集めているが、その開発には数十億ドル規模の投資が必要とされてきた。しかし、DeepSeekは、これらの巨額投資に疑問を投げかける存在となった。
AI開発のコスト構造
LLMの開発には、大量のデータと計算資源が必要である。モデルの基盤となるのは、大規模なデータセットを用いた事前学習(pretraining)であり、この過程でモデルは次に来る単語を予測する能力を獲得する。例えば、「相対性理論を発見したのはアルベルト」という文章が入力された場合、モデルは次の単語として「アインシュタイン」を予測する。この事前学習には、大量のインターネットデータや書籍を収集し、GPUを用いた大規模な計算が必要となる。
しかし、事前学習だけでは実用的なAIモデルにはならない。モデルはその後、命令調整(instruction tuning) や人間のフィードバックによる強化学習(reinforcement learning from human feedback, RLHF) といった追加訓練を経ることで、ユーザーの指示に適切に応答し、有害な出力を抑制する能力を獲得する。これらのプロセスでは、人間のアノテーターがモデルの出力を評価し、望ましい応答を選択する。
こうした訓練プロセスのすべてにおいて、高性能GPUの大量使用が不可欠であり、結果としてAI開発コストは1億ドル(約150億円)規模に達することが一般的 である。さらに、モデルの運用時(推論時)にもGPUを使用するため、運用コストも膨大となる。OpenAIは、2024年12月に発表したo1モデルにおいて、推論時の計算量を増やすことで数学や競技プログラミングといった論理的推論能力が向上することを確認しており、推論時のリソース投入が重要視される傾向が強まっている。
DeepSeekのアプローチ
DeepSeekは、この従来のコスト構造に対し、さまざまな最適化技術を活用することで、約600万ドル(約9億円)という低コストで最先端モデル「V3」を開発 した。このコストには、研究開発、試行錯誤、データ収集の費用は含まれていないものの、他の主要AI企業が数十億ドルを投じるのに比べると、圧倒的に低コストである。
このコスト削減は、以下の技術的工夫によるものである。
・数値表現の最適化:モデルの重みを表すビット数を削減することで、計算資源を効率化。
・ニューラルネットワークの構造改良:従来のLLMの設計を見直し、計算負荷を軽減。
・GPU間の通信コスト削減:分散計算時のデータ転送の最適化により、処理速度を向上。
また、DeepSeekは、米国の対中輸出規制により、NVIDIAの最先端GPU「H100」の使用が制限されていたため、性能を制限された「H800」を用いて訓練を行った。この制約下での開発が、さらなる効率化を促したと考えられる。
さらに、DeepSeekは推論コストの削減にも成功し、OpenAIのo1モデルに匹敵する論理的推論能力を持つ「R1」モデルを開発 した。
AI開発の新たな潮流
DeepSeekは、開発したモデルの重み(weights)をオープンソース として公開し、MITライセンス のもとで提供している。これにより、個人・学術・商業利用を問わず、誰でもモデルをダウンロードして改良やカスタマイズが可能である。従来、大規模AIモデルは高額なサブスクリプションが必要であったが、DeepSeekの登場により、低コストで高性能なAIの普及が進む可能性がある。
この新たな動向により、AI研究コミュニティや金融市場における認識が変化しつつあり、AI開発のコスト構造に対する再評価が進むことが予想される。
【詳細】
DeepSeekがAI開発コストの常識を覆した方法
中国のAIスタートアップであるDeepSeekは、大規模言語モデル(LLM)の開発コストに関する従来の認識を覆し、AI業界に衝撃を与えた。これまで、OpenAIのChatGPT、GoogleのGemini、AnthropicのClaudeなどの最先端AIモデルは、莫大な開発費用を投じて構築されるものと考えられてきた。しかし、DeepSeekは、限られた予算で競争力のあるモデルを開発し、既存の大手企業が前提としていたコスト構造に疑問を投げかけた。
DeepSeekの成功の鍵は、画期的な技術革新ではなく、計算資源の効率的な活用にある。AIモデルの訓練には膨大なコンピュータリソースが必要とされるが、DeepSeekは従来の手法とは異なるアプローチでコストを大幅に削減した。
AI開発のコスト構造
1. 大規模言語モデルの開発プロセス
最先端のAIシステムは、大規模言語モデル(LLM)の訓練から始まる。LLMの基本的な機能は、前の単語から次の単語を予測することである。例えば、「相対性理論を発見したのはアルバート〇〇」という文があった場合、LLMは「アインシュタイン」と予測する。これを実現するため、モデルは「事前学習(pretraining)」を行い、大量のデータを学習する。
事前学習の主な要素
・データ収集:Webサイトのクロールや書籍のスキャンを通じて大量のテキストデータを収集
・GPUの活用:ニューラルネットワークの演算には、線形代数が多用されるため、高性能なグラフィックス処理ユニット(GPU)が計算に使用される
・パラメータ最適化:数千億ものパラメータ(重み)を調整し、言語予測能力を向上
ただし、事前学習を終えたモデルは、そのままでは消費者向けの製品にはならない。なぜなら、モデルが人間の指示を適切に理解せず、時には不適切な内容を出力する可能性があるためだ。そのため、追加の学習ステップが必要となる。
2. 追加の学習ステップ
・命令調整(Instruction Tuning)
⇨ モデルに人間の指示と期待される出力の例を学習させ、より適切な応答を生成できるようにする
・人間のフィードバックによる強化学習(RLHF: Reinforcement Learning from Human Feedback)
⇨ モデルが出力した複数の応答を人間のアノテーターが評価し、好ましい応答を選択することで、モデルの挙動を改善
これらのプロセスにはデータ収集、人材採用、GPU計算リソースなどの莫大なコストがかかる。最先端モデルの開発費は通常1億ドル(約150億円)以上に達するとされる。
DeepSeekのコスト削減手法
DeepSeekは、こうした高額な開発コストの前提を覆し、わずか600万ドル(約9億円)で競争力のあるモデルを開発した。この驚異的なコスト削減の要因は、複数の技術的最適化にある。
1. 計算資源の最適化
・DeepSeekは、従来の大手AI企業とは異なる手法でモデルの計算コストを削減した。
・低ビット量子化(Low-bit Quantization)
モデルのパラメータ(重み)をより少ないビット数で表現することで、計算負荷を軽減
・ニューラルネットワークアーキテクチャの改善
⇨ モデルの構造を効率化し、同じ計算資源でもより優れた性能を発揮
・GPU間の通信コスト削減
⇨ データの転送を最適化し、GPU同士の通信オーバーヘッドを削減
2. 限られたハードウェア環境での開発
DeepSeekは、米国の対中輸出規制により、NvidiaのH100のような最先端GPUを使用できなかった。そのため、制約のあるH800 GPUを用いてモデルを訓練した。これにより、低コストで高性能なAIの開発を強いられ、その結果として革新的な手法が生まれた。
3. 推論コストの削減
モデルを訓練するだけでなく、実際に運用する際のコスト(推論時間の計算負荷)も最適化された。これは、AIサービスの収益性に大きく影響する要素である。DeepSeekは、推論プロセスを効率化し、低コストでの運用を可能にした。
DeepSeekの影響と今後の展望
DeepSeekの登場により、AI開発におけるコスト構造の根本的な見直しが迫られている。特に、同社が以下の点で業界に大きな影響を与えている。
1.AI開発のコスト削減が可能であることを実証
・これまで巨額の投資が必要とされていたが、技術的工夫によってコストを抑えられることが示された
2.オープンソース戦略の採用
・V3およびR1モデルの重みを公開し、MITライセンスのもとで自由に使用可能とした
・これにより、研究者や企業がカスタマイズしやすくなり、AIの民主化が進む
3.高額なクローズドモデルとの競争を加速
・これまで有料サブスクリプションが必要だった最先端モデルと、低コストで自由に使えるDeepSeekのモデルが競争することになり、業界全体の価格設定に影響を与える
特に、V3およびR1モデルは、OpenAIのo1モデルと**推論タスク(数学オリンピック、競技プログラミング)**で同等の性能を発揮することが確認されている。
DeepSeekの手法は、今後のAI開発において新たな基準を打ち立てる可能性が高い。従来の巨額な資金を必要とする開発モデルが見直され、より効率的な手法が普及することで、AIの発展速度がさらに加速することが予想される。
【要点】
DeepSeekがAI開発コストを削減した方法
1. AI開発の一般的なコスト構造
・事前学習(Pretraining)
⇨ 大量のテキストデータを収集・処理
⇨ 高性能GPU(例: Nvidia H100)を使用
⇨ 数千億のパラメータを最適化
・追加の学習ステップ
⇨ 命令調整(Instruction Tuning):人間の指示に適した応答を学習
⇨ 人間のフィードバックによる強化学習(RLHF):適切な回答を選択し、モデルの性能を向上
・開発コストは通常1億ドル(約150億円)以上
2. DeepSeekのコスト削減手法(約600万ドルで開発)
(1) 計算資源の最適化
・低ビット量子化(Low-bit Quantization):少ないビット数で計算精度を維持し、演算コストを削減
・ニューラルネットワークの最適化:モデル構造を改善し、少ない計算資源で高精度な出力を実現
・GPU通信の効率化:データ転送の最適化により、GPU間のオーバーヘッドを削減
(2) 限られたハードウェア環境での開発
・米国の輸出規制によりNvidia H100が使用不可
・代わりにH800 GPUを活用し、計算効率を向上
(3) 推論コストの削減
・実際のAIサービス運用時の計算負荷を低減
・少ないリソースで高速な応答が可能
3. DeepSeekの影響と今後の展望
・AI開発のコスト削減が可能であることを証明
・オープンソース戦略(MITライセンス)により、研究者・企業が自由に活用可能
高額なクローズドモデルとの競争を加速し、業界の価格設定に影響
・V3・R1モデルはOpenAIのo1モデルと同等の性能(数学・競技プログラミングタスクで検証済み)
・効率的な開発手法の普及でAI進化が加速
【引用・参照・底本】
How DeepSeek revolutionized AI’s cost calculus ASIA TIMES 2025.01.30
https://asiatimes.com/2025/01/how-deepseek-revolutionized-ais-cost-calculus/?utm_source=The+Daily+Report&utm_campaign=e812021892-DAILY_30_01_2025&utm_medium=email&utm_term=0_1f8bca137f-e812021892-16242795&mc_cid=e812021892&mc_eid=69a7d1ef3c
DeepSeekは、中国のAIスタートアップとして、大規模言語モデル(LLM)の開発コストに関する従来の認識を覆した。OpenAIのChatGPT、GoogleのGemini、AnthropicのClaudeなどの先端AIモデルは、多言語に対応し流暢な文章を生成することで注目を集めているが、その開発には数十億ドル規模の投資が必要とされてきた。しかし、DeepSeekは、これらの巨額投資に疑問を投げかける存在となった。
AI開発のコスト構造
LLMの開発には、大量のデータと計算資源が必要である。モデルの基盤となるのは、大規模なデータセットを用いた事前学習(pretraining)であり、この過程でモデルは次に来る単語を予測する能力を獲得する。例えば、「相対性理論を発見したのはアルベルト」という文章が入力された場合、モデルは次の単語として「アインシュタイン」を予測する。この事前学習には、大量のインターネットデータや書籍を収集し、GPUを用いた大規模な計算が必要となる。
しかし、事前学習だけでは実用的なAIモデルにはならない。モデルはその後、命令調整(instruction tuning) や人間のフィードバックによる強化学習(reinforcement learning from human feedback, RLHF) といった追加訓練を経ることで、ユーザーの指示に適切に応答し、有害な出力を抑制する能力を獲得する。これらのプロセスでは、人間のアノテーターがモデルの出力を評価し、望ましい応答を選択する。
こうした訓練プロセスのすべてにおいて、高性能GPUの大量使用が不可欠であり、結果としてAI開発コストは1億ドル(約150億円)規模に達することが一般的 である。さらに、モデルの運用時(推論時)にもGPUを使用するため、運用コストも膨大となる。OpenAIは、2024年12月に発表したo1モデルにおいて、推論時の計算量を増やすことで数学や競技プログラミングといった論理的推論能力が向上することを確認しており、推論時のリソース投入が重要視される傾向が強まっている。
DeepSeekのアプローチ
DeepSeekは、この従来のコスト構造に対し、さまざまな最適化技術を活用することで、約600万ドル(約9億円)という低コストで最先端モデル「V3」を開発 した。このコストには、研究開発、試行錯誤、データ収集の費用は含まれていないものの、他の主要AI企業が数十億ドルを投じるのに比べると、圧倒的に低コストである。
このコスト削減は、以下の技術的工夫によるものである。
・数値表現の最適化:モデルの重みを表すビット数を削減することで、計算資源を効率化。
・ニューラルネットワークの構造改良:従来のLLMの設計を見直し、計算負荷を軽減。
・GPU間の通信コスト削減:分散計算時のデータ転送の最適化により、処理速度を向上。
また、DeepSeekは、米国の対中輸出規制により、NVIDIAの最先端GPU「H100」の使用が制限されていたため、性能を制限された「H800」を用いて訓練を行った。この制約下での開発が、さらなる効率化を促したと考えられる。
さらに、DeepSeekは推論コストの削減にも成功し、OpenAIのo1モデルに匹敵する論理的推論能力を持つ「R1」モデルを開発 した。
AI開発の新たな潮流
DeepSeekは、開発したモデルの重み(weights)をオープンソース として公開し、MITライセンス のもとで提供している。これにより、個人・学術・商業利用を問わず、誰でもモデルをダウンロードして改良やカスタマイズが可能である。従来、大規模AIモデルは高額なサブスクリプションが必要であったが、DeepSeekの登場により、低コストで高性能なAIの普及が進む可能性がある。
この新たな動向により、AI研究コミュニティや金融市場における認識が変化しつつあり、AI開発のコスト構造に対する再評価が進むことが予想される。
【詳細】
DeepSeekがAI開発コストの常識を覆した方法
中国のAIスタートアップであるDeepSeekは、大規模言語モデル(LLM)の開発コストに関する従来の認識を覆し、AI業界に衝撃を与えた。これまで、OpenAIのChatGPT、GoogleのGemini、AnthropicのClaudeなどの最先端AIモデルは、莫大な開発費用を投じて構築されるものと考えられてきた。しかし、DeepSeekは、限られた予算で競争力のあるモデルを開発し、既存の大手企業が前提としていたコスト構造に疑問を投げかけた。
DeepSeekの成功の鍵は、画期的な技術革新ではなく、計算資源の効率的な活用にある。AIモデルの訓練には膨大なコンピュータリソースが必要とされるが、DeepSeekは従来の手法とは異なるアプローチでコストを大幅に削減した。
AI開発のコスト構造
1. 大規模言語モデルの開発プロセス
最先端のAIシステムは、大規模言語モデル(LLM)の訓練から始まる。LLMの基本的な機能は、前の単語から次の単語を予測することである。例えば、「相対性理論を発見したのはアルバート〇〇」という文があった場合、LLMは「アインシュタイン」と予測する。これを実現するため、モデルは「事前学習(pretraining)」を行い、大量のデータを学習する。
事前学習の主な要素
・データ収集:Webサイトのクロールや書籍のスキャンを通じて大量のテキストデータを収集
・GPUの活用:ニューラルネットワークの演算には、線形代数が多用されるため、高性能なグラフィックス処理ユニット(GPU)が計算に使用される
・パラメータ最適化:数千億ものパラメータ(重み)を調整し、言語予測能力を向上
ただし、事前学習を終えたモデルは、そのままでは消費者向けの製品にはならない。なぜなら、モデルが人間の指示を適切に理解せず、時には不適切な内容を出力する可能性があるためだ。そのため、追加の学習ステップが必要となる。
2. 追加の学習ステップ
・命令調整(Instruction Tuning)
⇨ モデルに人間の指示と期待される出力の例を学習させ、より適切な応答を生成できるようにする
・人間のフィードバックによる強化学習(RLHF: Reinforcement Learning from Human Feedback)
⇨ モデルが出力した複数の応答を人間のアノテーターが評価し、好ましい応答を選択することで、モデルの挙動を改善
これらのプロセスにはデータ収集、人材採用、GPU計算リソースなどの莫大なコストがかかる。最先端モデルの開発費は通常1億ドル(約150億円)以上に達するとされる。
DeepSeekのコスト削減手法
DeepSeekは、こうした高額な開発コストの前提を覆し、わずか600万ドル(約9億円)で競争力のあるモデルを開発した。この驚異的なコスト削減の要因は、複数の技術的最適化にある。
1. 計算資源の最適化
・DeepSeekは、従来の大手AI企業とは異なる手法でモデルの計算コストを削減した。
・低ビット量子化(Low-bit Quantization)
モデルのパラメータ(重み)をより少ないビット数で表現することで、計算負荷を軽減
・ニューラルネットワークアーキテクチャの改善
⇨ モデルの構造を効率化し、同じ計算資源でもより優れた性能を発揮
・GPU間の通信コスト削減
⇨ データの転送を最適化し、GPU同士の通信オーバーヘッドを削減
2. 限られたハードウェア環境での開発
DeepSeekは、米国の対中輸出規制により、NvidiaのH100のような最先端GPUを使用できなかった。そのため、制約のあるH800 GPUを用いてモデルを訓練した。これにより、低コストで高性能なAIの開発を強いられ、その結果として革新的な手法が生まれた。
3. 推論コストの削減
モデルを訓練するだけでなく、実際に運用する際のコスト(推論時間の計算負荷)も最適化された。これは、AIサービスの収益性に大きく影響する要素である。DeepSeekは、推論プロセスを効率化し、低コストでの運用を可能にした。
DeepSeekの影響と今後の展望
DeepSeekの登場により、AI開発におけるコスト構造の根本的な見直しが迫られている。特に、同社が以下の点で業界に大きな影響を与えている。
1.AI開発のコスト削減が可能であることを実証
・これまで巨額の投資が必要とされていたが、技術的工夫によってコストを抑えられることが示された
2.オープンソース戦略の採用
・V3およびR1モデルの重みを公開し、MITライセンスのもとで自由に使用可能とした
・これにより、研究者や企業がカスタマイズしやすくなり、AIの民主化が進む
3.高額なクローズドモデルとの競争を加速
・これまで有料サブスクリプションが必要だった最先端モデルと、低コストで自由に使えるDeepSeekのモデルが競争することになり、業界全体の価格設定に影響を与える
特に、V3およびR1モデルは、OpenAIのo1モデルと**推論タスク(数学オリンピック、競技プログラミング)**で同等の性能を発揮することが確認されている。
DeepSeekの手法は、今後のAI開発において新たな基準を打ち立てる可能性が高い。従来の巨額な資金を必要とする開発モデルが見直され、より効率的な手法が普及することで、AIの発展速度がさらに加速することが予想される。
【要点】
DeepSeekがAI開発コストを削減した方法
1. AI開発の一般的なコスト構造
・事前学習(Pretraining)
⇨ 大量のテキストデータを収集・処理
⇨ 高性能GPU(例: Nvidia H100)を使用
⇨ 数千億のパラメータを最適化
・追加の学習ステップ
⇨ 命令調整(Instruction Tuning):人間の指示に適した応答を学習
⇨ 人間のフィードバックによる強化学習(RLHF):適切な回答を選択し、モデルの性能を向上
・開発コストは通常1億ドル(約150億円)以上
2. DeepSeekのコスト削減手法(約600万ドルで開発)
(1) 計算資源の最適化
・低ビット量子化(Low-bit Quantization):少ないビット数で計算精度を維持し、演算コストを削減
・ニューラルネットワークの最適化:モデル構造を改善し、少ない計算資源で高精度な出力を実現
・GPU通信の効率化:データ転送の最適化により、GPU間のオーバーヘッドを削減
(2) 限られたハードウェア環境での開発
・米国の輸出規制によりNvidia H100が使用不可
・代わりにH800 GPUを活用し、計算効率を向上
(3) 推論コストの削減
・実際のAIサービス運用時の計算負荷を低減
・少ないリソースで高速な応答が可能
3. DeepSeekの影響と今後の展望
・AI開発のコスト削減が可能であることを証明
・オープンソース戦略(MITライセンス)により、研究者・企業が自由に活用可能
高額なクローズドモデルとの競争を加速し、業界の価格設定に影響
・V3・R1モデルはOpenAIのo1モデルと同等の性能(数学・競技プログラミングタスクで検証済み)
・効率的な開発手法の普及でAI進化が加速
【引用・参照・底本】
How DeepSeek revolutionized AI’s cost calculus ASIA TIMES 2025.01.30
https://asiatimes.com/2025/01/how-deepseek-revolutionized-ais-cost-calculus/?utm_source=The+Daily+Report&utm_campaign=e812021892-DAILY_30_01_2025&utm_medium=email&utm_term=0_1f8bca137f-e812021892-16242795&mc_cid=e812021892&mc_eid=69a7d1ef3c