はじめに
ここ数日 DeepSeek とても話題になっていると思います。
個人的には日経クロステックの DeepSeekの衝撃 の記事がとても分かりやすかったです。
DeepSeekの概要からセキュリティの懸念点、モデル V3 や R1 の技術的な特徴まで広く網羅されている印象を受けました。
この記事では、技術内容ではなく、arxiv に登録されている DeepSeek 社の論文をまとめています。
公開日や簡単な概要(ChatGPT 要約)を載せています。
V3, R1 は要点をまとめたいなと思っています。
DeepSeek 関連論文
- DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
- 公開日:2024/1/5
- 内容
- スケーリング法則の研究: 論文は、オープンソースの大規模言語モデル(LLM)のスケーリング法則に関する研究を行い、7Bおよび67Bの2つの一般的な構成でのスケーリングを支援する独自の発見を提示しています。
- DeepSeek LLMの導入: 長期的視点でオープンソースの言語モデルを進化させるプロジェクトとしてDeepSeek LLMを紹介しています。
- データセットの開発: 現在2兆トークンを含むデータセットを開発し、継続的に拡大しています。
- モデルの微調整: DeepSeek LLMベースモデルに対して、監督付き微調整(SFT)および直接好み最適化(DPO)を実施し、DeepSeek Chatモデルを作成しました。
- 評価結果: DeepSeek LLM 67Bは、コード、数学、推論の分野でLLaMA-2 70Bを上回り、GPT-3.5よりも優れた性能を示しています。
- DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
- 公開日:2024/1/11
- 内容
- 研究目的: 大規模言語モデルの計算コストを管理するために、Mixture-of-Experts (MoE)アーキテクチャの専門化を目指し、DeepSeekMoEを提案。
- 方法: 専門家を細かく分割し、共通知識を持つ専門家を隔離することで、より柔軟で効率的な専門家の組み合わせを実現。
- 結果: DeepSeekMoE 2Bは、GShard 2.9Bと同等の性能を持ち、計算コストを大幅に削減。16Bモデルでは、LLaMA2 7Bと同等の性能を40%の計算コストで達成。
- 結論: DeepSeekMoEは、従来のMoEアーキテクチャに比べて専門化が進み、計算効率が向上。大規模モデルでも優れた性能を発揮し、計算コストを削減できる。
- DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence
- 公開日:2024年1月26日
- 内容
- DeepSeek-Coderシリーズの導入: 論文は、1.3Bから33BまでのサイズのオープンソースコードモデルであるDeepSeek-Coderシリーズを紹介しています。これらのモデルは、2兆トークンの高品質なプロジェクトレベルのコードコーパスでトレーニングされています。
- Fill-In-The-Blankタスクの使用: 16Kのウィンドウを使用してコード生成とインフィリングを強化するために、Fill-In-The-Blankタスクを採用しています。
- 評価結果: DeepSeek-Coderは、複数のベンチマークでオープンソースのコードモデルの中で最先端の性能を達成し、CodexやGPT-3.5などの既存のクローズドソースモデルを上回る性能を示しています。
- ライセンスの許容性: DeepSeek-Coderモデルは、研究および商業利用の両方に対して許容的なライセンスの下で提供されています。
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
- 公開日:2024年2月5日
- 内容
- DeepSeekMath 7Bの導入: DeepSeek-Coder-Base-v1.5 7Bを基に、1200億の数学関連トークンを使用して再トレーニングされたモデルであるDeepSeekMath 7Bを紹介しています。
- データセットの構築: Common Crawlから収集したデータを使用し、fastTextベースの分類器を用いて高品質な数学トークンを選別しました。
- 新しい最適化手法の導入: Proximal Policy Optimization (PPO)の変種であるGroup Relative Policy Optimization (GRPO)を導入し、数学的推論能力を向上させると同時にPPOのメモリ使用量を最適化しました。
- 評価結果: DeepSeekMath 7Bは、競技レベルのMATHベンチマークで51.7%のスコアを達成し、GPT-4やGemini-Ultraに匹敵する性能を示しています。また、64サンプルの自己一貫性評価では60.9%を達成しました。
- DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- 公開日:2024年5月7日
- 内容
- DeepSeek-V2の導入: DeepSeek-V2は、2360億の総パラメータを持つ強力なエキスパート混合(MoE)言語モデルであり、各トークンに対して21Bのパラメータが活性化されます。128Kトークンのコンテキスト長をサポートしています。
- 革新的なアーキテクチャ: Multi-head Latent Attention (MLA)とDeepSeekMoEを採用し、効率的な推論と経済的なトレーニングを実現しています。MLAはKey-Valueキャッシュを潜在ベクトルに圧縮し、DeepSeekMoEはスパース計算を通じて強力なモデルを経済的にトレーニングします。
- トレーニングと評価: 8.1兆トークンの高品質なマルチソースコーパスで事前トレーニングを行い、監督付き微調整(SFT)と強化学習(RL)を実施しました。評価結果では、21Bの活性化パラメータのみでトップクラスの性能を達成しています。
- 効率性の向上: DeepSeek 67Bと比較して、トレーニングコストを42.5%削減し、KVキャッシュを93.3%削減し、最大生成スループットを5.76倍に向上させました。
- DeepSeek-V3 Technical Report
- 公開日:2024年12月27日
- 内容
- DeepSeek-V3の導入: DeepSeek-V3は、6710億の総パラメータを持つ強力なエキスパート混合(MoE)言語モデルであり、各トークンに対して37Bのパラメータが活性化されます。
- 革新的なアーキテクチャ: Multi-head Latent Attention (MLA)とDeepSeekMoEを採用し、効率的な推論と経済的なトレーニングを実現しています。MLAはKey-Valueキャッシュを潜在ベクトルに圧縮し、DeepSeekMoEはスパース計算を通じて強力なモデルを経済的にトレーニングします。
- 新しい最適化手法の導入: 補助損失なしの負荷分散戦略とマルチトークン予測トレーニング目標を設定し、性能を向上させました。
- トレーニングと評価: 14.8兆トークンの高品質なデータで事前トレーニングを行い、監督付き微調整(SFT)と強化学習(RL)を実施しました。評価結果では、DeepSeek-V3は他のオープンソースモデルを上回り、クローズドソースモデルに匹敵する性能を示しています。
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- 公開日:2025年1月22日
- 内容
- DeepSeek-R1の導入: 論文は、強化学習(RL)を用いて推論能力を向上させた言語モデルDeepSeek-R1を紹介しています。DeepSeek-R1-ZeroというベースモデルをRLでトレーニングし、その後マルチステージトレーニングとコールドスタートデータを用いてDeepSeek-R1を開発しました。
- 強化学習の手法: DeepSeek-R1-Zeroは、監督付き微調整(SFT)なしで大規模な強化学習を行い、優れた推論能力を示しました。DeepSeek-R1は、さらに性能を向上させるために、コールドスタートと推論指向の強化学習を組み合わせています。
- 評価結果: DeepSeek-R1は、OpenAI-o1-1217と同等の推論タスク性能を達成し、複数のベンチマークで優れた結果を示しています。また、DeepSeek-R1から蒸留された6つの密モデル(1.5B、7B、8B、14B、32B、70B)も公開されています。
- Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
- 公開日:2025年1月29日
- 内容
- Janus-Proの導入: Janus-Proは、以前のJanusモデルの改良版であり、最適化されたトレーニング戦略、拡張されたトレーニングデータ、およびより大規模なモデルサイズへのスケーリングを取り入れています。
- マルチモーダル理解と生成の向上: Janus-Proは、マルチモーダル理解とテキストから画像への指示追従能力の両方で大幅な進歩を遂げています。また、テキストから画像生成の安定性も向上しています。
- 評価結果: Janus-Proは、複数のマルチモーダル理解ベンチマークおよび指示追従ベンチマークで優れた性能を示し、既存の最先端モデルを上回る結果を達成しています。
【番外編】MoE のサーベイ論文
- A Survey on Mixture of Experts
- 公開日:2024年6月26日
- 内容
- エキスパート混合(MoE)の構造: 論文は、MoEレイヤーの構造を簡単に紹介し、新しい分類法を提案しています。
- MoEモデルの設計: 様々なMoEモデルのアルゴリズム的およびシステム的な設計を概観し、オープンソースの実装、ハイパーパラメータ設定、実証評価のコレクションを提供しています。
- MoEの応用: MoEの実際の応用例を多面的に説明し、将来の研究方向を示唆しています。
コメント