国内のビッグモデル界は熾烈な戦いを繰り広げている。 OpenAI は目覚めて、世界は変わったと叫んだのでしょうか? 1月20日、DeepSeekは予告なしにDeepSeek-R1モデルをリリースしました。 2時間も経たないうちに、新しいKimi k1.5モデルがリリースされました。モデルに加えて、詳細な技術トレーニングレポートも含まれています。 2 つの推論モデルは OpenAI o1 に対して完全にベンチマークされており、複数のベンチマーク テストで o1 と同等かそれ以上の良好な結果を達成しています。 DeepSeek-R1 テキスト推論モデルはオープンソースであり、工場出荷時に市販されています。 Kimi k1.5 はテキストと視覚の両方の推論をサポートし、すべての指標が最大化されており、o1 レベルのフルバージョンを達成した最初のマルチモーダル モデルになります。 中国の大型模型産業の「双子星」が一夜にして海外に流出し、シリコンバレーに大きな衝撃を与えた。ソーシャル プラットフォーム X 上の多くの業界リーダーや学術リーダーが、DeepSeek-R1 と Kimi k1.5 に関する投稿を転送したり、「いいね」したりしました。 NvidiaのAI科学者ジム・ファン氏は、すぐに両者の類似点と相違点をまとめた記事を投稿し、公開された論文を「ブロックバスター」レベルと評価した。 (写真提供:X)(写真提供:X)多くのAI技術専門家がKimi k1.5に対して肯定的なコメントを寄せています。 「またひとつ重量級のモデルが誕生した。ハイライトはテキストと視覚のマルチモーダル推論機能で、マルチモーダルAIの分野における大きな進歩だ」と評する声もある。これを OpenAI o1 と比較し、OpenAI が祭壇から引きずり降ろされたのではないかと考える人もいます。 「OpenAI o1 を上回るモデルが増えている」? (写真提供:X)中国からの「挑戦者」を前に、歯磨き粉を絞り出すように未来を発表してきたOpenAIのCEO、サム・アルトマン氏は、自身の個人アカウントにメッセージを投稿し、AGIに関するメディアの誇大宣伝に不満を述べ、ネットユーザーに対し期待を下げるよう求めた。「AGIは来月には配備されないし、AGIは構築されないだろう」予想外に、これはネットユーザーを怒らせ、「泥棒が『泥棒を止めろ』と叫んでいる」と揶揄された。 AIの世界ではいくつかの変化が起こっています。 DeepSeek-R1 と Kimik1.5 は強化学習 (RL) のアイデアの実現可能性を検証し、OpenAI の絶対的なリーダーシップの地位に挑戦し始めました。 同時に、中国の現地モデルが不可能に挑戦し、追い越しを達成したことは、国内の大型モデル業界への精神的な励ましにもなっている。今後も中国のAI企業には、シリコンバレーの技術独占を打ち破り、中国独自の技術ルートを開発するチャンスが残されているだろう。 本物のフルブラッドO1がここにありますKimiは、昨年11月に数学モデル「k0-math」、12月に視覚思考モデル「k1」をリリースした後、3か月連続でアップグレードし、Kシリーズ強化学習モデル「Kimi k1.5」をリリースしました。 Kimi Kシリーズの思考モデルロードマップによれば、K0からKNへの進化はモードとフィールドの包括的な拡張です。 k0 は数学に重点を置いたテキストベースのモデルです。 k1 は視覚状態を追加し、OpenAI 以外では初の o1 のマルチモーダル バージョンとなり、その分野は物理学と化学にまで拡張されました。アップグレードされた k1.5 は依然としてマルチモーダルであり、これも Kimi モデルの優れた機能の 1 つです。分野としては、数学、物理学、化学から、コードや一般性など、より一般的に使用される幅広い分野へとアップグレードされました。 ベンチマークテストの結果から判断すると、k1.5 マルチモーダル思考モデルは、SOTA (最先端) レベルのマルチモーダル推論と一般的な推論機能を実現します。 国内外でo1レベルに到達したと宣伝されているモデルは数多くありますが、データから判断すると、現在、KimiとDeepSeekがリリースしたモデルだけが真のo1の本格版であり、他社がリリースしたモデルはまだo1-Previewレベルであり、その差は30%~40%です。 OpenAI o1をベンチマークとすると、数学レベルのスコアは74.4ポイント、プログラミングレベルのスコアは67.2ポイントで、マルチモーダル性をサポートしています。この基準によれば、中国で発表された推論モデルは、実際の o1 レベルからはまだ遠いと言えます。 DeepSeek モデルと Kimi モデルはどちらも数学的レベルで OpenAI を上回っており、プログラミング レベルは o1 レベルに近いです。しかし、DeepSeekと比較すると、Kimiはマルチモーダル視覚推論をサポートしていますが、DeepSeekはテキストしか認識できず、画像認識はサポートしていません。 具体的には、ショートCoT(ショートシンキング)モードでは、Kimi k1.5 は他のすべてのモデルを上回ります。その数学、コード、視覚的マルチモーダル、および一般的な機能は、グローバルな短期思考 SOTA モデル GPT-4o および Claude 3.5 Sonnet のレベルをはるかに上回り、550% の差をつけています。 ロングCoT(ロング思考)モードでは、Kimi k1.5の数学、コード、マルチモーダル推論機能も、ロング思考SOTAモデルOpenAI o1の公式バージョンのレベルに達します。 2 つの数学能力テスト (AIME 2024 および MATH-500) で o1 に勝ち、プログラミング能力テスト (Codeforces) では o1 と同点になりました。 OpenAI以外の企業がo1正式版のマルチモーダル推論性能を達成したのは、世界初のこととなる。 キミk1.5トレーニングの秘密国内外の人々が彼を応援しており、彼の強さのレベルは試練に耐えた。キミはいかにして「最強の頭脳」になったのか? 役立つ情報が満載の技術レポートを読んだ後、それをトレーニングのアイデア、トレーニング計画、トレーニング フレームワークにまとめることができます。その中には、効率的な推論と最適化のアイデアが貫かれています。 データ量の制限により、「努力すれば奇跡が起こる」という事前トレーニング方法は、実際のトレーニングで何度も障害に遭遇してきました。 OpenAI o1 を皮切りに、業界ではトレーニングのパラダイムを変え、強化学習にさらに力を入れ始めました。 これまでの考え方は「直接的なフィーディング」として理解できます。つまり、人間が自発的にビッグモデルにデータを「フィード」し、ビッグモデルの作業を監督し、ビッグモデルの「トレーニング」プロセスに介入する必要があります。しかし、強化学習の中心的な考え方は、人間の介入をあまり必要とせずに、大規模なモデルが自ら学習し、進化できるようにすることです。 今回、キミの新しいモデルのアップデートでは強化学習の道が採用されました。トレーニングプロセス中に、モンテカルロツリー検索、価値関数、プロセス報酬モデルに依存せずにモデルが優れたパフォーマンスを達成できることが証明されました。 強化学習のアイデアは「Long2Short」トレーニング プログラムに集中しており、これは Kimi の技術レポートのハイライトでもあります。公式紹介によると、具体的なアプローチは、まずより大きなコンテキストウィンドウを使用してモデルが長連鎖思考を学習できるようにし、次に「長いモデル」の推論経験を「短いモデル」に転送して 2 つをマージし、最後に「短いモデル」で強化学習の微調整を実行することです。 注: 左上隅に近いほど良いこのアプローチの利点は、トークンの使用率とトレーニング効率を向上させ、モデルのパフォーマンスと効率の間の最適なソリューションを見つけることができることです。 業界の観点から見ると、キミの「Long2Short」トレーニング プログラムも「モデル蒸留」の現れです。ここで、「長いモデル」は教師であり、「短いモデル」は生徒です。教師は生徒に知識を伝え、大きなモデルを使用して小さなモデルのパフォーマンスを向上させます。もちろん、キミは効率を向上させるためにいくつかの方法も採用しました。たとえば、「ロングモデル」によって生成された複数のサンプルを使用し、最短の正のソリューションを正のサンプルとして、生成時間が最も長いものを負のサンプルとして、コントロールグループのトレーニングデータセットを形成しました。 強化学習トレーニングに適応するために、Kimi k1.5 は、トレーニング システム全体をサポートする基盤として、特別な強化学習フレームワークを特別に設計しました。 k1.5 モデルは最大 128k のコンテキスト長をサポートします。モデルが毎回完全な思考連鎖の生成と推論プロセスを完了する必要がある場合、コンピューティング リソース、メモリ ストレージ、およびトレーニングの安定性に影響します。そこで、キミは、生成されたリンクを一度に完了するのではなく、複数のステップに分割する「部分ロールアウト」テクノロジーを導入しました。 基盤となる AI インフラを構築するというアイデアは、『Dark Side of the Moon』の長いテキストの蓄積を反映しています。リソースを最大限に活用し、効率を達成する方法が常にその取り組みの焦点となってきました。この考え方は、思考連鎖の生成と推論にまで拡張されます。 中国の「ツインスター」は OpenAI 神話を終わらせるか?Kimi と DeepSeek から、将来のモデル トレーニングに関するいくつかの傾向がわかるかもしれません。強化学習のトレーニングとリソース割り当てへの投資が増加するでしょう。 OpenAI o1 は、次の段階への大規模モデルの参入の新たな閾値となり、技術とリソースに追いつけないことは遅れをとることを意味します。文脈に沿った長文テキスト技術は特に重要であり、長い思考の連鎖を生成し推論するための基礎として役立ちます。スケーリング法則は完全に失敗したわけではなく、長いコンテキストなどの一部の領域ではまだ存在し、可能性を秘めています。 中国の「双星」がOpenAIのブラックボックスを公開した。以前、OpenAI は、大規模モデルのトレーニングの 4 つの段階 (事前トレーニング、教師あり微調整、報酬モデリング、強化学習) を定義しました。現在、このパラダイムは崩れ、Kimi と DeepSeek はどちらも、特定のステップをスキップして簡素化することで、モデルのトレーニング効率とパフォーマンスを向上できることを実証しました。 Kimi と DeepSeek の効果は 2 つあります。海外に進出するにあたっては、シリコンバレーを中心とする海外の AI 界に対して、継続的な注力によって奇跡が生み出されること、そして中国が依然として技術の最前線で競争する能力を有していることを証明しなければなりません。 OpenAIは、多くのリソースを投資し、優秀な人材の密度も高いにもかかわらず、多くの面で中国企業に追い抜かれた理由を振り返るべきだ。これにより、世界の競争環境に微妙な変化がもたらされる可能性があります。 OpenAI の先行者利益はいつまで続くのだろうか、と疑問に思わざるを得ません。同社は、同じ国にAnthropicという宿敵を抱え、ToBの受注を奪われているだけでなく、中国のAI企業にも警戒しなければならない。 国内では新たなパターンが変化しつつあるようだ。 DeepSeek は、オープンソースであり、OpenAI のパフォーマンスを上回るモデルであることから、これまでにない注目を集めています。中には、これを「AI の六小虎」の仲間に加える人も現れ始めています。 過去と比べると、現段階のキミはk0からknまでの技術的なルートがより明確になっています。 「Kimiという1つの製品に注力する」としているが、Kimiが担うものは、通常のAIアプリケーションをはるかに超えている。 「Kimi k1.5」はDark Side of the Moonが次のステージへの切符を獲得するのに貢献し、将来の競争においてもさらに主導権を握ることとなった。一定のリードを確保した上で、2025年に向けた新たな目標は、いかにしてより良い生活を送るかということだ。 新たな人事異動が静かに始まった。誰が最初に遅れをとり、誰が最初に突破するのか? |
<<: 蘭富金融網が2024年新浪金融ヘッドライン年間賞を受賞
>>: 新亜ケーブルのIPO: 成長の弱さ、研究開発投資の低さ、そして単一の支配株主による欠点
ViMchは、安価なVPSサーバー、専用サーバーなどを提供し、ユーザーから深く愛されている優秀な海外...
運営管理者运营管理RideX は、配車サービスとライドシェアサービスを提供する交通ネットワーク会社 ...
電子商取引サイトの主なプロモーション方法(よく使われる5つのプロモーション方法)電子商取引の発展はま...
2月の自動車販売ランキング! (セダン、SUV、MPV)先ごろ、月間自動車販売ランキングリストが正...
仲介業向けユーザー操作ガイド: 顧客を見つけます。すべての顧客は競合製品に関連しています。仲介業の企...
1月8日、年金コンセプトのA株銘柄が異常に上昇し、賽為智能、欧神電機、大湖ホールディングス、創新医療...
IPマーケティングの6つの一般的な方法消費のグレードアップの時代において、製品に対するユーザーの要...
「運営」レストランの月次運営報告書の作成と分析外食産業は敷居が低いように思えますが、実際は競争が非...
DNS(ドメインネームシステム)は、インターネットに欠かせないインフラストラクチャの 1 つです。ド...
Tシャツの起源とファッション衣類への発展。オンラインでカスタムTシャツカスタマイズされた純綿のポロ...
介護保険をどう普及させるか?代表者は「すべての労働者は料金を支払うべきだ」と提案介護保険(以下、「介...
現在、ほとんどの Web サイトでは有料の SSL 証明書が使用されています。信頼できる SSL 証...
Amazon の VAT 統合サービスとは何ですか? Amazon VAT 統合サービスは、Amaz...
ケース分析: Xingfu Cake はグローバルトラフィックをどのように運用していますか? Xin...
Apche と Nginx のどちらが優れていますか? ApcheとNginxは現在人気のオープンソ...