どの AI オープンブック数学モデルが最適ですか?

どの AI オープンブック数学モデルが最適ですか?

文:王志遠 | ID: Z201440

Kimi は最近、k0-math という名前の数学バージョンをひっそりとリリースしました。

このモデルについて私たちが知る前から、OpenAI o1シリーズをベンチマークしたという外部情報はすでにたくさんあり、MATH、中学入試、大学入試、大学院入試の4つの数学ベンチマークテストのデータも公開されていました。

結論としては、Kimi Math バージョンは OpenAI o1-mini および o1-preview モデルよりも優れたスコアを獲得しました。

確かに、こうした評価にはさまざまな意見があるでしょう。 Kimi は幾何学、代数、計算精度の処理に優れており、複数のソリューションを提供できると考える人もいます。すぐに解決できない問題に遭遇した場合でも、「白紙に戻って」再分析し、最終的に正しい答えを出します。

しかし、国内の大型モデルが数学バージョンを発売した際に、その真のレベルも露呈したと指摘する声もある。これまで、数学的能力は皆の注目の的ではありませんでしたが、キミがこの新しいモデルを発表したことで、数学がビッグモデルの根底にある能力を測定する核心であることが徐々に認識されるようになりました。

この場合、大きなモデルボリュームの数学に優れているのはどちらでしょうか?本から得られる知識は常に浅いものであり、本当に理解するには実践しなければなりません。そのため、チームメンバーと一緒に一度に 8 つのモデルをテストしました。

01

モデルには、主流の Kimi、ChatGPT (o1 および o1-preview)、Doubao、Tongyi Qianwen 2.5、iFlytek Spark、Quark、Zhihu Direct Answer が含まれます。

問題は、これらのモデルの数学的能力をどのようにテストするかということです。ちょうど 2 日前、私が小さな緑の本を投稿した後、友人が質問を勧めるメッセージを残しました。彼はこう言いました。「この質問をしてみて下さい。」

正方形 ABCD を B を中心に反時計回りに任意の角度回転させると、正方形BPQR が得られます。 QD と CP を結び、E で QD と交差します。CE =5V2、ED =4 なので、辺 AB の長さを求めます。

正直に言うと、私はプロの数学ブロガーではないので、評価の観点からしかこのプロセスを復元できません。まず、一つ明確にしておきたいのは、ここに挙げたモデルの中には、数学の問題を解けるとは宣伝されていないものもあるかもしれないが、それは問題ないということだ。テストすると、予期しないパフォーマンスが明らかになる場合があります。

私は Kimi Math にこの質問を投げかけ、次のような結論を得ました。

それは正確ですか?

正直に言うと、分かりません。結局、私はすでにこの幾何学の知識をすべて先生に返していたのです。とんでもない答えを避けるために、私はキミに質問しました。「この問題はどのカテゴリーに該当し、どのくらい難しいですか?」

それは私にこう言いました: これは正方形の回転、ピタゴラスの定理、三角形を含む問題です。これは主に中学校や高校の幾何学の授業で使われており、より複雑な幾何学的変換においても繰り返し議論されます。

さて、今は自分の数学のスキルについては心配せずに、ビーンバッグのテストを続けましょう。読みやすさを考慮して、スクリーンショットはここには含まれていません。 Doubaoの計算速度は非常に速く、結論はKimiの数学バージョンとまったく同じです。 2 つのモデルは比較的一貫した答えを持っているようです。

Tongyi Qianwen 2.5 モデルはいかがでしょうか?最初の答えは√33でしたが、もう一度テストすると√66になりました。この結果に私は少し困惑しました。

物事は常に英雄の旅のパターンに従って展開します。 iFlytek Spark をテストしたところ、その計算速度は他のいくつかのモデルよりも大幅に遅いことがわかりました。

さらにひどいのは、正方形 ABCD の辺の長さは 9 であると結論付けているのに、私が尋ねたのは AB の辺の長さについてだったことです。そこで私はこの間違いを指摘し、再計算を依頼したところ、初めて『同義前文』に似た答えが返ってきました。

次はクォークテストです。

3 つの異なる計算プロセスが提供されていますが、結論は一貫していません。疑問を抱きながら、もう一度Zhihu Direct Answerを試してみたところ、結果はさらに異なっていました。答えはさまざまで、少し混乱しました。

疑問を抱きながら、私は ChatGPT 4o に頼りました。

このモデルはとても興味深いです。最初は問題がほぼ解決しましたが、突然削除されました。さらに興味深いのは、解いた後にそれを削除し、その後、まるで自身の解を「反映」しているかのように再計算していることです。結局、その答えはキミの数学的バージョンと一致した。

ChatGPT o1-preview モデルに切り替えると、回答は Tongyi Qianwen や iFlytek Spark の回答と似ています。

8 つのモデルをテストした結果、Doubao、Kimi、ChatGPT 4o の計算方法と答えは同じでした。 Tongyi Qianwen、iFlytek Spark、ChatGPT o1-preview はそれぞれ異なる回答をしました。 Quark と Zhihu Direct Answer は異なる結果を示しました。 ‍

02

よく言われる格言があります。「問題を解決するのに 1 時間あるとしたら、55 分はその問題について考え、さらに 5 分は解決策について考えます。」

これがアインシュタインの言葉であるかどうかは証明できませんが、少なくとも考えることの方が答えよりも大切だということを教えてくれます。問題が定義されると、答えは簡単に解決できます。

そこで、私たちは逆のことをして、8 つの大きなモデルにもう一度問題を与え、エラーを修正するように依頼しました。

まず、ChatGPT4oとChatGPT o1-previewを比較してみましょう。予想通り、同じ大規模モデルで言語と数学をテストすると、その真の能力が明らかになります。

ChatGPT4o の論理は非常に明確で、彼の答えは非常に率直です。それはこう言った。

まず、回転角度が不明です。たとえば、「点 B を中心に任意の角度で反時計回りに回転する」とありますが、この角度は何でしょうか?明確にする必要があります。第二に、既知の条件と幾何学的関係が一致しないため、計算が困難になります。

3 番目に、最初の 2 つの問題が存在するため、AB 角度を見つけることは非常に柔軟になり、結果を変更するのは簡単です。

ChatGPT 0.1-preview は、この質問に少し異なる答えをします。まず分析し、整理してから完全な回答を出します。内容は ChatGPT4o と一致していますが、アイデアはより包括的です。

キミはどこですか?パフォーマンスはどうですか?

中国人の理解がより深まります。数学の問題を解く能力は長い間失われてきましたが、解答の背後にある考え方は理解できます。 3 つの主要な問題を分析し、最終的に誤解を避けるために特定の角度 (90° など) を設定するか、幾何学情報を補足することを提案しました。全体的に、キミの答えはシンプルで明確でした。

Doubao の回答は細部にまで注意を払ったものでした。回転角度があいまいであったり、同値関係の手がかりがなかったりする問題点を明確に指摘し、「点 B を中心に反時計回りに任意の角度で回転する」を「45° 回転する」に変更したり、三角形の面積比などの条件を追加したりするなど、具体的な修正提案を行っています。

その答えをどのように評価しますか?

キミは明確に構成されており、いくつかのポイントを列挙するだけです。一方、豆宝は項目をさらに一歩拡張し、より豊富なコンテンツを備えています。

Tongyi Qianwen 2.5 のパフォーマンスは多少矛盾しています。最初は質問に論理的な誤りはないと述べていますが、その後、条件文の CE と ED の長さが回転角度と一致していないことを指摘しています。この矛盾は私にとって少し混乱を招きます。

iFlytek Spark モデルについてお話しましょう。エラー訂正のパフォーマンスは平均的で、解決策のアイデアを直接復元しますが、問題のトラブルシューティングはほとんど行われません。プロンプトワードを調整しても結果は同じままであり、他のモデルのパフォーマンスとは大きく異なります。

Quark の場合、エクスペリエンスは次のようになります。Web バージョンには、質問の検索と、問題を解決するために画像をアップロードするという 2 つの機能しかありません。他のインテリジェント エージェントとは異なり、質問を直接送信して、問題の解決に役立つプロンプトを出すことはできません。

プロセスが不足すると、インタラクティブ性が制限されます。フォームを変更して、それをコンピューターに写真で撮ることしかできません。しかし、問題解決能力は非常に優れています。欠落している条件に基づいて複数の回答を生成し、対応する問題解決のアイデアを復元できます。

知虎知達は実に驚くべきものだ。問題解決機能は謳っていませんが、問題を解決するだけでなくエラーを修正することもできます。

答えの一部は検索に依存し、他の部分は生成を通じて完成されます。質問の曖昧な部分を直接指摘し、修正案を追加することもできます。しかし、その回答は Kimi や Doubao ほど明確で整理されておらず、トレーニング データが不十分なことが原因である可能性があります。

8 つのモデルのうち、全体的なエラー修正後、ChatGPT 4.o と Kimi は明確な回答を示し、同じレベルになりました。 ChatGPT o1-preview と Doubao には、より豊富な詳細と拡張性があります。

Tongyi Qianwen 2.5 のパフォーマンスは不明瞭で、iFlytek Spark はエラー修正の改善が必要であり、Quark は問題解決能力は強力だがインタラクティブ性が低い。 Zhihu Zhida は嬉しい驚きです。問題を解決し、エラーを修正することはできますが、組織化が少し欠けています。

上記は、他のチームメンバーとテストを行った際の私の個人的な経験です。不正確だと思われる場合は、モデルのパフォーマンスを自分でテストすることもできます。

試験後に確認したところ、この問題が試験用紙に出てくる場合は、回転角度が明記されていることが多いようです。しかし、私のテストではこの条件は与えられていなかったので、質問自体は確かにやや曖昧です。

そのため、問題を明確にし、整理することによってのみ、答えを見つけることができると感じています。

03

大規模な模型論文では数学的な能力が非常に重要です。なぜそれが重要なのでしょうか?理由はたくさんありますが、私の観点からすると、注目に値する理由が 2 つあります。

第一のポイント:教育

親にとって、子供の宿題、特に算数の問題を手伝うのはすでに十分に困難です。将来、子供ができて、AI を使って難しい問題を解決したいと思っても、複数のモデルが異なる答えを出したら、どれほどイライラするでしょうか。

一般的に言えば、問題を解決する方法は数多くありますが、答えは正確でなければなりません。なぜなら、数学は論理のルールに厳密に従う科目だからです。公理から定理まで、導出のすべてのステップは正確でなければなりません。数学的な結論が間違っている場合、その後の導出は完全に間違っている可能性があります。

実際のシナリオを想像することができます。例: エンジニアリング設計。

ある日、重要なデータを計算するために AI モデルを使用しましたが、結果に偏りがありました。それは工事中の事故に直接つながるのでしょうか?

もう1つのポイントは、言語モデルよりも数学モデルの方が実用的な応用シナリオが多いと感じていることです。財務分析から天気予報、自動運転からエンジニアリング設計まで、正確な数学的計算から切り離せるものはどれでしょうか?

2点目:モデル自体

過去数年間で、大規模な言語モデルは、言語、意味、感情表現など、多くのことを学習してきました。それは、感情、言語、対人コミュニケーションに対する感受性が最初から脳に備わっている新生児のようなものです。

しかし次に、モデルは、子供が徐々に学校に通い始め、数学や科学などのより論理的な事柄を学び始めるのと同じように、より高いレベルの認知発達に入る必要があります。

この段階は、脳の「システム 2」のようなもので、より高度な合理的思考能力です。システム2の役割は何ですか?深い理解、推論、複雑な問題解決の基盤。

モデルが科学的に十分に正確でない場合、複雑なタスクで優れたパフォーマンスを発揮するとどうして期待できるのでしょうか?したがって、数学は曖昧さを許さないため、システム 2 の極端なテストとなります。それは正しいか間違っているかのどちらかであり、中間はありません。

さらに言えば、大規模な言語モデルは、単に物語を語り人々を慰めるだけではなく、より高次の問題を解決できるように計算できる「科学者」または「エンジニア」にならなければなりません。そして、これらすべては数学的な能力に依存しています。

04

Kimi に加えて、多くの大企業が数学的能力の向上を目的として特別に設計された大規模なモデルを発売していることに気付きました。

例えば、世界中の数学愛好家や科学研究機関を主な対象とするFuture EducationのMathGPTは、主に質問の検索と回答を行うもので、数千億規模の大規模モデルです。

Baichuan Intelligence の Baichuan 4 は主に金融業界に焦点を当てており、リスク評価と取引戦略分析を実行できます。同社はすでに、UFIDA、iSoftStone、Xinzhi Software、Daguan Data、Teamsun などのパートナーと協力しています。

Alibaba Cloud の Qwen2-Math は、数学の問題を解くために特別に設計されたオープンソース モデルです。具体的な顧客はまだ発表されていないが、学術研究や競技トレーニングなどでよく見られる。

さらに、Yuncong Technologyの大型モデルやMiniMaxのabab6.5などがあり、政府分野に重点を置くものもあれば、製造業に傾倒しているものもありますこれまで、これらの企業は主に大規模なモデルや特定のアプリケーション シナリオを通じて全員に知らせてきました。

現在、個人ユーザー向けの AI アプリケーションにおける競争は、ある程度制限されるようになりました。

主に検索、会話、書き込み、コード生成の領域に焦点を当てているため、究極の AI エクスペリエンスは検索から始まり、収集、適用、出力の完全なプロセスを徐々に構築します。

この制限は、AI の潜在能力が十分に実現されていないことを意味します。実際、数学モデルの応用シナリオは、文系やコード生成の応用シナリオよりもはるかに広範囲です。信じられないなら、次のシナリオを考えてみてください。

仕事において、財務、運用、マーケティングの決定のいずれであっても、ほぼすべての企業は日々データなしでは業務を遂行できません。

経営者は何を懸念しているのでしょうか?これは、さまざまなレポートにおける ROI 指標、成長率、コンバージョン率であり、ビジネスの健全性を数値で測定する重要な指標です。

これらの数字の背後には、強力な数学的分析、予測、モデリング機能があります。

さらに、この機能は、より大きなレベルでのサプライサイドの最適化にも関連しています。たとえば、企業はどのようにデータを活用してサプライ チェーンを最適化し、在庫コストを削減し、配送効率を向上させることができるでしょうか?

数学モデルを使用して市場の需要変動を分析し、生産計画をタイムリーに調整するにはどうすればよいでしょうか?これらは企業が直面している中心的な問題であり、それを解決するための鍵は強力な数学的モデリング機能にあります。

したがって、数学モデルの重要性は、長い間、学問分野そのものを超えてきました。経済発展を促進し、ビジネス効率を加速するための柱となります。 AI モデル数学により、能力が新たな高みに到達することは間違いありません。

要約する

将来は誰が良くなるでしょうか?

定義するのは簡単ではありませんが、能力を比較するのではなく、特定の分野にどうやって参入してデータを取るかということをもっと考えた方が良いと思います。結局のところ、データはモデルをトレーニングするための重要なコーパスです。

<<:  中国人の10人に1人は釣りが大好きです。 「初漁獲」は来るのか?

>>:  低高度経済化を競う天河防衛が「切り札」を披露

推薦する

エレベーター広告のプロモーション方法(南勢連の変革はエレベーター広告への2億元の「大投下」から始まった)

南吉連の変革はエレベーター広告への2億元の巨額投資から始まったプライベートブランドから自社ブランドへ...

スキンケアブランドのプロモーション(スキンケア業界をプロモーションするには?プロモーションに適したプラットフォームはどれですか?)

スキンケア製品業界を宣伝するには?プロモーションにはどのプラットフォームが適していますか?女性ユーザ...

運用データ ダッシュボード (直感的なビジネス データ視覚化ダッシュボードを作成するにはどうすればよいでしょうか? ぜひご覧ください)

直感的なビジネスデータ視覚化ダッシュボードを作成するにはどうすればよいですか?いとこ、ここを見て。企...

.travel ドメイン名登録に将来性はあるでしょうか?

.tel ドメイン名は中国語で「旅行」を意味し、観光業界専用の新興グローバル トップレベル ドメイン...

運用業務には何が含まれますか? (オペレーションとは具体的に何をするのでしょうか?本当に簡単にできるのでしょうか?)

オペレーションとは具体的に何を行うのでしょうか?本当に簡単にできるんですか?昨年から急にオペレーショ...

ブランドプロモーション戦略(第2章 ブランドプロモーションの3大戦略)

第2章 ブランドプロモーションの3つの主要戦略1. リードリーディング戦略:ブランドプロモーションを...

データに基づく運用基盤(マーケティングサービス運用プラットフォーム)

マーケティングサービス運用プラットフォームチャネルは、CエンドおよびBエンドユーザーがアクセスできる...

製品運用計画事例(新製品開発にはこの8つのステップのみ必要)

新製品開発には、この8つのステップだけが必要です[編集者注] あなたの会社がまったく新しい製品を発売...

オンラインマーケティング計画(ロレックスがF1のスポンサーを終了する可能性、FILAの売上成長は市場の予想を下回る)

ロレックスがF1のスポンサーを終了する可能性、FILAの売上成長は市場の期待を下回るスポーツ経済観察...

Digicert SSL 証明書の申請から発行までどのくらい時間がかかりますか?

SSL 証明書は、データ暗号化送信や ID 認証などの機能を実装できるデジタル署名証明書であり、We...

酒類チェーンブランド(天下皮商㉘丨職人精神を標榜し、酒類販売に特化し、「80年代後」の新たな生活を創造)

世界の商人㉘丨職人の精神を提唱し、酒類販売に特化し、「80年代以降」の異なる生活を創造するジムニュ...

ブランドプロモーションの拡大(雲光科技:ブランドと市場のプロモーションを強化するために宣伝活動を強化する予定)

CloudWalk Technology:ブランドと市場のプロモーションを強化するために宣伝活動を...

SEO 外部リンク ネットワーク (SEO で外部リンクを公開するためのプラットフォームは何ですか?)

SEO で外部リンクを公開するためのプラットフォームは何ですか? SEO 最適化プロセス中に、外部...

.net ドメイン名は何を表していますか?

.net ドメイン名は、ドメイン名界のベテランと言えます。世界で最初に登録されたドメイン名は .ne...

製品運営の真髄(ボルボの袁暁林氏との対談:事業運営の真髄はバランス。業界全体が事業法を無視するのは「非常に危険」)

ボルボの袁暁林氏との対談:事業運営の本質はバランスです。業界全体がビジネスルールを無視すると「非常に...