製品ツールの操作 (製品マネージャー分析: 大規模モデルにツールの使用方法を教えるには?)

製品マネージャーの分析: 大規模なモデルにツールの使用方法を教えるにはどうすればよいでしょうか?

はじめに｜「人々はモデルの能力を過大評価し、エンジニアリングにそれを実装することの難しさを過小評価する可能性があります。」

導入

大規模なモデルがどのようにトレーニングされ、生成されるかについては、その背後にある原理とトレーニング方法について、誰もが多くの研究を行ってきたと思います。

しかし、ビジネスプラクティスを実装しているときに、大きなモデル自体の機能を使用するだけでは不十分であることがわかりました。本当に効果的な実装計画は、自社のビジネス上の優位性のシナリオを考慮し、ビジネス境界の制約と組み合わせる必要があります。この方法でのみ、ビジネス価値を最大化できます。これが重要な点であり、また難しさでもあります。

上記のシナリオでは、大規模なモデルを適用するとさまざまな問題が発生します。製品の観点から見ると、問題は、外部データを組み合わせることができない、コンテキストメモリを組み合わせることができない、外部ツールを呼び出すことができないという 3 つの側面に要約できます。

もちろん、世の中に新しいものは何もない。上記の問題は、業界の調査において広く遭遇します。この記事では、「外部ツールが呼び出せない」という問題の解決に焦点を当て、製品の観点から学んだ解決策をレビュー形式でまとめ、共有します。

1. 研究の意義

たとえば、この大きなモデルを全能の人間に例えると、歴史を語ったり、複数の言語を翻訳したり、おしゃべりしたり笑ったりすることができます。しかし、お腹が空いていて、おいしい食事を作ってもらいたい場合、残念ながら、ガスコンロや圧力鍋を持っておらず、その使い方も知らないため、せいぜいレシピを教えてもらうことしかできません。

これが、モデルが外部ツールを学習できるようにする意義です。結局のところ、モデル自体の機能のみを使用するアプリケーション空間は限られており、ビジネス自体と統合することはできません。外部ツールを組み合わせることによってのみ、ビジネス目標をより適切に結び付け、より大きな価値を発揮することができます。

2. 業界ソリューション

「大きなモデルに外部ツールを呼び出させるにはどうすればよいか？」という疑問。 3 つの部分に分けることができます: 1) 大規模モデルはどのようにして意図を認識し、指示を分解するのでしょうか? 2) ビッグモデルは、分解された命令に対応するツールをどのように見つけるのでしょうか? 3) 大規模モデルは、対応するツールの使用方法をどのように学習するのでしょうか?

現在、この分野では、LangChain、Toolformer、HuggingGPT、AutoGPT、BabyAGI がすべて、上記の 3 つのリンクまたはいずれかのリンクに対応するソリューションを提案しています。

2.1 ランチェーン

LangChain は、大規模な言語モデルを開発するためのアプリケーションフレームワークです。これは包括的かつ強力であり、モデル、プロンプト、インデックス、メモリ、チェーン、エージェントなど、アプリケーションの実装時に発生する多くの問題を解決できる多くのコンポーネントを備えています。エージェントは、外部ツールを呼び出す問題を解決するために使用されます。

実装の原則を簡単に説明すると次のようになります。

1) まず、ユーザーのニーズに基づいてプロンプトをさまざまなタスクに分解します。

2) タスクに基づいて適切なツールを見つけ、ツールを呼び出して結果を生成します。 (ここで、ビッグモデルにツールの API ドキュメントも伝えて、ビッグモデルが API ドキュメントに従ってツールを正しく呼び出せるようにします)

3) 最後に結果を統合する

上記により、LangChain が Agent を使用して外部ツールを呼び出すプロセスが簡素化されます。

2.2 ツールフォーマー

Toolformer は、meta ai によって提案された微調整されたモデルであり、LangChain と同様のアイデアを持っています。主なアイデアは、大規模なモデルに API を自ら呼び出すように教える自己教師型メソッドを構築し、ラベル付け作業を大幅に節約することです。

Toolformer を導入することで、モデルはどのタスクにツールの呼び出しが必要か、これらのツールに対応する API は何か、API パラメータを組み立てる正しい方法は何かを学習できるため、大規模なモデルが外部ツールを呼び出せないという問題が解決されます。

このプロセスは主に、API 呼び出しのサンプリング、API 呼び出しの実行、API フィルタリングの 3 つのステップに分かれています。

1) API呼び出しのサンプリング

各 API について、最初にプロンプトを記述します。この部分の目的は、ユーザーが入力したテキスト指示のどの部分でどのツールを呼び出す必要があるかをモデルが分析し、呼び出す必要がある API を対応する位置に挿入できるようにすることです。

（論文中の例：質問応答システムがAPI呼び出しのプロンプトを生成する）

2) API呼び出しの実行

前のステップのタスクに従って、すべての API 呼び出しを実行し、テキストシーケンスを返して、対応する位置に挿入します。

3) APIフィルタリング

このアルゴリズムは、挿入された API 呼び出しのうちどれが本当に有用でどれが無用かを計算するために使用され、最終的に有用な部分のみが保持されます。

（論文中の例：出力結果）

2.3 ハギングGPT

HuggingGPT は、浙江大学と Microsoft Research Asia の研究者によって提案された、LLM がコントローラーとして機能できるようにする新しい方法です。これにより、LLM は言語を汎用インターフェースとして使用して、既存の AI モデルを管理し、複雑な AI タスクを解決できるようになります。

（模式図 - 論文より引用）

簡単に言えば、HuggingGPT は、一方では ChatGPT に接続され、他方では多くの分野に特化した AI モデルに接続されます。ユーザーが自然言語を入力すると、ChatGPT を組み合わせてユーザーの意図を分解し、必要に応じて意図に対応する AI モデルを呼び出し、最終的に組み合わせて結果を生成します。フレームワークの主なプロセスは次のとおりです。

1) ミッション計画

ChatGPT などの LLM は、まずユーザー要求を解析し、タスク分解を実行し、その知識に基づいてタスクのシーケンスと依存関係を計画します。

2) モデルの選択

LLM は解析されたタスクをエキスパートモデルに割り当てます。

3) タスクの実行

エキスパートモデルは、推論エンドポイントで割り当てられたタスクを実行し、実行情報と推論結果を LLM に記録します。

4) レスポンス生成
LLM は実行プロセスのログと推論結果を要約し、要約結果をユーザーに返します。

(ワークフロー - 論文より引用)

2.4 ベビーAGI

Baby AGI は、OpenAI の GPT-3.5 または GPT-4 言語モデルに基づいて構築された Python スクリプトです。目標とタスクを入力として受け取り、それらのタスクを積極的に完了しようとします。さらに、既存の目標と完了したタスクの結果に基づいて新しいタスクを生成し、タスクリストの優先順位を再設定することもできます。

システムの中心的なアイデアは、以前のタスクの結果と事前に設定された目標を使用してタスクを作成することです。次に、GPT を使用してそれらの目標に沿った新しいタスクを生成し、Pinecone (大量のデータを保存および取得するプログラム) を使用してタスク結果のコンテキストを保存および取得し、モデルが実行したアクションと次に実行するタスクを記憶できるようにします。

Baby AGI のコアプロセスは、同様の製品向けの他のソリューションと多くの類似点を持つ 3 つの主要なステップに従います。

1) 必要に応じてタスクを分割する

2) タスクに優先順位をつける

3) タスクを実行し、結果を統合する

(コアプロセス - Baby AGI GitHub から引用)

2.5 自動GPT

実際、AutoGPT はサポートのために、背後にある大規模な言語モデルとして GPT を依然として使用しています。簡単に言えば、AutoGPT はユーザーの自然言語ニーズを特定のプロンプトに変換することで機能します。

ただし、このプロンプトの目的は結果を直接生成することではなく、タスクを分解し、ユーザーのニーズに基づいて計画を立てることです。その後、分解されたタスクと策定された計画は、新しいプロンプトとしてシステムに入力されます。各タスクと計画の実行中に、システムは適切なツールを見つけ、問題が正常に解決されるまでサイクルを継続します。

（原則 - 簡易版）

主に、要求発行、自律操作、結果出力の 3 つの部分で構成されます。その中で、自律操作は AutoGPT のコアモジュールであり、次の手順で構成されます。

1) タスク定義

ユーザーは Prompt を通じて ChatGPT にタスクを送信します。発行される最初のタスクには、ユーザー名 (Name)、役割 (Role)、目標 (Goals) が含まれている必要があります。以降の会話では、ChatGPT は実行結果に基づいて新しいプロンプトを自動的に生成します。

2) タスク理解

ChatGPT は、送信されたプロンプトのセマンティクスを理解するために大規模なモデルを使用します。このプロセスは、タスクを受け取ったときの人間の思考プロセスを模倣したもので、AutoGPT では「思考」と呼ばれます。

3) ソリューション生成

ChatGPT は、タスクの理解に基づいて、詳細なステップバイステップのソリューションを出力します。この部分は、AutoGPT の「計画」ステップに対応します。

4) 命令生成

ChatGPT は、生成されたソリューションに対して論理的な判断を実行し、最初に実行するステップを選択し、実行可能な操作または命令を生成します。この部分は、AutoGPT では「批評」と呼ばれます。生成された命令には、Web サイトを閲覧するための命令などのコマンドとパラメーターが含まれます。

このステップは、キーワードの検索、Web ページデータのクロール、テキストデータ分析の実行、ファイルの読み取りと書き込みなどの組み込みアクションとパラメーターを GPT に提供するため、AutoGPT の中核の 1 つです。これにより、GPT はインターネットに接続し、メモリを持つことができるようになります。

5) 命令実行

AutoGPT は、生成された指示に基づいてタスクを実行します。これには、Web サイトへのアクセス、Web サイトの解析、データのクロール、コンピューター指示の実行などが含まれる場合があります。さらに、ChatGPT リソースを呼び出して、コードの記述などのタスクを完了することもできます。

6) 結果出力

コマンドが実行されると、AutoGPT は Web サイトのページの解析結果やデータ分析結果などの実行結果を返します。

7) 結果評価

タスクを実行した後、AI は結果を評価し、意図した目標が達成されたかどうか、またはさらに調整が必要かどうかを判断します。この評価プロセスは、AI がアクションの有効性を理解し、必要な最適化を行うのに役立ちます。

GPT が返すのは単純なテキスト情報ではなく、標準の JSON 構造を持つデータであることに注意してください。このデータ構造により、AutoGPT は独自の思考の本質を反映して、自律的にタスクを実行できるようになります。

システムは、ユーザーが定義したすべての目標が達成されるまで、上記のプロセスを繰り返し実行します。上記のプロセスは、AutoGPT の全体的な操作プロセスを説明しています。

3. 外部ツールの使用に関する制限

3.1 ツールの範囲が限られている

上記のソリューションに接続できるツールは限られています。主にいくつかの理由によって制限されていると思います:

1) 実施原則による制限

上記のソリューションは、実装の点では依然として Prompt プロジェクトの一部です。使用されるツールが増えるにつれて、コンテキストトークンの数によって制限されるようになります。

2) コストによる制限

トークンの数が増えると、それに応じてコストも増加します。外部ツールをどのように使用するか、複数回の対話は、コストとユーザーエクスペリエンスのバランスをとるためのビジネス側のテストでもあります。

3) 生態学的発展による制限

大きなモデルが開発されたばかりで、エコシステムの構築は始まったばかりです。アクセスできるツール側がどうやって利益を得るか、また、呼び出されるツールのリストにもっと多くのツールを追加してもらうか、モデル側、ツール側、ユーザーの三者市場には明確なビジネスモデルが存在しません。

3.2 タスク実行の正確さ

真剣かつランダムな答えを出すという「錯覚」を作り出すことは、依然として大規模モデルが解決しなければならない問題です。 GPT-4 のリリース後、幻覚の発生確率は大幅に減少しましたが、それでもまだ頻繁に発生します。

精度とユーザー価値の関係の観点から考えてみましょう。タスクが複雑であるほど（複数のタスク）、ユーザーの実際の需要シナリオに近くなり、ユーザーにもたらす価値が高くなりますが、実際にはタスクの精度は低くなる可能性があります。私たちの価値を真に最大化できるようになるまでには、まだ道のりが残っているかもしれません。

4. ビジネスの観点から考える

以下の 2 つの質問については、今回は詳しく説明しません。いくつかの見解とアイデアについてのみ説明します。半年以上研究を続けてきて、色々な思いが湧いてきました。私は自分で穴を掘ったので、後で別の記事で共有する予定です。いつでもお気軽にご相談ください。

1) ビッグモデルをビジネス実装と組み合わせてより有効に活用し、製品とユーザー/顧客の価値を向上させるにはどうすればよいでしょうか?

ユーザー: 実際のユーザー/顧客のニーズを見つける
製品: ビッグモデルの時代における自社製品とビジネスの真の強みと弱みを特定する
テクノロジー: テクノロジーに対する独自の理解と判断を維持し、テクノロジーの理解不足や過剰理解によって想像力を制限しないでください。

2) ビッグモデルがプラットフォームやオペレーティングシステムに発展した場合、現在のビジネス製品をビッグモデルプラットフォームにどのように統合し、事前にどのように準備し、独自の優位性を築くことができるでしょうか。

著者: edmondgeng、Tencent PCG プロダクトマネージャー

<<: インターネット運用データ分析（データで発展を見る！過去10年間の我が国のインターネット発展レポートカードを理解する）

>>: 商品運用紹介（「What's Worth Buying」コンテンツはどのように運用されているのか？）

成果転換推進計画（陝西省：科学技術革新の「鍵となる変数」を発展の「最大の増加」にする）

製品ツールの操作 (製品マネージャー分析: 大規模モデルにツールの使用方法を教えるには?)

製品マネージャーの分析: 大規模なモデルにツールの使用方法を教えるにはどうすればよいでしょうか?

成果転換推進計画（陝西省：科学技術革新の「鍵となる変数」を発展の「最大の増加」にする）

コンテンツ運用には次のものが含まれます (すべてが目標指向ですが、コンテンツ運用では何を行う必要がありますか?)

コンテンツ運用にはどのような機能が必要か（オペレーターに求められる機能とは何か）

イノベーションを促進する方法は何ですか（政策の発布と実施の間の「ゼロ距離」を実現し、「ビッグゼロベイ」科学技術イノベーションソース機能ゾーンの構築のための20以上の措置を開始します）

製品運用に必要な専攻は何か（インターネットの仕事の収入見通しは悲観的！適切な専攻を選び、適切な仕事を見つければ、輝かしい人生も夢ではない！）

商品のプロモーション方法（成功するセールスコンサルタント：新商品をどうプロモーションするか？）

トレーニング運用データ（2023 ブリック「目標から指標へ」トレーニングキャンプ）

製品運用と電子商取引運用（電子商取引運用をしたいが、これらのことを理解していないと、後で後悔することになります。講義室の創設者であるShu Yuが共有）

cPanel仮想ホスティングコントロールパネルにログインする2つの一般的な方法

SSL証明書が1年で期限切れになった場合はどうすればいいですか? 期限切れのSSL証明書を交換する方法

推薦する

運営戦略の核心内容（Toutiao運営管理：10大体験公開）

商品プロモーションプラン（ソフト商品プロモーション：市場で商品を目立たせる魔法の武器）

後継者を見つけた董明珠氏は、格力店を「董明珠健康ホーム」に改名したいと考えている。

情報フロー広告スタイル（百度情報フロー広告表示スタイルを詳しく解説！）

WooCommerce で商品属性を追加/編集する方法

ユーザーの再購入行動を分析するにはどうすればいいでしょうか?

WeChatストアは「3つの動き+5つの道」を使ってすべての地域を結びます

製品オペレーション職 (製品スペシャリストの履歴書 (厳選記事))

ケータリングブランド経営計画（ケータリングチェーン計画とは？）

製品マーケティングプランテンプレート (552 ブランドイベントマーケティングプランコレクション (68 部))

インターネット商品のマーケティング戦略（ヘルスケア商品業界ブランドの事例分析（第2部））

製品ツールの操作 (製品マネージャー分析: 大規模モデルにツールの使用方法を教えるには?)

SSL_ERROR_RX_RECORD_TOO_LONG エラーコードを解決する方法

WordPress チュートリアル: Baidu の高速および通常の送信プラグインをインストールする

JSP をサポートする仮想ホストがなぜこんなに少ないのでしょうか?