データ操作製品(データ操作の実例:情報フローが製品の最適化につながる)

データ操作製品(データ操作の実例:情報フローが製品の最適化につながる)

データ操作事例: 情報フローが製品の最適化につながる

編集者注: この記事の著者は、基本的な推奨エンジンと情報フローの影響要因について予備的な理解を提供し、情報フローフィードデータ操作の実際のケースを通じてデータ操作の価値を整理してまとめ、誰もが学習して参照できるようにしました。

情報フィードは、私たちの 24 時間のインターネット生活の中で、ほぼどこにでもあるものになりました。地下鉄で通勤しているときに、Toutiao をチェックして最新のニュースを入手することができます。情報フローでは、注目の記事をキューにきちんと並べて読みやすくしています。おいしい食事をしたいときは、Dianpingの情報フローが市内の多くのレストランを推奨しています。夜眠れず、一日の疲れを癒すために何かを買いたいとき、Taobao のおすすめ商品の素晴らしい品揃えは、閲覧をやめられないほど正確です...

情報フロー形式は広く使用されていますが、最も初期の応用は、2006 年に Facebook がリリースしたニュース フィード機能から始まった情報コンテンツのシナリオでした。

このプラットフォームは、確立されたアルゴリズムとルールに従ってコンテンツを分類した後に集約し、ユーザーが 1 つのページでスムーズかつ効率的にコンテンツを消費できるようにします。ユーザーは、モバイル インタラクティブ ネットワークの先史時代のように、ポータルとブログ サイト間を頻繁に行き来する必要がなくなりました。また、プラットフォームは、集約されたコンテンツ表示プラットフォームを提供することで、ユーザーを自らの管轄区域内に効率的に留めておくこともできます。

情報の流れを表す英語は「Feed」ですが、これは実に巧妙な言葉です。 Feed は英語で「飼料」を意味し、情報フローのシナリオにおいて、プラットフォームがユーザーに一定の順序でコンテンツを「供給」する場面を鮮やかに表現しています。

ユーザーがコンテンツを消費できる時間は限られています。プラットフォームは、限られた時間内にユーザーにお気に入りのコンテンツを提供して、ユーザーがプラットフォーム上でより多くのコンテンツを消費できるようにするにはどうすればよいでしょうか (それによってプラットフォームに高い潜在的な商業的価値をもたらすには)?これは、すべてのフィードシーン運営者が長年研究してきた「推奨ランキング」の問題です。

レコメンデーションエンジンの核となるのは「適切なアイテムを適切なユーザーにいかに推奨するか」であり、そのため「アイテム」と「ユーザー」のつながりを確立することがレコメンデーションアルゴリズムにおける最も核心的な命題となります。推奨プロセス全体は、基本的に「リコール」→「ソート」→「重みの調整」→「結果の出力」というプロセスとして要約できます。誰もがプロセスを理解できるように、簡単な比喩が使用されます。

誰もが学生時代に軍事訓練に参加したことがあるはずです。トレーニングの最後に行われる最終パレードレビューは、トレーニングプロセス全体のハイライトとなります。では、キューを合理的に配置するにはどうすればよいでしょうか?

  • まず、インストラクターはクラス A の生徒全員を運動場に「呼び出し」、準備が整うまで待機させる必要があります。 Aクラスの生徒のみが参加できます。 BクラスとCクラスの生徒はまだ参加する必要はありません。
  • 次に、インストラクターは、チームが不均等に見えないように、背の高い順に「並べる」ように生徒に指示します。現時点では、生徒は背の高い順に並べられていますが、一部の生徒は公演中に軍楽隊で演奏する必要がある可能性があるため、講師はこれらの生徒を「調整」して除外する必要があります。
  • 最終的にこのルールに従って編成されたチームが最終公演におけるAクラスのチーム編成となります。

推奨アルゴリズムは非常に奥が深く技術的なテーマですが、この本は主にオペレーターを対象としているため、著者は情報フローのランキングに影響を与える主な要因をより明確なレベルからまとめようとしています。

  • 時間要因。時間は比較的基本的なランキング要素です。多くのコンテンツ製品では、最初は時間を最初のランキング要素として使用します。たとえば、公開アカウントは当初、完全に時間順に並べられていました。しかし、コンテンツの量が増え続けるにつれて、推奨アルゴリズムを使用してユーザーが最も興味のあるコンテンツを見つけやすくする方法が、他の要素の命題になります。
  • ユーザーのポートレート要素。この要素の仮定は非常に直感的です。「人によって好みは異なります。」人間に「ラベル」を付けることはできないとよく言われますが、アルゴリズムにとっては「ラベル」を付けることによってのみ人間をよりよく理解することができます。たとえば、「インターネット実践者」というラベルが付いている場合、推奨されるコンテンツは、当然、インターネット業界の情報や新しい技術のトレンドなどに重点が置かれることになります。 「妊娠中の母親」というラベルが付いている場合は、おすすめコンテンツに子育てに関する情報もさらに多く含まれます。
  • 興味の要因。どちらも人物の理解ですが、ユーザーポートレートは人物の「属性」に重点を置き、興味は人物の「趣味」に重点を置きます。一部の製品は、より直接的な方法でユーザーの興味を理解し、ユーザーが最初にアクセスしたときに興味のある分野を確認するように求め、対応するコンテンツをユーザーに推奨します。第二に、「ユーザーが特定の情報を読むのに費やす時間の長さ」、「ユーザーが特定の種類の情報をクリックする確率」などの間接的な方法を使用して、ユーザーの興味を間接的に理解することもできます。
  • 正のフィードバック要因と負のフィードバック要因。名前が示すように、これはプラットフォームが推奨するコンテンツに対してユーザーが与える肯定的または否定的なフィードバックを指します。肯定的なフィードバックには、「いいね」や「1 回のクリックで 3 回のクリック」が含まれます。否定的なフィードバックには、「報告する」や「二度と見たくない」などが含まれます。多くのユーザーもこれをよく認識しています。新しい情報フロー製品に接触すると、この方法を使用して情報フローを「制御」し、自分に最も適したコンテンツを「調整」します。
  • 相互作用要因。これは、正のフィードバック要因と負のフィードバック要因のさらなる改良として考えることができます。例えば、ビリビリの多くのUPホストは、「リツイート、コメント、いいね」を頻繁に言います。これは、転送、共有、コメント、いいねなどのユーザーのインタラクティブな指標を通じて、自分のコンテンツがアルゴリズムによって高品質のコンテンツとみなされ、より高い露出が得られることを期待しているからです。さらに、「購入」などのユーザーの特定の行動も、関連アイテムの重みを高めるための推奨アルゴリズムにとって非常に重要なシグナルです。
  • 社会的要因。ソーシャルな関係を持つ製品の場合、推奨アルゴリズムが活躍する余地がさらに広がります。最もユニークな利点を持つのは、中国国内の10億人を超えるユーザーの深い社会的関係情報を蓄積してきたWeChatです。たとえば、「Take a Look」のコンテンツランキングでは、アルゴリズムの推奨にユーザーのソーシャル関係が使用されます。特定のコンテンツを「視聴」している友人が増えると、「Take a Look」でのランキングも上がります。
  • 熱係数。時事問題は急速に変化し、最新のニュース速報はより多くの注目を集める傾向があり、その結果、人気のある時事問題はより高い推奨ランキングを獲得します。社会の動向は常に変化しています。最新のヒット TV シリーズや最新のファッション トレンドによって、一部の商品が最近人気になり、推奨ランキングが上がることもあります。
  • 手動操作介入要因。推奨アルゴリズムに基づいて並べ替えると、基本的にほとんどの効率の問題を解決できますが、偽のニュースや下品なコンテンツなどの低品質のコンテンツについては、ダウングレードまたはフィルタリングするために手動の介入が必要になります。

そうは言っても、私はこれまでツール製品を操作してきた経験を皆さんと共有したいと思います。ほとんどのツール製品が抱えるジレンマは誰もがよく知っていることでしょう。つまり、ユーザーが長期間利用し続け、定着率が低いため、効率と収益化の方法が限られてしまうのです。市場には競合製品が数多く存在します。データ指標を通じて製品の価値を迅速に証明できない場合、製品全体がキャンセルされるリスクに直面することになります。

そのため、ユーザーがサイトで過ごす時間をいかに増やすかが、私たちのチームにとって非常に重要な課題となっています。当社のツール製品にはWiFi接続機能があります。以前は、ユーザーが WiFi に正常に接続すると、リダイレクトされるランディング ページは「接続成功」ページでした。それ以外には何のつながりもありませんでした。

ただし、この時点では、ユーザーは操作を完了して感情が最高潮に達しており、トラフィックの影響を受けにくい WiFi シナリオにいます。情報フィードの内容を引き継ぐことで、ユーザーにコンテンツ消費の価値を提供し、同時に商業的な収益化シナリオも作成できるのではないかと考えました。

しかし、私たちはツールプロダクトチームであり、コンテンツ運用の経験はありません。 0から1までの情報フィードを作成するにはどうすればよいでしょうか?チームの現状を分析した後、私たちはすぐに次の側面から始めることにしました。まず、情報コンテンツはどこから来ているのでしょうか?当社の姉妹製品の中には、情報コンテンツが既成のものもあるが、具体的な推奨アルゴリズムは当社自身で開発する必要がある。当社のアルゴリズム チームにはコンテンツの推奨に関する経験はありませんが、ソフトウェア配信の推奨に関する経験には、学習して再利用できる類似点もあります。

料理が上手な人は米なしでは料理ができません。 「ご飯」も「炊き込みご飯」も両方ありますが、ユーザーが一番美味しいと思うのは「チャーハン」なのか「スープライス」なのかは、もっと試してみないと結論が出ません。

推奨ソートにはさまざまな要素がありますが、ツール製品の属性により、使用できる要素は多くありません。状況に応じて、次の 3 つのグループの A/B テスト実験を実施することにしました。

  • ユーザープロファイルに基づいて並べ替えます。取得できるユーザー属性データには、ユーザーの好みをある程度推測できるユーザーのソフトウェアインストールリストデータなどがあります。ユーザーの地理的位置データを使用して、地元のニュース、近くの観光スポット、その他の情報を推奨することができます。これら2つの側面からのユーザーデータを組み合わせることで、ユーザーに適切な情報コンテンツを推奨することができます。
  • 人気順に並べ替えます。当社が取得する情報コンテンツには他のプラットフォームの人気データは含まれていないため、当社製品では人気ランキングのプロセスが比較的遅れています。製品内のより人気のあるコンテンツをより多くのユーザーに推奨して読んでもらうためには、ユーザーはクリック動作を通じてアルゴリズムに継続的に「フィード」して学習する必要があります。
  • ニュースリリース時間順に並べ替えます。これは、情報のアルゴリズムソートにあまり介入しない基本的なコントロール グループに相当し、最初の 2 つの実験グループの結果を比較するために使用されます。

3つの実験グループの設定に基づいて、戦略を実行するための3つのランダムテストユーザーグループを選択し、「平均情報消費時間」を主要な評価指標として設定しました。実験結果が出るまで3日間も待ちました。この 3 日間、私たちのチームはどの戦略が最も効果的かを賭けていました。読者の皆さん、どの戦略が最も効果的だと思いますか?

チーム内の賭けは基本的にすべて、最初の 2 つのグループの戦略の方が優れているという見方に集中していました。ユーザー ポートレートの方が良いと考える同僚の見解は単純明快です。ユーザーは、自分にとってより関連性の高いコンテンツに、より興味を持つようになります。人気順の並べ替えのほうが効果があると考える同僚も正しいです。より多くの人がクリックするコンテンツは、興味深く新鮮なものであることが多く、自然とより多くの人が読みたくなるものになります。

しかし、当社の運用スタッフが実験データを収集して分類した後、彼らは少し驚きました。時間による分類に基づいた最も人気のないオプション 3 が、実際には最初の 2 つのオプションよりも「平均情報消費時間」が優れていたのです。チームはしばらくの間、少し意気消沈し、アルゴリズムチームの同僚の技術力にも疑問を抱いていました。

オペレーターとして、この時点でデータ分析をさらに一歩進めて、データ指標が真実全体を示しているかどうかを確認する必要があります。

この問題を分析するために、まず問題を細分化しました。

実験データ指標:

  1. 設定したデータ指標に問題はありますか?
  2. データ指標の計算に問題はありますか?
  3. 各実験計画のデータ指標の計算は同じ口径に基づいていますか?

実験設計:

  1. 実験グループ内のユーザーの選択は十分にランダムですか?
  2. 実験戦略に必要なデータはすべて必要ですか?
  3. 実験的な戦略はユーザーグループにとって完全に効果的ですか?

分解して分析した結果、最初の 2 つのソリューション グループの貧弱なデータ指標が必ずしも真実のすべてではないことがわかりました。まず、「平均情報消費時間」という指標の設定に問題があることがわかりました。結局のところ、私たちの製品はツール製品であり、ほとんどのユーザーは WiFi に接続した後、離れてしまいます。情報フィードは、比較的活動していない一部のユーザーのみを対象とした機能です。

そのため、実験グループ間のユーザーの「平均情報消費時間」は非常に離散的であり、プラン 3 の個々の極端なユーザーの存在が全体の平均時間データを引き上げています。この問題を解決するために、計算中に極端な値に対して一定の処理を行い、「平均情報クリック率」というデータ指標を追加することで、さまざまなソリューションの効果をより客観的に評価することができます。

第二に、分析の結果、データ収集上の理由により、計画 1 と計画 2 はそれぞれの戦略の効果を十分に達成できなかったことが判明しました。たとえば、ソリューション 1「ユーザー ポートレートに基づく並べ替え」では、Android の権限制限により、実験グループの多くのユーザーのインストール リスト データが不完全でした。一部のユーザーの IP の地理的位置の識別が十分に正確ではありませんでした。テストの結果、広州の一部のユーザーに北京のローカルニュースが推奨され、当然ながら戦略の有効性に影響を与えていることが判明した。

たとえば、プラン 2 では、一部の「クリックベイト」コンテンツはクリック率が高いため、実験ユーザー グループの最初の画面は「クリックベイト」コンテンツでいっぱいになります。コンテンツの品質が非常に低く、ユーザーはクリック後すぐに画面から飛び出してしまうため、戦略の実験結果は悪くなります。

データ指標をさらに分析せずに実験結果だけを見ると、「時間ソート」がユーザーにとって最適なソリューションであり、将来的にこの方向に開発を進めていくべきだとすぐに考えてしまうかもしれません。モデルアルゴリズムのいわゆる最適化は必要ありません。しかし、分析を通じてのみ、事実の全体像をより明確に把握し、反復のための最適化計画を継続的に提案することができます。

ここで反映されているのは、問題分解思考の重要性と、論理的な問題分析思考の重要性です。この本を通じて、読者の皆さんとこれらの思考フレームワークを共有し、より優れたオペレーターになれることを願っています。

今後は、データ操作、インターネット製品(または個人的な芸術的趣味)に関する記事をプラットフォーム上でさらに共有する予定です。誰でもコミュニケーションを歓迎します!

この記事はもともと @黄一元 によって Everyone is a Product Manager に掲載されました。著者の許可なく複製することは禁止します。

タイトル画像は、CC0 プロトコルに基づいて Unsplash から取得したものです。

<<:  データ プロダクト オペレーション マネージャー (ビッグ データ プロダクト マネージャーになるには? 試験の要件は何ですか? 難易度はどのくらいですか?)

>>:  電子商取引製品運営計画(小紅書電子商取引運営計画)

推薦する

セルフメディア運営にはどんなコンテンツが良いのか(セルフメディアの運営方法とは?爆発的な人気を誇る記事タイプ5選)

セルフメディアを運用するには?最も人気のある5つの記事タイプセルフメディアを運用するには?どのような...

5118キーワードマイニングツールはどうですか

58 個のキーワードマイニング機能は非常に実用的です。この機能により、ユーザーはキーワードに関連する...

飲食店の宣伝・プロモーション企画(某飲食店ブランドの新規出店プロモーション企画の共有)

ケータリングブランドの新規レストラン開店プロモーションプランの共有ケータリングブランドの新規店舗オー...

プライベートドメイン運用データ分析(プライベートドメインの友人サークルデータ分析をうまく行うための 3 つのステップ)

プライベートな友人サークルのデータ分析をうまく行うための 3 つのステップ現在、プライベートドメイン...

大量情報フロー広告(2023年版大量検索広告ガイド新版)

2023 年版大規模検索広告ガイド電話番号: 18122794190 Bytedance のバック...

ブランドマーケティングと革新的マーケティング(ブランド販売を支援し、新しい革新的なマーケティング手法を開拓)

ブランド販売を支援し、革新的なマーケティング手法を開拓します国内屈指の人気を誇るヨーロッパの高級ブラ...

プラグインハイブリッド販売ランキング(トップ5はすべてBYD!6月のプラグインハイブリッド販売ランキングの解釈)

トップ5はすべてBYDです! 6月のプラグインハイブリッド車販売ランキングの解釈6月の新エネルギー・...

ビジネス運営のためのビッグデータ(ビッグデータによって経営構造を最適化し、ビジネスリスクを回避する方法)

ビッグデータで経営構造を最適化し、ビジネスリスクを回避する方法フィナンシャル・タイムズのウェブサイト...

Namecheap でドメイン プライバシー保護を有効にする方法

ICANN 認定の有力な外国ドメイン名登録機関として、Nmechep はドメイン名登録に多くの人々に...

ドメイン名にバインドできる SSL 証明書の数はいくつですか?

1 つのドメイン名にバインドできる SSL 証明書の数はいくつですか?通常、Web サイトで使用され...

インターフェースの IP アドレスを設定するコマンドは何ですか?インターフェース IP アドレスを設定するためのコマンドの概要

ip コマンドは、ネットワーク インターフェイスに IP アドレスを割り当てたり、Linux システ...

成都地下鉄運行データ(卯年初の600万乗車、春節後も成都地下鉄の乗客数は高水準を維持)

卯年初の600万乗車、成都地下鉄の乗客数は連休後も高水準を維持表紙はニュース記者の楊睿文。写真提供:...

Docker と仮想マシンの主な違いは何ですか?

Docker は、コードとそのすべての依存関係をまとめてパッケージ化することで、アプリケーションをあ...

モールプロモーション活動(市民大会ドライランドカーリングトライアルがモール内で開催され、暑い夏でもスポーツの楽しさを味わえます)

市民大会のドライランドカーリングのトライアルはショッピングモールで開催され、暑い夏でもスポーツを楽し...