SQL データ操作 (Didi 体験共有: SQLFlow により、操作の専門家が AI を活用できるようになる方法)

SQL データ操作 (Didi 体験共有: SQLFlow により、操作の専門家が AI を活用できるようになる方法)

Didi の経験共有: SQLFlow によって運用の専門家が AI を活用できるようになる仕組みとは?

SQLFlow は今年 4 月にオープンソース化されて以来、業界やコミュニティから幅広い注目を集めています。 SQLFlow プロジェクトはコミュニティ主導で、外部開発者とのコラボレーションと共同構築の形で運営されています。オープンソース コミュニティの共同構築と貢献における Ant Financial の重要なパートナーの 1 つとして、Didi Chuxing は独自の実際のアプリケーション シナリオに基づいて SQLFlow を実装しました。

9月27日、滴滴出行データサイエンス部門のチーフデータサイエンティスト謝良氏とアントファイナンシャルの研究員王毅氏が雲奇カンファレンスでSQLFlowの製品形態、製品の使命とビジョン、滴滴出行での応用、将来の展望について詳細に紹介した。

SQLFlow についてまだよく知らない場合は、以前の紹介記事を読むか、プロジェクトの公式 Web サイトを確認してください。

https://sqlflow.org

簡単に言えば、SQLFlow = SQL + AI です。 SQLFlow は、拡張された SQL ステートメントを AI エンジンで実行できるコードに変換できるコンパイラと考えることができます。

SQLFlow のビジョンは、人工知能の普及を促進することです。つまり、ビジネス ロジックを理解していれば人工知能を使用でき、ビジネスを最もよく理解している人も人工知能を自由に使用できるようになります。

従来のモデリング プロセスでは、通常、ビジネス エキスパート (アナリスト、運用エキスパート、製品エキスパートなど) が具体的な要件を提示し、製品、データ サイエンス、アルゴリズム、開発、テストなどの複数の役割の協力により具体的なモデリング タスクが完了します。多くの場合、ビジネスの専門家が AI の原理の詳細を理解していなかったり、アルゴリズム エンジニアがビジネス ロジックの巧妙さを理解するのが難しいなど、専門的背景が異なるため、コミュニケーション コストが高くなりすぎてしまいます。上記の条件に基づいて完成したモデルであっても、より広い用途を持つ一般的なモデルに抽象化できないことがよくあります。

SQLFlow が上記の問題を解決するには、3 つのコア要素が関係します。 1 つ目は、SQLFlow ステートメントで適切に実装されているビジネス ロジックのデータ記述です。 2つ目は、AIを活用して詳細なデータ分析を可能にすることです。現在、データ アナリストの仕事の多くは、生データを取得し、それを整理して処理し、現在のビジネス状況を説明および評価できる指標にすることです。しかし、データアナリストの中心的な仕事は、単純なデータの集約と処理だけではありません。予測モデルを構築し、データを解釈してデータの内部関係を研究するには、より多くの時間を費やすか、より優れた能力を開発する必要があります。 SQLFlow は、データの背後にあるユーザーの動作を正しく解釈し、合理的な動作パターンやビジネス ロジックをより適切に抽象化できるように、これらのデータの詳細なマイニングを実行するのに役立つ非常に強力な機能を提供します。最後に、ユーザーの学習コストや学習閾値を最小限に抑えるために、非常に使いやすいツールでなければなりません。

SQLFlow の潜在的なユーザーには、運用の専門家、ビジネス アナリスト、データ アナリストが含まれます。彼らはビジネスを非常によく理解しており、対応する AI ソリューションを直接呼び出すだけで済みます。モデリング タスクは、1 つの文または 1 つの SQL コードだけで完了できます。このようなプロセスでは、ビジネス エキスパートが SQL を介して SQLFlow と対話するだけで済むため、通信コストと損失が削減されます。モデリングコストの削減により、ビジネス専門家はより根本的な調査や想像力豊かな試みを行うこともできます。同時に、価値の高いコードと抽象化された知恵が、具体的なモデルの形で SQLFlow モデル プールに保存されます。たとえば、西寧の運用専門家が北京のアナリストがこのモデルを頻繁に呼び出していることに気付いた場合、彼もこのモデルを呼び出して転移学習を行い、現地で同様の問題を解決できます。したがって、彼のモデリングコストと経験コストはさらに削減されます。 SQLFlow の助けにより、知識の普及は地域や業界の制限を簡単に打ち破ることができます。

SQLFlow は Ant Financial と Didi で大規模に実装され、良好なフィードバックを得ています。 Didi ではビジネス インテリジェンスのシナリオで使用され、Ant Financial では SQLFlow が精密マーケティングのシナリオで使用されています。これらのシナリオはすべて、ビジネス エキスパートの柔軟で変化するニーズを満たします。 SQLFlow では、より豊富な使用シナリオも検討します。

SQLFlow を適用する場合、Didi が最初に解決する必要がある問題はデータ統合です。

Didi のビッグデータ プラットフォームは Hive をベースに構築されており、SQLFlow は主に Hive クラスターに接続されています。写真の青い部分が SQLFlow サーバーです。サーバーの周囲には 3 つの部分があります。最初の部分は上部のDidiのノートブックです。すべてのデータアナリストと運用エキスパートは、ノートブック上で SQL コードを操作して記述し、SQLFlow サーバーを介してデータ サーバーに接続します。

以下の SQLFlow サーバーは 2 つの部分と交差します。左下隅のデータ サーバーは、SQL コードを一連の解析コードに解析し、データ部分を検証します。右下隅は、keras、XGBoost などのサポートされているモデル ライブラリなどのニューラル ネットワーク ライブラリです。これらのモデル ライブラリは、解析コードを取得すると、解析された日付に基づいてデータベースから対応するデータを取得します。

データ サーバーとニューラル ネットワーク ライブラリは双方向で相互接続されており、モデルはトレーニングまたは予測のためにデータを取得し、予測結果とトレーニング済みモデルはデータ サーバーに返されて次回の使用や、精密マーケティングを行う際の運用専門家によるスクリーニングのために保存されます。最後に、タスク情報はモデル ライブラリを通じて SQLFlow サーバーに返され、Didi のノートブックで操作されます。

Didi のチーフ データ サイエンティストである Xie Liang 氏は、Didi と Ant が共同で開発したオープン ソース モデルから始めて、Didi のビジネス シナリオに SQLFlow を適用してビジネス効率を向上させる方法について説明しました。

  • 補助金クーポンの発行の改善における DNN ニューラル ネットワーク分類モデルの応用。
  • SHAP + XGBoost の解釈可能なモデルを通じて、ユーザーの行動に影響を与える要因と強みを理解し、オペレーターが操作ポイントを見つけるのに役立ちます。
  • クラスター分析を備えたオートエンコーダーを使用して、ドライバーの能力の時間的分布を分析し、ドライバーの行動パターンを調査します。

以下、順に紹介します。

SQLFlow による教師あり分類モデリング

分類モデルは高速な分類器であり、機械学習の重要な方向性です。こちらは、Didi のクーポンターゲット乗客の識別と予測に関するケーススタディです。

Didiのクーポンはどのように選ばれるのですか?バックエンド業務の専門家が、乗客のタクシー配車行動履歴情報に基づいてクーポンを発行します。たとえば、食品、飲料、エンターテインメントを宣伝したい場合、どのようなユーザーがどのようなシナリオで食品、飲料、エンターテインメント関連の購入を行う可能性が高いかを確認します。現時点では、旅行需要の変換を最大化するために、ターゲットを絞って乗客にクーポンを送信し、それによってユーザー価値と収益を創出します。

これまでは、モデリング プロセス全体を完了するのは非常に面倒で、チーム間の協力やさまざまな分野の専門家の時間の投資が必要でした。モデリングプロセス全体が完了し、モデルのトレーニングに長い時間がかかったため、発売に最適な時期を逃してしまいました。そのため、事業の急速な成長と発展により、同社のデータ部門と事業部門の相互協力、およびモデルの研究開発と発売のスピードとプロセスに対する要求が高まっています。

SQLFlow はまさにこの要求を満たすことができます。アナリストは、分類するユーザー データを SQLFlow に伝えるだけで、非常に効果的な分類セレクターを作成できます。中間特徴のスクリーニングと特徴の組み合わせは、bucketize または vocabularize を通じて処理され、最終的にトレーニングされたモデルが income_model というデータセットに出力されます。上の図のいくつかのボックスで表されているコードはさらに簡略化されており、モデルのトレーニング プロセス全体を最後のコード行だけで完了できます。この方法では、アナリストにとって学習曲線はほとんどありません。

SQLFlow を使用したブラック ボックス モデルの説明

多くの場合、データ アナリストや運用の専門家にとって、何を知るだけでは不十分であり、その理由と方法も知る必要があります。たとえば、Didi のアナリストが乗客の行動に影響を与える要因を分析する場合、乗客の過去のタクシー配車行動に基づいて乗客の行動を予測するモデルを構築して、タクシー配車に影響を与える要因を分析し、これらの要因をマーケティング プラン全体のカスタマイズに組み込んで、ユーザー維持率を向上させる必要があります。

この場合、登録日数、レベル、行動ポイントなど、ユーザーのライフサイクルの現在の段階を判断する必要があります。ユーザーの移動ニーズから、ユーザーが過去にタクシーを利用した際に受け取った推定走行距離とプラットフォーム上の累積走行距離を知る必要があります。さらに、ユーザーのリクエスト数、ピックアップ距離、応答時間、待ち行列の有無など、ユーザーの乗車体験も理解する必要があります。これらのデータディメンションとビジネス上の意味の違いにより、単純なデータ集約と前後分析を通じて、どのビジネスシナリオでどの要因がユーザーの注文の配置と維持に大きな影響を与えるかを運用担当者が判断することは困難です。したがって、モデルを使用してこの情報を抽象化し、情報の重要度を分類して表示する必要があります。

Didi では、SQLFlow の SQL 言語を使用して、過去一定期間のユーザーの移動データを抽出し、説明可能な拡張機能を使用して SQL が DNN を呼び出すようにし、SHAP + XGBoost を使用してモデルを解釈し、ユーザーの行動に影響を与える要因に関する洞察を得て、その影響を定量化します。一連のモデル構築を経て、上記のさまざまな情報ごとに、各ユーザーにポイントがマークされ、縦軸が各次元、横軸が特徴値であることがわかります。この図を通して、各次元における各人への影響を知ることができます。すべての情報は大きな Hive テーブルにエクスポートでき、運用の専門家はこれらのテーブルに基づいて運用シナリオを見つけて、運用効率を向上させることができます。 SHAP 値を生成する場合でも、Hive テーブルをクエリする場合でも、SQLFlow を使用すると、運用の専門家は単純な SQL ステートメントを使用して、通常は高度に専門化された AI アルゴリズム エンジニアのみが処理できる複雑なモデリング タスクを実装できます。

SQLFlow による教師なしクラスタリング

3 番目の例は、教師なしクラスタリングです。ここでの実際のシナリオは、ドライバーの運転の好みの階層化です。つまり、一定期間にわたるドライバーの運転時間の特性に応じてドライバー グループがクラスター化され、さまざまなカテゴリのドライバーが識別され、その後の戦略の展開と管理のための情報が提供されます。

Didiは、ドライバーの運転習慣に基づいて輸送能力を合理的に調整する必要があります。プラットフォーム上には何万人ものアクティブなドライバーがいます。これらのドライバーをどのように評価または区別するのでしょうか?これはかなり難しい質問です。

これまで滴滴出行は、過去の経験と常識に基づいてドライバーを主観的に分類しており、1日8時間以上働くドライバーを高能力ドライバー、1日8時間未満働くドライバーを中能力ドライバーと呼んでいた。あるいは、ルールベースの分類を使用する場合もあります。たとえば、過去 30 日間にオンラインだった時間の長さや、割り当てられたかどうかなどの一連の非常に複雑なルールに基づいて、ドライバーを、高容量ドライバー、アクティブな中容量ドライバー、低頻度の中容量ドライバー、アクティブな低容量ドライバー、時々ドライバーなどの 5 つのカテゴリに分類します。しかし、これを行うには多くの問題があります。彼らはすべて大容量と中容量のドライバーですが、異なる時間や場所でのディスパッチの習慣やディスパッチ時間の配分は大きく異なります。これは、異なる期間における容量の特性評価をより細かく行う必要があることも意味します。

上の図は、ある地域における 16 万人のドライバーの 1 日の運転時間の分布を表しています。横軸は、1 日 24 時間における 10 分間隔の 144 期間です。色はその期間の標準運転時間を表します。色が明るいほど、運転時間が長くなります。おそらく、上の写真のスペクトルがかなり乱雑で、ドライバーの運転パターンを見るのが難しいことにも気づいたでしょう。

SQLFlow での AutoEncoder ベースのクラスタリングによるクラスタリングの実装

この問題を解決するために、Didi のデータ サイエンティストは、SQLFlow のディープラーニング テクニックの AutoEncoder を使用して、ドライバーの運転時間の教師なしクラスタリングを実行しました。このモデルは、160,000 人のドライバーの運転パターンを 5 つのカテゴリに自動的に分類しました。クラスタリング後、同じ行動パターンを持つドライバーが 1 つのグループにうまく分割され、グループ間の区別が非常に明確になりました。

本当にたまに運転するドライバーが約 4 万人いることがわかります。基本的に運転はせず、運転後は基本的に1件の注文だけ受けて止まります。 2 番目のカテゴリーのドライバーの総数は約 40,000 ~ 60,000 人です。彼らは典型的なピーク時間帯のドライバーであり、夕方のラッシュアワーに運転する傾向がある人もいます。 3番目のカテゴリーのドライバーは、朝から晩まで注文を受ける、いわゆる高能力ドライバーであり、これらのドライバーはDidiを職業として選ぶ可能性が高くなります。 4 番目のカテゴリのドライバーは、低周波中型ドライバーです。時々注文も受けます。最初のカテゴリーのドライバーよりも多くの注文を受けますが、運転には決まったパターンはありません。最後のカテゴリーは夜型のドライバーです。彼らは真夜中に運転し、早朝に家に帰って眠ります。このグループのドライバーは、夜間の能力を強力に補完します。

運転手業務を学ぶ学生にとって最も重要な課題は、データマイニングを通じて特定されたさまざまな運転習慣や好みを持つ運転手グループに基づいて、乗客のニーズを満たすために輸送能力を合理的に配備するための合理的なインセンティブと運用戦略を設計することです。かつては非常に複雑で面倒な作業でしたが、今ではシンプルな SQL コードによって効果的に支援され、運用の専門家が一日の容量特性と容量構造を分解するのに役立ち、運用戦略の成功率とビジネス担当者の作業効率が大幅に向上します。

前の 3 つの例から、SQLFlow は、ビジネス部門の同僚が最も複雑なビジネス上の問題を最も単純なロジックで解決できるようにする、真にデジタル インテリジェンス主導の製品であることがわかります。

コンピュータサイエンスでは、コンピューティングユニットがデータユニットに近いほど効率が高くなることが知られています。 SQLFlow の重要性は、人工知能コンピューティング ユニットをビジネス エンティティと統合して生産性を向上させるという同じ目標を達成することを目指している点にあります。

この方向性の最終目的は、あなたが望むものを手に入れることです。

アイアンマンが新しい原子炉を建造する際には、これらの画像をキャプチャし、システムに入れて適切かどうかを確認し、適切でない場合は元に戻して別のものと交換するだけで済みます。実際、SQLFlow はこの状態に限りなく近い状態であり、これは SQLFlow が達成する必要がある最終状態でもあると考えています。

運用の専門家は、AI モデルの構築方法を学習するために時間と労力を費やす必要はありません。代わりに、ビジネス専門知識をさらに活用して、予測対象とデータ入力を明確にし、さまざまなモデルを試し、SQLFlow を通じてソリューションを探索して、目的を達成する必要があります。

最後に、SQLFlow はビジネス アナリストと AI をつなぐ架け橋であり、データと洞察をつなぐ架け橋でもあります。今後、数え切れないほどのアナリストがこの橋を渡り、科学と知恵に出会うことになるでしょう。

iPhone 11 Pro、スウェットシャツ、Tシャツがあなたの当選を待っています。今すぐ運試しに来てください
https://www.aliyun.com/1111/2019/m-lottery?utm_content=g_1000083877

著者: Miukluhan

この記事はYunqi Communityのオリジナルコンテンツであり、許可なく複製することはできません。

<<:  Kocユーザー操作(KOC作成ガイド)

>>:  易芳データ活用作戦(ポストクッキー時代の海外マーケティング:易芳データ活用、独立局ROI6倍増)

推薦する

データ操作機能(操作に必要な基本データの新規追加)

運用に必須の基本データに新たな追加この記事では、新規ユーザーのさまざまな側面を理解していただくために...

公開データ認可運用シナリオ(清華大学の孟清国氏:業界、地域、シナリオに基づいた公開データ認可運用の検討)

清華大学の Meng Qingguo 氏: 業界、地域、シナリオに基づいた公開データ認可業務の検討2...

ホテル運営データ(データ分析とビジネスインテリジェンスでホテル運営の効率化を図るには?)

データ分析とビジネスインテリジェンスを通じてホテル運営の効率を向上させるにはどうすればよいでしょうか...

ビッグデータ運用(ビッグデータ管理について知っておくべきこと)

ビッグデータ管理について知っておくべきことビッグデータ時代の静かな到来とともに、ビッグデータの価値が...

ユーザー操作事例(3 ユーザー改良操作:事例まとめ)

3 ユーザーによる操作の改善: ケースサマリー読者の皆様、洗練されたユーザー操作の独自性を明らかに...

電子商取引運営データ分析(2022年Douyin電子商取引詳細調査レポート(コアデータ、業界構造、発展動向))

2022年 Douyin電子商取引詳細調査レポート(コアデータ、業界構造、発展動向)今は春節の休暇...

運営側が確認すべきデータ(Tmall運営側が主に確認するデータは何か?月額費用はいくらか?)

Tmall の運営では主にどのようなデータに重点​​を置いていますか?月額いくらですか?主要データ...

電子商取引マーケティング推進計画(2021年電子商取引マーケティング推進計画:人員配置、店舗運営等、参考申請可能)

2021年電子商取引マーケティング計画書:人員配置、店舗管理など、参考になります生鮮食品の配達や電...

情報フロー広告モデルとは何ですか? (情報フロー型広告商品のプロモーションモデルはどのような方向から決まるのか?)

情報フロー広告製品プロモーションのプロモーションモデルはどのような方向から決定できますか?情報フロー...

Baota パネルで特定の IP アクセスをブロックする 2 つの簡単な方法

Baota Panel は、Windows と Linux の両方のオペレーティング システムをサポ...

北京 SEO 最適化 北京 SEO 最適化 (北京 SEO 最適化を行う方法は?)

北京で SEO 最適化を行うにはどうすればいいですか?北京は国の首都として、独特の市場と消費の特徴を...

観光マーケティングとプロモーション計画 (トラベルワールド | 丁孟: 観光地のための 5 つのマーケティング戦略とアイデア)

トラベルワールドパノラマ丨Dingmeng:観光地のための5つの主要なマーケティング戦略とアイデア...

2020年 醤油売上ランキング(消費者が推奨する調味料ブランドリストが発表されました。リストに載っているのは誰でしょうか?)

消費者が推奨する調味料ブランドのリストが公開されました。リストに誰が載っているか見てみましょう。 2...

赤ワインブランドマーケティング企画(ワインリストプロモーション企画)

ワインマーケティングプロモーションプランパートI: 提案の説明国内ワイン市場と市場宣伝に関する詳細な...