「SQL データ分析の実践」運用 SQL の実践マニュアルデータパーソン学習プラットフォームはオンラインです: www.shujurenclub.com 著者について @西索 知乎:鄭小奇はヒソカ 上級データ分析専門家 たくさんの物語があります。私の人生の中でゆっくりと共有します データクリエイターアライアンスのメンバー SQL を学習するときは、まず実際に使ってみて役立て、その後、よりスムーズに使用できるようにその原理を理解する必要があります。 ほとんどのビジネス シナリオでは、データ処理と統計は SQL を通じて迅速に実装できます。 「SQL Data Analysis in Action」は他の参考書とは異なります。 SQL とは何かを紹介するのではなく、SQL の使い方を直接説明します。日々のマーケティングや業務、マーケットで集計する必要があるデータをもとに、全体的には以下の部分に分けることができます。 1. 操作に SQL を使用する必要があるのはなぜですか? 1. 操作に SQL を使用する必要があるのはなぜですか? ✦ 1.1 運用上の位置付け 運用の役割は、企業内の製品やサービスの日常的な運用、保守、開発を推進し、市場での活動と競争力を確保することです。日常的な管理だけでなく、会社の長期目標の達成を目指した戦略的な計画と実行も含まれます。
1.2 どのシナリオで SQL が必要ですか? 運用データ分析には、ユーザー行動分析から製品の最適化、売上予測、市場動向分析まで、幅広い応用シナリオがあります。この多次元アプリケーションにより、データ分析はビジネス運営に欠かせないものになります。以下では、運用データ分析のさまざまなアプリケーション シナリオについて詳しく説明します。
1.3 SQL はどのような問題を解決しますか?
2. 習得する必要がある SQL スキルは何ですか? ✦ 2.1 基本的なSQLデータ型 SQL の基本的なデータ型は主に次のとおりです。 1.数値型: 整数型 (INT、SMALLINT、TINYINT など)、浮動小数点型 (FLOAT、DOUBLE、REAL など)、固定小数点型 (DECIMAL、NUMERIC など) が含まれます。 2. 文字列型:文字データを格納するために使用され、CHAR、VARCHAR、TEXT などが含まれます。このうち、CHAR は固定長文字列、VARCHAR は可変長文字列、TEXT は大量のテキストデータを格納するために使用されます。 3. 日付と時刻の型: 日付と時刻のデータを格納するために使用され、DATE、TIME、DATETIME、TIMESTAMP などが含まれます。このうち、DATE は日付、TIME は時刻、DATETIME は日付と時刻、TIMESTAMP はタイムスタンプを表します。 4. バイナリ型:バイナリデータを格納するために使用され、BINARY、VARBINARY、BLOB などが含まれます。このうち、BINARY は固定長バイナリデータ、VARBINARY は可変長バイナリデータ、BLOB は大量のバイナリデータを格納するために使用されます。 5. ブール型: BOOLEAN、BIT など、論理値を格納するために使用されます。このうち、BOOLEAN はブール値を表し、BIT はビット値を表します。 6. データ構造: JavaScript オブジェクト表記 (JSON) や配列などの JSON と配列。配列はデータの単純なリストであり、通常は ['cat','dog','horse'] のように角括弧で囲まれます。 JSON オブジェクトは、{'name':'Bob','age':27'} のように、コンマで区切られ、中括弧で囲まれた一連のキーと値のペアです。 2.2 SQLクエリの基本キー構文 select: フィルタリング、グループ化、集計後の最終的な表示列名と集計操作列を出力します。 from: データテーブルからデータを取得する where: データをフィルタリングするための条件付きロジック および/または: フィルター条件間の関係 範囲内/範囲外: 範囲条件フィルタリング 空かどうか グループ化: フィルタリングされたデータをグループ化して集計する 集計列をフィルタリングする order by: 出力結果を指定された列で並べ替えます 制限5: 出力データ行の数を制限する 2.3 SQLクエリデータの組み合わせ 1. join を使用してテーブルを接続します (inner と outer は省略可能)。on を使用して対応する列名を関連付けます。 のように: 2. union (all) を使用して、上位テーブルと下位テーブルを結合します (すべてを追加すると、重複が削除されなくなります)。テーブル内の同じ列の出力列名は一貫している必要があることに注意してください。そうでない場合、両方のテーブルの列が同時に表示されます。 のように: 3. 共通テーブル式: with を使用して一時テーブルを作成する 3. よく使われるSQL関数とデータ取得テンプレート ✦ 3.1 よく使われるSQL関数 1. データの変換 関数の場合:クエリ列の値を他の値にマッピングする
coalesce関数: 最初の空でない値で埋める if関数: 最初の値が2番目の値と等しいかどうかを返します 最小関数: 任意の数の値の最小値を返します 最大関数: 任意の数の値の最大値を返します 変換関数: columns::datatype (columns は列名、datatype はデータ型) distinctive関数: 一意の異なる列の組み合わせを取得する distinctive on 関数: ターゲット列に同じデータがある場合、1 行のデータのみを返します。予約済みの行を選択するには、order by を使用できます。 のように: 2. 集計関数 count(columns): 空でない行の数を数える count(*): すべての行を数える min(): 最小値 max(): 最大値 合計(): 合計 avg():平均値を取得する stddev(): 標準偏差を求める var(): 分散を求める regr_slope(x,y): xが従属変数、yが独立変数の場合の線形回帰の傾きを求める regr_intercept(x,y): xが従属変数、yが独立変数の場合の線形回帰の切片を求める corr(x,y): xとyの間のピアソン相関係数を求める 3. ウィンドウ関数
これらのうち、window_func はウィンドウ関数を表し、key はパーティション化される列を表し、order_key はソートされる列を表します。一般的に使用されるウィンドウ関数は次のとおりです。 行番号:1,2,3 ランク: 1,1,3 密度ランク: 1,1,2 ntile(n): 順序に基づいてn番目の分位数を計算する lag(columns,n): 現在の行の列n行前のデータを返します。 lead(columns,n): 現在の行から n 行後ろの列のデータを返します。 フレーム句: (PRECEDING: 前方 - FOLLOWING: 後方) たとえば、過去 7 日間のローリング データは次のようになります。 |
<<: データ操作・分析プラットフォーム(WeChatヘッドライン操作プラットフォーム公開、ABCプラットフォーム驚異機能、JKLプラットフォーム一流データ分析)
越境電子商取引の活発な発展に伴い、多くの企業が海外進出を支援するために独立した対外貿易ウェブサイトを...
東風ホンダとウルトラマンが共同で新型車を発表した。なぜ経営者は「光を信じろ」とよく言うのでしょうか?...
2024年の中国ブランド電子商取引代理店トップ10社と春の新製品に対する戦略的意義2024年の中国...
4つの視点から企業の運用能力を総合的に解釈————企業の運用能力分析と改善戦略についての簡単な説明...
ブランドマーケティングコミュニケーションの3つの原則:原点に戻るブランディングは応用科学です。すべて...
製品の「ライフサイクル」の5つの段階製品の「ライフサイクル」の5つの段階1. 製品監査すべての製品と...
文房具店のマーケティングプラン! **1文房具店のマーケティングプラン! **1.製品戦略** * ...
上海でSEOプロモーションを行うには?上海は中国の国際都市として、オンライン市場で非常に激しい競争を...
茶業モールの開発・運営計画茶業界モールの開発と運営では、記事マーケティングプラグインと顧客プロモーシ...
チョン・クァン・ジャン:世界トップクラスの専門ブランドの国家マーケティング戦略はじめに: 正官庄は世...
オペレーションとは具体的に何を行うのでしょうか?どのようなポジションがありますか? 「操作」という言...
Langjiuからマーケティングを学ぶ酒類業界の大手企業の中で、朗酒の製品ラインの展開は比較的包括...
今週(10月28日~11月1日)、主要A株指数3つは下落傾向に推移した。金曜日の終値時点で、上海総合...
情報フロー広告のコア最適化アイデア百度の元主任科学者アンドリュー・ン氏は「オンライン広告は、これまで...
優れた企業ブランドプロモーションプランの立て方私たちは日々の消費プロセスにおいて、大手ブランドの製品...