データ操作は技術職ですか? (「成長」データ分析の7つの武器(I):現状分析)

データ操作は技術職ですか? (「成長」データ分析の7つの武器(I):現状分析)

「成長」データ分析の7つの武器(I):現状分析

この記事は、成長中のジュニアおよび中級レベルのデータ アナリストにとって非常にわかりやすく、また、プロダクト マネージャーやデータ操作などの関連職種にも特に適しています。単語がかなり長いので、最初に読んでから読むことができます。

このアカウントでは、体系的なデータ分析スキルや考え方の記事を今後も更新していきます。記事の内容は、Data Zen チームの 10 年にわたる蓄積された経験から生まれたものです。

これらの体験は書籍としてまとめられ、有料講座としても開講されています。

しかし、このアカウントでは誰でも無料で学習できます。 「DataZen」に従って、迷わないようにしてください。

読んでから学んだことを応用できれば、たとえ好きでもコレクションでもなくても、コードワード教師にとって最大のサポートになりますよ~

この記事は曽金氏の知书アカウント「Gangesand'DataZen」から転載したものです。

曽爾仁:

最初のCDAIIIデータサイエンティスト

シニアデータプロダクトマネージャー

ビジネス分析ディレクター

私は10年以上データ分析関連の仕事に携わってきました。

「データ分析の実践 - 方法、ツール、視覚化」の著者


この記事では、データを使用して現在の状況を非常に標準化された方法で説明する方法を紹介します。この記事は、「データ分析の 7 つの武器」シリーズの第 1 回です。次回は2記事連続で掲載予定ですのでお楽しみに〜

この記事は約 7,000 語で、読むのに約 20 分かかります。コードを書くのは簡単ではない、皆さんの励まし、いいね、コレクション、いいねが必要です~~

「データ分析の 7 つの武器」は、ジュニア データ アナリストや、他の職種からデータ アナリストを目指している学生にデータ分析ツールボックスを提供することを目的としています。私はそれを「データ分析の 7 つの武器」と呼んでいます。これら 7 つの方法を 3 つの記事で紹介します。

データ分析の7つの武器

方向性1:現状分析 - 広い視野を持つ

指標のパフォーマンスを分析することで、現在のビジネス状況やどのような問題が発生しているかを把握できます。現状分析は単純に思えるかもしれませんが、実際には多くのコツが関係しています。多くのデータ アナリストは、ビジネスの現在のデータ ステータスを分析する際に、データの増減をグラフで示すだけの単純な「図ごとの」分析を行うことがよくあります。これでは十分とは言えません。プロのデータ分析者には、現状分析を行うための完全な方法論システムが存在します。

対応分析ツール:

十分に訓練されたデータ アナリストがビジネスの現状を分析する際によく使用する方法は 2 つあります。1 つは探索的データ分析 (EDA) です。もう一つはトレンド分析です。

データアナリストの日常業務において、データ指標の記述はおそらく毎日避けられないタスクです。この種の仕事には技術的なスキルは必要ないようです。結局のところ、写真を見て物語を伝えることは難しくありません。しかし、統計理論を使用してデータをより体系的に記述するにはどうすればよいでしょうか?ここには多くのトリックが関わっています。これはランニングというスポーツに似ています。誰もが自分は走れると思っているが、実際に標準的なスタート動作や走る姿勢で走れる人は少ない。

統計学では、データの一般的な説明を作成するプロセスを探索的データ分析 (EDA) と呼びます。探索的データ分析は、1960 年代にアメリカの統計学者ジョン・テューキーによって提案されました。彼は次のように考えています。「探索的データ分析は、データセットの分析に基づいてデータセットの主なデータ特性を要約する方法であり、多くの場合、視覚化手法を使用して解釈されます。このプロセスでは、モデルが使用されるかどうかは問題ではありません。より重要なのは、モデルと仮説検定タスクを超えて、データがどのような情報を伝えてくれるかを探索することです。」

探索的データ分析は通常、次の手順で実行されます。

一つのケースを見てみましょう:

ケース1 探索的データ分析

ハイトリップのビジネスブティックホテルとユースホステルの収益

HighTripのビジネスブティックホテルとユースホステルの収益の探索的分析

上記のケースでは、「大きさ > 変動 > 相関 > 原因」の順序を使用しました。大きさ、ボラティリティ、相関関係は、それぞれ独自の指標によって説明されます。

大きさと中心傾向を説明する主要な指標は、平均、中央値、最頻値です。

(1)平均

中心傾向の最も重要な指標は平均であり、これは物事の平均レベルを反映します。平均は単なるデータ指標ではなく、データ指標のクラスを表す一般的な用語です。一般的な平均には、算術平均、加重平均、幾何平均、調和平均の 4 つがあります。その中で、算術平均と加重平均が比較的よく使われます。算術平均と加重平均は、最も一般的に使用される 2 つの平均です。

算術平均:

算術平均は、データセット内のすべてのデータの合計を、データセット内のデータの数で割ったものです。

加重平均:

加重平均では、さまざまな状況の重要性または発生確率を考慮して、データの大きさのレベルを計算します。

wは重量

平均値の非常に大きな欠点は、極端な値の影響を受けやすいことです。これはよく「XX を平均化する」と言われているものです。平均化されることに関する次のようなジョークをよく目にします。

これらすべては、算術平均指標が極端な値の影響を受けやすいことを示しています。観測されたデータ指標に極端な値や外れ値がある場合、指標の全体的な大きさのレベルを表すために単純に算術平均を使用することはできません。この時点では、後で紹介する中央値と最頻値の指標を使用する必要があります。

幾何平均は通常、平均成長率または平均変化率を計算するために使用されます。調和平均は、メトリック内の各数値の逆数の算術平均の逆数です。これら 2 種類の手段はほとんど使用されないため、ここでは詳細には説明しません。

(2)中央値

いわゆる中央値とは、小さい数から大きい数へと並べられた数字のグループの真ん中にある数字を指します。一連の数字のうち、半分の数字はこの数字より小さく、残りの半分の数字はこの数字より大きくなります。

中央値の利点は、極端な値の影響を受けないことです。データ指標に外れ値や極端な値が発生しやすい場合は、平均値ではなく中央値の測定値を使用する方が適切です。

例えば、身長が175cm、165cm、165cm、180cm、226cm(ヤオミン)の5人がいます。平均を計算すると、5人の平均身長は182cmになります。この結果は明らかに不合理です。 5人のうち3人は身長が180cm未満です。しかし、中央値を使用してこれら 5 人の全体的な身長レベルを測定すると、これら 5 人の身長の中央値は 175cm となり、明らかにこのデータ セットの平均レベルをより適切に表すことができます。

私たちの日常業務では、多くの指標が極端な値を持ちます。このような場合、平均値だけに焦点を当てると、実際の状況を私たちに示すことが難しくなります。

(3)モード

変数の最頻値は、最も頻繁に発生する値です。変数には複数のモードを設定できます。最頻値は、中央値や平均値ほど一般的には使用されません。

モード インジケーターの欠点は、モードですべての情報が活用されないことです。しかし、大多数にはいくつかの利点があります。まず、中央値と同様に、モードは極端な値の影響を受けません。第二に、モードには特別な用途があり、平均と中央値では離散変数の中心傾向を説明できないのに対し、モードは離散変数の中心傾向を測定するために使用できます。

変動を記述するということは、乖離傾向の数値特性を通じてデータ指標の変動レベルを表現することを意味します。

データ指標については、パフォーマンスが比較的安定していることを期待しています。データ指標が大きく変動すると、その指標の背後にあるルールを理解することが難しくなり、変化する傾向を予測することができなくなり、リスクも増大します。金融業界では、収益指標の変動が直接的にリスクとして捉えられることも少なくありません。

偏差傾向を表すために使用する数値特性は通常、範囲、標準偏差、分散、変動係数です。

(1)範囲

範囲は、実際には一連の数値の最大変動範囲です。次のように表現できます。

範囲 = 最大値 - 最小値

範囲の計算は簡単ですが、実際の生活ではほとんど使用されません。その理由は、範囲インジケーターが外れ値の影響を受けやすいためです。

代替の尺度は四分位範囲です。データの最小 25% と最大 25% が除去された残りの範囲は四分位範囲 (IQR)、または略して四分位範囲と呼ばれます。

(2)標準偏差

標準偏差は、個別の傾向を測定するための比較的一般的な指標です。その式は次のとおりです。

ここで、σ は標準偏差、μ は平均、Xi は指標内の各値、N は指標内の数値を表します。多くの初心者アナリストは、数式を見ると圧倒されてしまいます。標準偏差の計算式は、データアナリストが習得しなければならない計算式です。では、この公式は暗記すべきなのでしょうか?そんなはずはない!データ分析に関する統計知識を習得し、統計式を暗記する正しい方法は、まず理論や式の意味を理解し、それを暗記することです。

次に、記憶の標準偏差の公式の捉え方を紹介します。

標準偏差指標がデータセットの変動を表すことができる理由を理解する

高校の数学教師が黒板に書いた距離の公式

点から平均線までの平均距離を使用してボラティリティを測定します。

以上が標準偏差の計算式を理解して暗記するプロセスです。統計の知識や公式を学ぶときは、暗記を避けなければなりません。公式や理論を理解するには、類推、演繹、図表などの方法を総合的に活用する必要があります。

母集団標準偏差と標本標準偏差

先ほど紹介した標準偏差の式

母集団サンプルの場合の標準偏差の計算式です。しかし、データアナリストの実際の業務では、指標データの全量を使用して変動を観察するのではなく、データの一部に基づいて標準偏差を計算して変動を測定する場合が多くあります(サンプリングシナリオ)。

たとえば、DAU 標準偏差を計算する場合、通常は一定期間内の日次 DAU の標準偏差を計算し、データベースからすべての日付範囲内の日次 DAU を抽出して標準偏差を計算するわけではありません。一定期間にわたるサンプルから計算された標準偏差を使用して、母集団の標準偏差を推定します。

サンプリング標準偏差の計算式は次のとおりです。

この式は、形式的には母標準偏差の式と非常に似ていますが、わずかな違いがあります。これは、標本標準偏差が真の母集団標準偏差ではなく、母集団標準偏差の推定値にすぎないためです。


分散は標準偏差の二乗であり、一連のデータ指標の変動を表すためにも使用されます。式は次のとおりです。

人口分散:

サンプリング分散:

分散は次元の観点から平均と直接比較できないため、実際にはあまり使用されません。

(3)変動係数

2 つのデータの変動を比較する必要がある場合、2 つのデータの測定スケールが大きく異なる場合、またはデータの次元が異なる場合は、標準偏差を直接使用して比較することは適切ではありません。

数年前、私は減量を経験しました(当時の体重は95kgでした)。当時はダイエットや運動など様々な方法が取り入れられていました。そして、誘惑に抵抗できずに食べ過ぎてしまうことが多く、それが時々体重のリバウンドにつながります。つまり、私の体重は毎月約 2.5kg 変動します (サンプリング標準偏差)。私の同僚の女性、エイミーさん(1990年代生まれ)も当時減量していましたが、彼女の基本体重は46~49kgで、体重は毎月約1kg変動していました(サンプリング標準偏差)。これは私の体重変動が彼女よりも明らかに大きいことを意味しますか?いいえ、私の基本体重は大きいので、体重を増やしたり減らしたりするのは比較的簡単です。一方、この女性の同僚は基本体重が軽いので、体重の変化も小さくなります。

2 つのデータ セットの大きさが異なり、その変動を比較する必要がある場合、標準偏差またはサンプリング標準偏差を直接比較することはできません。比較を行う前に、測定スケールと寸法の影響を排除する必要があります。今回は、変動係数指標を使用して、異なる大きさのデータ指標の変動を測定します。変動係数の式は次のとおりです。

2 つの数値セット間の相関関係を測定するために最もよく使用される指標は、ピアソン相関係数です。ピアソン相関係数の式は次のとおりです。

2 つの数値セット間の相関係数が 1 の場合、2 つの数値セットがまったく同じ変化傾向 (一緒に上昇と下降) を示していることを意味します。 2 つの数値セット間の相関係数が -1 の場合、2 つの数値セットが完全に反対の変化傾向を示していることを意味します。相関係数が 0 の場合、2 つの数値セットの間に線形相関がないことを示します。

ピアソン相関係数を使用して相関を測定する場合、次の 2 つの点に注意する必要があります。

まず、ピアソン相関係数は、2 つのデータ セット間の線形関係を測定する指標です。関係が非線形である場合、ピアソン相関係数は特に適切な指標ではない可能性があります。この時点で、測定のための他の相関係数を見つける必要があります。スピアマン順位相関係数、点双列相関係数など、さまざまなカテゴリのデータを測定するための相関係数は数十種類あります。興味があれば、詳しく調べてみてください。

第二に、相関関係は因果関係と同じではありません。 2 つの要素または次元の相関性が高いことがわかっていても、必ずしもそのうちの 1 つがもう 1 つの変化の原因であるとは限りません。それらは単に大きさが増減する関係にあるだけなのかもしれません。たとえば、次のケースです。

ナマコをよく食べる人は平均IQが高い

アイスキャンディーの売り上げが上がれば上がるほど、水泳中の死亡事故が増える

明らかに、これら 2 つのケースに示されている相関関係は因果関係ではありません。

ナマコをよく食べるグループはIQが高いが、これは裕福な家庭だけがナマコをよく食べるからかもしれない。一般的に言えば、裕福な家庭出身の人はより良い教育を受けることができ、より広い世界を見ることができるため、IQテストでより良い成績を収める可能性があります。

さらに、アイスキャンディーの販売量と水泳中に溺死した人の数には正の相関関係があります。これは、一般的に、気温が高いほどアイスキャンディーの販売量が増えるためです。同時に、天気が暑くなるにつれて、泳ぎに行きたくなる人も増えます。泳ぐ人が増えれば増えるほど、溺れる人も増えます。

上記の 2 つの事例から、2 つの要因の間に相関関係があるというだけでは、2 つの要因の間に因果関係があると結論付けることはできないことがわかります。

データ アナリストは、変数間に因果関係があるかどうかを判断するために、他の多くの情報を必要とします。一方、データ アナリストは、ビジネスに対する理解に基づいて因果関係が存在するかどうかを判断する必要があります。データに反映された相関関係がビジネスの観点から合理的である場合にのみ、データ アナリストは 2 つの変数の間に特定の因果関係があると言うことができます。これは、アナリストの業務をビジネスから切り離せない理由でもあります。一方、方法とツールの面では、2 つの変数グループ間の因果関係を定義するために、データ アナリストは A/B テストや因果推論手法を使用してさらに調査を行う必要があります。

さらに、線形回帰アルゴリズムを通じて相関関係を判断することもできます。

線形回帰分析は、2 つ以上の変数間の定量的な線形関係を決定するために使用される方法です。線形回帰アルゴリズムは、約 200 年の歴史を持つアルゴリズムであり、1 つの変数と別の変数または複数の変数の間の定量的な関係を取得するのに役立ちます。

たとえば、線形回帰分析によって次の定量的な関係を検証できます。

トレンド分析とは、時系列でデータ指標の変化する方向とパターンを説明することを指します。通常、データ指標の傾向分析を実行するには 2 つの方法があります。1 つは線形回帰法を使用して傾向分析を実行する方法です。もう 1 つは、時系列手法を使用して傾向分析を実行することです。

単純なシナリオでは、線形回帰アルゴリズムを使用してデータの変化の方向を判断できます。では、具体的にはどのようにすればよいのでしょうか?

日付と時刻に番号を付けてそれを独立変数として使用し、各時点の指標の値を従属変数として使用することができます。この時点で適合された線形関係は、時間の経過に伴う従属変数の変化です。まず、日付に番号を付けて独立変数を生成します。

たとえば、T 日が現在の日を表し、従属変数の i 日前から昨日までの傾向の変化を計算したい場合、この命題を、Ti から T-1 日 (昨日) までのデータ指標の傾向の変化を計算するという命題に変換できます。日付に基づいて一連の変数を生成します。 Ti を開始時間として、その値が 1 に等しく、T-i+1 が 2、...T-1 が i-1 であるとします。この変数のセットを独立変数と呼びます。次に、独立変数(時間)と指標の変化の間の線形関数関係を当てはめます。

このとき、係数β1の意味は、時間の経過に伴う指標yの平均変化です。 β1 が正の場合、この期間中、時間が経つにつれて、指標 y が正の変化傾向、つまり成長傾向を示していることを意味します。逆に、β1 が負の場合、時間の経過とともに指標 y が負の傾向を示すことを意味します。

事例2:パンダ社の購入率データ傾向分析

Excelで回帰分析を完了できます

(1)線を選択 - 右クリック - [トレンドラインを追加]

(2)右側に[トレンドラインの形式の設定]モジュールが表示されます。モジュールの「トレンドライン オプション」で、「線形」を選択します。下の[トレンドを表示]と[R二乗値を表示]をチェックします。

(3)あるいは、Excelの数式を直接使用して切片と係数を取得することもできます。具体的な式については、linest(y,x) を参照してください。


さらに、時系列分析を通じてデータ指標のトレンドライン特性を発見することもできます。時系列関連コンテンツは後日公開予定です。学習内容が比較的深いので、まずはそこに注目してみるのもよいでしょう。

プレビュー記事 1: 使いやすい時系列分析 1: 基本プロセスと ARIMA (数学と Python の基礎知識が必要)

プレビュー記事2: 簡単に使える時系列分析2: Prophetモデル(Pythonの基礎知識が必要)

<<:  データ操作とは何ですか? (企業のデジタル変革においてデータ運用はどのような役割を果たすのか?)

>>:  データ操作にはどのような機能が必要ですか (ビジネス データ分析は管理者にとって必要な機能ですか)

推薦する

婦人服新メディア運営計画(小紅書服装マーケティング運営計画、一人でセルフメディアをうまく​​やる方法)

小紅書服装マーケティング運営計画、どうすればセルフメディアで成功できるかXiaohongshu は、...

家具ブランドのマーケティング戦略(家具ブランド開発の現状は?家具ブランドのマーケティングプロモーション戦略の重点は?)

家具ブランドの現在の発展状況は?家具ブランドのマーケティングおよびプロモーション戦略の焦点は何です...

美容ブランドマーケティング会社(最新の世界トップ100美容企業)

最新の世界トップ100美容企業先日、著名な化粧品メディア「ウィメンズ・ウェア・デイリー(WWD)」が...

IP アドレスを使用して SSL 証明書を申請できますか?

IP アドレスを使用して SSL 証明書を申請できますか?インターネットの情報化時代において、ネット...

DDoS攻撃を防ぐ効果的な方法:サーバーの実際のIPアドレスを隠す

現在、ウェブサイト サーバーのセキュリティはますます注目されていますが、ハッカーが DDoS を利用...

米国のクラウド サーバーの CPU 使用率が高い理由は何ですか?どうすれば解決できるでしょうか?

アメリカのクラウド サーバーは、登録が不要、価格が安い、ハードウェア構成が高いなどの利点があるため、...

一般的に資本運用の基本的な内容は何ですか? (資本の4つの主要な運用法則は人類社会の発展を効果的に促進する)

資本の4つの主要な運用法則は、人類社会の発展を効果的に促進する#Record my 2023# 牛八...

倉庫運営データ(中国の倉庫運営指数は1月に51.2%となり、12か月連続で拡大)

中国の倉庫指数は1月に51.2%となり、12か月連続で拡大した。中国新聞社は2月2日、中国物流購買連...

Debian 10 でのタイムゾーンの設定と変更に関するチュートリアル

多くのシステム関連のタスクやプロセスでは、正しいタイムゾーンを使用することが重要です。たとえば、co...

スキンケアブランドのプロモーション(スキンケア業界をプロモーションするには?プロモーションに適したプラットフォームはどれですか?)

スキンケア製品業界を宣伝するには?プロモーションにはどのプラットフォームが適していますか?女性ユーザ...

ワインブランドマーケティング(酒類ブランドへの投資誘致方法、3つのマーケティング戦略)

酒類ブランドへの投資誘致方法:3つのマーケティング戦略多くの酒類メーカーは投資を誘致する際に、同じセ...

情報流通広告プロモーションの課金方法(Toutiaoの情報流通プロモーションの課金料金はいくらですか?入札・課金方式は何ですか?)

Toutiaoの情報流通促進にはどれくらいの費用がかかりますか?入札と価格設定はどのように機能しま...

自分自身を「絞り出す」方法と「グループのニーズ」を推測する方法を教えます!

著者: Fox Loves Nonsenseこの記事を書いた本来の目的は、数人のクラスメートの問題を...