運用に関するデータ分析とは何ですか? (データ分析でよく使われる 5 つの統計概念のうち、いくつ知っていますか?)

運用に関するデータ分析とは何ですか? (データ分析でよく使われる 5 つの統計概念のうち、いくつ知っていますか?)

データ分析でよく使われる 5 つの統計概念のうち、いくつ知っていますか?

データ分析を始めるのに必要なスキルは何かという質問に答えるとき、私はよく統計の知識について言及します。統計学は、数学理論を使用してデータ分析を実行する手法です。統計を通じて、より情報主導で的を絞った方法でデータを操作できるようになります。

データ分析業務では、統計を使用することで、データがどのように正確に整理されているかをより深く注意深く観察し、この整理構造に基づいてデータ分析方法を決定することで、より多くの情報を得ることができます。

今日は、データ分析でよく使われる 5 つの基本的な統計概念を紹介します。

機能統計

特徴統計は、おそらくデータ サイエンスで最も一般的に使用される統計概念です。

これは、偏差、分散、平均、中央値、パーセンタイルなど、データセットを調査するときによく使用される統計手法の集合です。

機能の統計を理解し、コードに実装するのは非常に簡単です。次の図をご覧ください。

上の図では、中央の直線がデータの中央値を表しています。中央値は外れ値に対してより堅牢であるため、平均値よりも使用されます。

最初の四分位数は基本的に 25 パーセンタイルであり、データの 25% がこの値を下回ることを意味します。第 3 四分位数は 75 パーセンタイルであり、データの 75% がこの値を下回ることを意味します。最大値と最小値は、データ範囲の上限と下限を表します。

ボックス プロットは、基本的な統計的特徴の役割をわかりやすく示しています。

  • ボックス プロットが短い場合、多くの値が狭い範囲に分布しているため、多くのデータ ポイントが類似していることを意味します。
  • ボックス プロットの値が高い場合、値が広く分布しているため、ほとんどのデータ ポイントが互いに大きく異なっていることを意味します。
  • 中央値が下限に近い場合、ほとんどのデータはより低い値を持ちます。中央値が上側に近い場合、ほとんどのデータはより高い値を持ちます。基本的に、中央線がボックスの中央にない場合は、データが歪んでいることを示します。
  • ボックスの上下の線が長い場合は、データの標準偏差と分散が高く、値が広がって大きく変動していることを意味します。ボックスの片側に長い線があり、もう片側にはそれほど長くない場合は、データが一方向にのみ大きく変化する可能性があります。

確率分布

確率は、何らかの出来事が起こる可能性をパーセンテージで表したものと定義できます。

データ サイエンスでは、これは 0 から 1 のスケールで定量化されることが多く、 0 はイベントが確実に発生しないことを意味し、1 はイベントが確実に発生することを意味します。

確率分布は、すべての可能な値が発生する確率を表す関数です。次の図をご覧ください。



一般的な確率分布、一様分布(上)、正規分布(中央)、ポアソン分布(下):

均等配分

一様分布は最も基本的な確率分布です。特定の範囲内でのみ現れる値を持ち、その範囲外の値はすべて 0 になります。0 または別の値の 2 つのカテゴリを持つ変数と考えることもできます。カテゴリ変数は0以外の複数の値を持つ場合がありますが、それでも複数の均一に分布する区分関数として視覚化できます。

正規分布

正規分布はガウス分布とも呼ばれ、平均と標準偏差によって定義されます。平均は空間全体に分布し、標準偏差はそれがどの程度広がっているかを制御します。他の分布との主な違いは、標準偏差がすべての方向で同じであることです。したがって、ガウス分布を使用すると、データ セットの平均だけでなく、データの広がり、つまり、データが広い範囲に広がっているか、主にいくつかの値に集中しているかがわかります。

ポアソン分布

ポアソン分布は正規分布に似ていますが、多少の歪みがあります。正規分布と同様に、ポアソン分布は歪度値が低い場合、すべての方向に比較的均一に広がります。ただし、歪度の値が非常に大きい場合、さまざまな方向へのデータの広がりは異なります。一方の方向ではデータの拡散が非常に大きく、もう一方の方向では拡散が非常に小さくなります。

ガウス分布に遭遇した場合、ガウス分布に対してデフォルトで適切に機能するアルゴリズムが多数あることがわかっているので、まずそれらのアルゴリズムを見つける必要があります。ポアソン分布の場合、空間拡張の変化に対して堅牢なアルゴリズムを選択するように特に注意する必要があります。

次元削減

次元削減という用語は、データセットの次元を削減するという意味として直感的に理解されます。データ サイエンスでは、これは特徴変数の数です。次の図をご覧ください。

上の画像の立方体は、3 次元で合計 1000 個のポイントを持つデータセットを表しています。

現在の計算能力では、1,000 ポイントを計算するのは簡単ですが、規模が大きくなると問題が発生します。

ただし、立方体の側面など、2 次元の観点からのみデータを見ると、すべての色を簡単に分離できることがわかります。

次元を削減することで、3D データを 2D 平面上に表示し、計算に必要なポイントの数を実質的に 100 に削減し、計算量を大幅に節約します。

もう 1 つの方法は、特徴量の削減によって次元を削減することです。このアプローチを使用すると、分析にとって重要ではないと思われる機能をすべて削除できます。

たとえば、データセットを調べた結果、10 個の特徴のうち 7 個は出力と高い相関関係があり、残りの 3 個は相関関係が非常に低いことが判明する場合があります。

まあ、これら 3 つの関連性の低い特徴は計算する価値がない可能性があり、出力に影響を与えずに分析から単に削除できる可能性があります

次元削減のための最も一般的な統計手法は PCA であり、基本的には、出力に対する重要性、つまり関連性を示す特徴のベクトル表現を作成します。 PCA は上記の 2 次元削減操作を実行するために使用できます。

オーバーサンプリングとアンダーサンプリング

オーバーサンプリングとアンダーサンプリングは、分類問題で使用される手法です。たとえば、1 つのクラスの例は 2000 個ありますが、2 番目のクラスの例は 200 個しかありません。

これにより、データをモデル化して予測を行うために使用する多くの機械学習技術が台無しになります。さて、オーバーサンプリングとアンダーサンプリングでこの状況に対処できます。

次の図をご覧ください。

上図の左側と右側では、青いクラスの方がオレンジ色のクラスよりもサンプル数が多くなっています。この場合、機械学習モデルのトレーニングに役立つ 2 つの前処理の選択肢があります。

アンダーサンプリングとは、サンプル数の多いカテゴリから一部のデータのみを選択し、サンプル数の少ないカテゴリからはできるだけ多くのサンプルを使用することを意味します。この選択は、分類の確率分布を維持するために行う必要があります。サンプル数を減らすことで、データセットのバランスをより良くするだけです。

オーバーサンプリングとは、少数クラスのコピーを作成して、多数クラスと同じ数の例を作成することを意味します。少数派層の分布を維持するためにレプリカが作られるでしょう。より多くのデータを取得することなく、データセットをよりバランスの取れたものにしました。

ベイズ統計

ベイズ統計を使用する理由を完全に理解するには、まず頻度主義統計がどこで失敗するかを理解する必要があります。頻度主義統計は、「確率」という言葉を聞いたときにほとんどの人が最初に思い浮かべる統計の種類です。

これは、イベントの発生確率を分析するために何らかの数学理論を適用することを含み、具体的には、計算するデータは事前​​データのみです。

サイコロを一つ渡して、6 が出る確率はどれくらいかと尋ねたら、ほとんどの人は 6 分の 1 と答えるでしょう。

しかし、誰かがあなたに、常に 6 が出る特定のサイコロを渡したらどうでしょうか?頻度分析では過去のデータのみが考慮されるため、不正なサイコロが与えられたという事実は考慮されません。

ベイズ統計ではこの点が考慮されており、ベイズの定理を使ってこれを説明することができます。


式中の確率 P(H) は、本質的には、イベント発生の確率に関する過去のデータに基づく頻度分析です。式中の P(E|H) は可能性と呼ばれ、本質的には周波数分析から得られた情報に基づいて現象が正しい確率です。

たとえば、サイコロを 10,000 回振って、最初の 1,000 回ですべて 6 が出た場合、サイコロが不正行為をしているとほぼ確信できます。頻度分析が非常に適切に行われていれば、6 ポイントの推測が正しいと確信できます。同時に、サイコロの不正行為が実際にあるかどうか、独自の事前確率と頻度分析に基づいて、不正行為の要素も考慮します。

式からわかるように、ベイズ統計ではすべてが考慮に入れられます。

過去のデータが将来のデータや結果を適切に表していないと思われる場合は、ベイズ統計手法を使用する必要があります。

<<:  オペレーション データ スペシャリストの仕事内容 (Meituan テイクアウト オペレーション試験の受験方法、受験要件、キャリア開発の見通しは良好か)

>>:  運用管理には何が含まれますか? (セキュリティ運用管理:受動的な防御から能動的な監視へ)

推薦する

情報フロー広告とは? (今日の学校:情報フロー広告とは?)

今日の学校:情報フロー広告とは何ですか? Toutiao の情報の流れは、従来のニュース アプリや ...

ブランドマーケティング(大量販売で大規模なプロモーションビジネスを活性化、これらのブランドはDouyin 618で優勝)

これらのブランドは、大量のボリュームを利用して売上を伸ばし、Douyinの618イベントで優勝しまし...

ブランドマーケティングフルケース企画会社(プロのブランドフルケース企画会社星州ブランドコンサルティング:ミシュランのビッグポジショニング事例分析)

専門ブランドフルケース企画会社星州ブランドコンサルティング:ミシュランの大きなポジショニング事例分析...

Linux US仮想ホストがメール機能メソッドをサポートしているかどうかを確認する

現在、多くのウェブマスターは、ブログ、フォーラム、その他のウェブサイトを構築するために Linux ...

販売データ操作は何を行いますか? (電子商取引の運用プロセスにおけるデータ分析部門の重要性についてお話しいただけますか?)

電子商取引の運営におけるデータ分析部門の重要性についてお話しいただけますか?データ分析部門は、電子商...

情報フロー広告スクリプト(深掘り乾物)

詳細情報今日頭広告、百度情報フロー、広電通広告と比較すると、360度情報フロー広告の市場シェアは若干...

TeamViewer チュートリアル: 作成したポリシーを複数のデバイスに割り当てる方法

TemViewer ライセンスをお持ちの場合は、新しいポリシーを作成したら、それを管理対象デバイスに...

ケータリングブランド・ブランド企画会社(ケータリング空間デザインランキング公開:デザイン会社ランキングを公開!)

飲食店空間デザインランキング発表:デザイン会社ランキングも公開!ケータリング業界は非常に競争の激し...

Amazon S3 バケットの権限設定

Amazon S3 は、個人や業界の大量のデータを保存および保護するために Amazon Web S...

一般的な Elementor ページエラーを修正するにはどうすればよいですか?

Elemento で編集しようとしたときに空白ページが表示される場合は、WP のメモリが不足している...

ポッドキャスト開始から1年:私の大きな変化と成長

「A Tape Measure」の最初のエピソードは、2023年10月13日にリリースされました。...

KTVマーケティングスキル(KTVマーケティングスキルは習得必須)

KTVはマーケティングスキルを学ばなければならない21 世紀において、KTV は、人々がストレスを...

ウェブメディアコンテンツ運用(ウェブメディア運用には多くのスキルと戦略が必要)

ウェブメディアの運営には多様なスキルと戦略が必要ウェブメディアの運営には、さまざまなスキルと戦略が必...

2020年の飲料売上ランキング(2020年世界食品・飲料トップ100:ネスレが1位、伊利、蒙牛、娃哈哈がランクイン)

2020年世界食品・飲料トップ100リスト:ネスレが1位、伊利、蒙牛、娃哈哈がランクイン最近、Fo...

アプリ運用に必要なデータ分析(運用に必要なデータ分析#Pinduoduo運用)

データ分析は運用に必須のスキルです#PinduoduoOperationデータ分析は運用に必須です...