運用に関するデータ分析とは何ですか? (データ分析でよく使われる 5 つの統計概念のうち、いくつ知っていますか?)

運用に関するデータ分析とは何ですか? (データ分析でよく使われる 5 つの統計概念のうち、いくつ知っていますか?)

データ分析でよく使われる 5 つの統計概念のうち、いくつ知っていますか?

データ分析を始めるのに必要なスキルは何かという質問に答えるとき、私はよく統計の知識について言及します。統計学は、数学理論を使用してデータ分析を実行する手法です。統計を通じて、より情報主導で的を絞った方法でデータを操作できるようになります。

データ分析業務では、統計を使用することで、データがどのように正確に整理されているかをより深く注意深く観察し、この整理構造に基づいてデータ分析方法を決定することで、より多くの情報を得ることができます。

今日は、データ分析でよく使われる 5 つの基本的な統計概念を紹介します。

機能統計

特徴統計は、おそらくデータ サイエンスで最も一般的に使用される統計概念です。

これは、偏差、分散、平均、中央値、パーセンタイルなど、データセットを調査するときによく使用される統計手法の集合です。

機能の統計を理解し、コードに実装するのは非常に簡単です。次の図をご覧ください。

上の図では、中央の直線がデータの中央値を表しています。中央値は外れ値に対してより堅牢であるため、平均値よりも使用されます。

最初の四分位数は基本的に 25 パーセンタイルであり、データの 25% がこの値を下回ることを意味します。第 3 四分位数は 75 パーセンタイルであり、データの 75% がこの値を下回ることを意味します。最大値と最小値は、データ範囲の上限と下限を表します。

ボックス プロットは、基本的な統計的特徴の役割をわかりやすく示しています。

  • ボックス プロットが短い場合、多くの値が狭い範囲に分布しているため、多くのデータ ポイントが類似していることを意味します。
  • ボックス プロットの値が高い場合、値が広く分布しているため、ほとんどのデータ ポイントが互いに大きく異なっていることを意味します。
  • 中央値が下限に近い場合、ほとんどのデータはより低い値を持ちます。中央値が上側に近い場合、ほとんどのデータはより高い値を持ちます。基本的に、中央線がボックスの中央にない場合は、データが歪んでいることを示します。
  • ボックスの上下の線が長い場合は、データの標準偏差と分散が高く、値が広がって大きく変動していることを意味します。ボックスの片側に長い線があり、もう片側にはそれほど長くない場合は、データが一方向にのみ大きく変化する可能性があります。

確率分布

確率は、何らかの出来事が起こる可能性をパーセンテージで表したものと定義できます。

データ サイエンスでは、これは 0 から 1 のスケールで定量化されることが多く、 0 はイベントが確実に発生しないことを意味し、1 はイベントが確実に発生することを意味します。

確率分布は、すべての可能な値が発生する確率を表す関数です。次の図をご覧ください。



一般的な確率分布、一様分布(上)、正規分布(中央)、ポアソン分布(下):

均等配分

一様分布は最も基本的な確率分布です。特定の範囲内でのみ現れる値を持ち、その範囲外の値はすべて 0 になります。0 または別の値の 2 つのカテゴリを持つ変数と考えることもできます。カテゴリ変数は0以外の複数の値を持つ場合がありますが、それでも複数の均一に分布する区分関数として視覚化できます。

正規分布

正規分布はガウス分布とも呼ばれ、平均と標準偏差によって定義されます。平均は空間全体に分布し、標準偏差はそれがどの程度広がっているかを制御します。他の分布との主な違いは、標準偏差がすべての方向で同じであることです。したがって、ガウス分布を使用すると、データ セットの平均だけでなく、データの広がり、つまり、データが広い範囲に広がっているか、主にいくつかの値に集中しているかがわかります。

ポアソン分布

ポアソン分布は正規分布に似ていますが、多少の歪みがあります。正規分布と同様に、ポアソン分布は歪度値が低い場合、すべての方向に比較的均一に広がります。ただし、歪度の値が非常に大きい場合、さまざまな方向へのデータの広がりは異なります。一方の方向ではデータの拡散が非常に大きく、もう一方の方向では拡散が非常に小さくなります。

ガウス分布に遭遇した場合、ガウス分布に対してデフォルトで適切に機能するアルゴリズムが多数あることがわかっているので、まずそれらのアルゴリズムを見つける必要があります。ポアソン分布の場合、空間拡張の変化に対して堅牢なアルゴリズムを選択するように特に注意する必要があります。

次元削減

次元削減という用語は、データセットの次元を削減するという意味として直感的に理解されます。データ サイエンスでは、これは特徴変数の数です。次の図をご覧ください。

上の画像の立方体は、3 次元で合計 1000 個のポイントを持つデータセットを表しています。

現在の計算能力では、1,000 ポイントを計算するのは簡単ですが、規模が大きくなると問題が発生します。

ただし、立方体の側面など、2 次元の観点からのみデータを見ると、すべての色を簡単に分離できることがわかります。

次元を削減することで、3D データを 2D 平面上に表示し、計算に必要なポイントの数を実質的に 100 に削減し、計算量を大幅に節約します。

もう 1 つの方法は、特徴量の削減によって次元を削減することです。このアプローチを使用すると、分析にとって重要ではないと思われる機能をすべて削除できます。

たとえば、データセットを調べた結果、10 個の特徴のうち 7 個は出力と高い相関関係があり、残りの 3 個は相関関係が非常に低いことが判明する場合があります。

まあ、これら 3 つの関連性の低い特徴は計算する価値がない可能性があり、出力に影響を与えずに分析から単に削除できる可能性があります

次元削減のための最も一般的な統計手法は PCA であり、基本的には、出力に対する重要性、つまり関連性を示す特徴のベクトル表現を作成します。 PCA は上記の 2 次元削減操作を実行するために使用できます。

オーバーサンプリングとアンダーサンプリング

オーバーサンプリングとアンダーサンプリングは、分類問題で使用される手法です。たとえば、1 つのクラスの例は 2000 個ありますが、2 番目のクラスの例は 200 個しかありません。

これにより、データをモデル化して予測を行うために使用する多くの機械学習技術が台無しになります。さて、オーバーサンプリングとアンダーサンプリングでこの状況に対処できます。

次の図をご覧ください。

上図の左側と右側では、青いクラスの方がオレンジ色のクラスよりもサンプル数が多くなっています。この場合、機械学習モデルのトレーニングに役立つ 2 つの前処理の選択肢があります。

アンダーサンプリングとは、サンプル数の多いカテゴリから一部のデータのみを選択し、サンプル数の少ないカテゴリからはできるだけ多くのサンプルを使用することを意味します。この選択は、分類の確率分布を維持するために行う必要があります。サンプル数を減らすことで、データセットのバランスをより良くするだけです。

オーバーサンプリングとは、少数クラスのコピーを作成して、多数クラスと同じ数の例を作成することを意味します。少数派層の分布を維持するためにレプリカが作られるでしょう。より多くのデータを取得することなく、データセットをよりバランスの取れたものにしました。

ベイズ統計

ベイズ統計を使用する理由を完全に理解するには、まず頻度主義統計がどこで失敗するかを理解する必要があります。頻度主義統計は、「確率」という言葉を聞いたときにほとんどの人が最初に思い浮かべる統計の種類です。

これは、イベントの発生確率を分析するために何らかの数学理論を適用することを含み、具体的には、計算するデータは事前​​データのみです。

サイコロを一つ渡して、6 が出る確率はどれくらいかと尋ねたら、ほとんどの人は 6 分の 1 と答えるでしょう。

しかし、誰かがあなたに、常に 6 が出る特定のサイコロを渡したらどうでしょうか?頻度分析では過去のデータのみが考慮されるため、不正なサイコロが与えられたという事実は考慮されません。

ベイズ統計ではこの点が考慮されており、ベイズの定理を使ってこれを説明することができます。


式中の確率 P(H) は、本質的には、イベント発生の確率に関する過去のデータに基づく頻度分析です。式中の P(E|H) は可能性と呼ばれ、本質的には周波数分析から得られた情報に基づいて現象が正しい確率です。

たとえば、サイコロを 10,000 回振って、最初の 1,000 回ですべて 6 が出た場合、サイコロが不正行為をしているとほぼ確信できます。頻度分析が非常に適切に行われていれば、6 ポイントの推測が正しいと確信できます。同時に、サイコロの不正行為が実際にあるかどうか、独自の事前確率と頻度分析に基づいて、不正行為の要素も考慮します。

式からわかるように、ベイズ統計ではすべてが考慮に入れられます。

過去のデータが将来のデータや結果を適切に表していないと思われる場合は、ベイズ統計手法を使用する必要があります。

<<:  オペレーション データ スペシャリストの仕事内容 (Meituan テイクアウト オペレーション試験の受験方法、受験要件、キャリア開発の見通しは良好か)

>>:  運用管理には何が含まれますか? (セキュリティ運用管理:受動的な防御から能動的な監視へ)

推薦する

代理店運営データ(インターネットマーケティング代理店運営:ビジネスを成功に導く)

インターネットマーケティングエージェンシー: ビジネスを成功に導く今日のデジタル時代において、オンラ...

建材ブランド企画会社(アルファプランニングカンパニー)

アルファプランニング「科学投資」の調査研究によれば、中国の中小企業の平均寿命はわずか3~4年で、毎年...

ブランドのプロモーションと確立(現代人はブランドしか認識していないので、企業はどのようにブランドを確立し、プロモーションすべきでしょうか?)

現代では人々はブランドしか認識しませんが、企業はどのようにブランドを確立し、宣伝すべきでしょうか?今...

phpMyAdmin を使用して MySQL データベースをインポートする方法は?

phpMyAdmin は、データベースやデータ テーブルの作成方法、MySQL データベース スクリ...

ブランド企画とプロモーション(Longxin.com のヒント: ブランドをより魅力的にする企業宣伝計画!)

Longxin.com のヒント: 企業の宣伝計画により、ブランドの魅力が高まります!今日の競争の...

Ubuntu 18.04 に VMware Tools をインストールする方法

VMwe は、単一のコンピューター上で複数の独立したオペレーティング システムを実行できる、成熟した...

Shopifyストアを閉鎖/キャンセルする方法と注意事項

今日の社会では、越境電子商取引は最もホットな産業の 1 つになっており、Shopify は高速 We...

コンテンツ運営(小紅書運営戦略:0から1までの人気コンテンツを生み出す)

Xiaohongshuエージェント操作完全ガイド:0から1まで人気コンテンツを作成する小紅書エージ...

Ubuntu で何ができるのでしょうか? Ubuntuシステムの主な機能

Ubuntu で何ができるのでしょうか? Ubuntu システムは、デスクトップ、サーバー、ソフトウ...

生地ブランドランキング(カーテン生地業界のトップ10ブランド、あなたが知っているブランドはどれですか?)

カーテン生地業界のトップ 10 ブランド、どれをご存知ですか?中国のトップ10カーテンブランドは何で...

製品プロモーションコピーライティング企画(広西師範大学出版グループ株式会社 2024 年度採用案内)

広西師範大学出版グループ株式会社 2024年度採用案内広西師範大学出版局1986年11月18日桂林に...

製品データ操作(デジタル構築三部作のデータ操作)

デジタル構築の三部作: データ操作多くのインターネット企業がデジタル構築を行っていますが、デジタル構...

WordPress ウェブサイトの記事にキーワード内部リンクを自動的に追加するにはどうすればよいですか?

WodPess ウェブサイトの記事内の Tianjian キーワードの内部リンクは、検索エンジンがウ...

ケーキ屋のプロモーション方法(ケーキ屋のオーナーが「低価格で集客」で7日間で12万稼いだ。儲かるルーティンを教えます)

ケーキ屋の店主は「低価格で集客」し、7日間で12万を稼いだ。これがあなたのためのお金稼ぎのルーチンで...

WordPress でコメントを有効または無効にする方法

WodPess は現在最も人気のあるコンテンツ管理システムの 1 つです。海外のサーバーをレンタルす...