運用に関するデータ分析とは何ですか? (データ分析でよく使われる 5 つの統計概念のうち、いくつ知っていますか?)

運用に関するデータ分析とは何ですか? (データ分析でよく使われる 5 つの統計概念のうち、いくつ知っていますか?)

データ分析でよく使われる 5 つの統計概念のうち、いくつ知っていますか?

データ分析を始めるのに必要なスキルは何かという質問に答えるとき、私はよく統計の知識について言及します。統計学は、数学理論を使用してデータ分析を実行する手法です。統計を通じて、より情報主導で的を絞った方法でデータを操作できるようになります。

データ分析業務では、統計を使用することで、データがどのように正確に整理されているかをより深く注意深く観察し、この整理構造に基づいてデータ分析方法を決定することで、より多くの情報を得ることができます。

今日は、データ分析でよく使われる 5 つの基本的な統計概念を紹介します。

機能統計

特徴統計は、おそらくデータ サイエンスで最も一般的に使用される統計概念です。

これは、偏差、分散、平均、中央値、パーセンタイルなど、データセットを調査するときによく使用される統計手法の集合です。

機能の統計を理解し、コードに実装するのは非常に簡単です。次の図をご覧ください。

上の図では、中央の直線がデータの中央値を表しています。中央値は外れ値に対してより堅牢であるため、平均値よりも使用されます。

最初の四分位数は基本的に 25 パーセンタイルであり、データの 25% がこの値を下回ることを意味します。第 3 四分位数は 75 パーセンタイルであり、データの 75% がこの値を下回ることを意味します。最大値と最小値は、データ範囲の上限と下限を表します。

ボックス プロットは、基本的な統計的特徴の役割をわかりやすく示しています。

  • ボックス プロットが短い場合、多くの値が狭い範囲に分布しているため、多くのデータ ポイントが類似していることを意味します。
  • ボックス プロットの値が高い場合、値が広く分布しているため、ほとんどのデータ ポイントが互いに大きく異なっていることを意味します。
  • 中央値が下限に近い場合、ほとんどのデータはより低い値を持ちます。中央値が上側に近い場合、ほとんどのデータはより高い値を持ちます。基本的に、中央線がボックスの中央にない場合は、データが歪んでいることを示します。
  • ボックスの上下の線が長い場合は、データの標準偏差と分散が高く、値が広がって大きく変動していることを意味します。ボックスの片側に長い線があり、もう片側にはそれほど長くない場合は、データが一方向にのみ大きく変化する可能性があります。

確率分布

確率は、何らかの出来事が起こる可能性をパーセンテージで表したものと定義できます。

データ サイエンスでは、これは 0 から 1 のスケールで定量化されることが多く、 0 はイベントが確実に発生しないことを意味し、1 はイベントが確実に発生することを意味します。

確率分布は、すべての可能な値が発生する確率を表す関数です。次の図をご覧ください。



一般的な確率分布、一様分布(上)、正規分布(中央)、ポアソン分布(下):

均等配分

一様分布は最も基本的な確率分布です。特定の範囲内でのみ現れる値を持ち、その範囲外の値はすべて 0 になります。0 または別の値の 2 つのカテゴリを持つ変数と考えることもできます。カテゴリ変数は0以外の複数の値を持つ場合がありますが、それでも複数の均一に分布する区分関数として視覚化できます。

正規分布

正規分布はガウス分布とも呼ばれ、平均と標準偏差によって定義されます。平均は空間全体に分布し、標準偏差はそれがどの程度広がっているかを制御します。他の分布との主な違いは、標準偏差がすべての方向で同じであることです。したがって、ガウス分布を使用すると、データ セットの平均だけでなく、データの広がり、つまり、データが広い範囲に広がっているか、主にいくつかの値に集中しているかがわかります。

ポアソン分布

ポアソン分布は正規分布に似ていますが、多少の歪みがあります。正規分布と同様に、ポアソン分布は歪度値が低い場合、すべての方向に比較的均一に広がります。ただし、歪度の値が非常に大きい場合、さまざまな方向へのデータの広がりは異なります。一方の方向ではデータの拡散が非常に大きく、もう一方の方向では拡散が非常に小さくなります。

ガウス分布に遭遇した場合、ガウス分布に対してデフォルトで適切に機能するアルゴリズムが多数あることがわかっているので、まずそれらのアルゴリズムを見つける必要があります。ポアソン分布の場合、空間拡張の変化に対して堅牢なアルゴリズムを選択するように特に注意する必要があります。

次元削減

次元削減という用語は、データセットの次元を削減するという意味として直感的に理解されます。データ サイエンスでは、これは特徴変数の数です。次の図をご覧ください。

上の画像の立方体は、3 次元で合計 1000 個のポイントを持つデータセットを表しています。

現在の計算能力では、1,000 ポイントを計算するのは簡単ですが、規模が大きくなると問題が発生します。

ただし、立方体の側面など、2 次元の観点からのみデータを見ると、すべての色を簡単に分離できることがわかります。

次元を削減することで、3D データを 2D 平面上に表示し、計算に必要なポイントの数を実質的に 100 に削減し、計算量を大幅に節約します。

もう 1 つの方法は、特徴量の削減によって次元を削減することです。このアプローチを使用すると、分析にとって重要ではないと思われる機能をすべて削除できます。

たとえば、データセットを調べた結果、10 個の特徴のうち 7 個は出力と高い相関関係があり、残りの 3 個は相関関係が非常に低いことが判明する場合があります。

まあ、これら 3 つの関連性の低い特徴は計算する価値がない可能性があり、出力に影響を与えずに分析から単に削除できる可能性があります

次元削減のための最も一般的な統計手法は PCA であり、基本的には、出力に対する重要性、つまり関連性を示す特徴のベクトル表現を作成します。 PCA は上記の 2 次元削減操作を実行するために使用できます。

オーバーサンプリングとアンダーサンプリング

オーバーサンプリングとアンダーサンプリングは、分類問題で使用される手法です。たとえば、1 つのクラスの例は 2000 個ありますが、2 番目のクラスの例は 200 個しかありません。

これにより、データをモデル化して予測を行うために使用する多くの機械学習技術が台無しになります。さて、オーバーサンプリングとアンダーサンプリングでこの状況に対処できます。

次の図をご覧ください。

上図の左側と右側では、青いクラスの方がオレンジ色のクラスよりもサンプル数が多くなっています。この場合、機械学習モデルのトレーニングに役立つ 2 つの前処理の選択肢があります。

アンダーサンプリングとは、サンプル数の多いカテゴリから一部のデータのみを選択し、サンプル数の少ないカテゴリからはできるだけ多くのサンプルを使用することを意味します。この選択は、分類の確率分布を維持するために行う必要があります。サンプル数を減らすことで、データセットのバランスをより良くするだけです。

オーバーサンプリングとは、少数クラスのコピーを作成して、多数クラスと同じ数の例を作成することを意味します。少数派層の分布を維持するためにレプリカが作られるでしょう。より多くのデータを取得することなく、データセットをよりバランスの取れたものにしました。

ベイズ統計

ベイズ統計を使用する理由を完全に理解するには、まず頻度主義統計がどこで失敗するかを理解する必要があります。頻度主義統計は、「確率」という言葉を聞いたときにほとんどの人が最初に思い浮かべる統計の種類です。

これは、イベントの発生確率を分析するために何らかの数学理論を適用することを含み、具体的には、計算するデータは事前​​データのみです。

サイコロを一つ渡して、6 が出る確率はどれくらいかと尋ねたら、ほとんどの人は 6 分の 1 と答えるでしょう。

しかし、誰かがあなたに、常に 6 が出る特定のサイコロを渡したらどうでしょうか?頻度分析では過去のデータのみが考慮されるため、不正なサイコロが与えられたという事実は考慮されません。

ベイズ統計ではこの点が考慮されており、ベイズの定理を使ってこれを説明することができます。


式中の確率 P(H) は、本質的には、イベント発生の確率に関する過去のデータに基づく頻度分析です。式中の P(E|H) は可能性と呼ばれ、本質的には周波数分析から得られた情報に基づいて現象が正しい確率です。

たとえば、サイコロを 10,000 回振って、最初の 1,000 回ですべて 6 が出た場合、サイコロが不正行為をしているとほぼ確信できます。頻度分析が非常に適切に行われていれば、6 ポイントの推測が正しいと確信できます。同時に、サイコロの不正行為が実際にあるかどうか、独自の事前確率と頻度分析に基づいて、不正行為の要素も考慮します。

式からわかるように、ベイズ統計ではすべてが考慮に入れられます。

過去のデータが将来のデータや結果を適切に表していないと思われる場合は、ベイズ統計手法を使用する必要があります。

<<:  オペレーション データ スペシャリストの仕事内容 (Meituan テイクアウト オペレーション試験の受験方法、受験要件、キャリア開発の見通しは良好か)

>>:  運用管理には何が含まれますか? (セキュリティ運用管理:受動的な防御から能動的な監視へ)

推薦する

プライベートドメインコミュニティ運営(コンバージョン率の高いプライベートドメインコミュニティの構築方法)

コンバージョン率の高いプライベートドメインコミュニティを作成する方法今日のソーシャル メディア時代で...

定期預金マーケティングプラン(乾物|銀行員が知っておきたい預金マーケティングスキル)

実用的なヒント|銀行員が知っておくべき預金マーケティングスキル銀行員が知っておくべき預金マーケティ...

Shopify プラットフォームでストアを開設する場合のプロモーションと価格設定の戦略は何ですか?

存在するショッピファイプラットフォーム上に店舗を開設するマーチャントにとって、プロモーション活動は顧...

酒類事業計画(酒類の販売計画はありますか?)

お酒のマーケティング計画はありますか?酒類のマーケティング計画では、独自のブランド価値を創造し、ブラ...

OpenSSL コマンドを使用して SSL 証明書を生成する方法

OpenSSL は、コンピュータ ネットワーク上の通信をより安全にする暗号化ソフトウェア ライブラリ...

データ分析運用職(ユーザー運用、プロダクトマネージャーに限りなく近い運用職)

ユーザーオペレーション、プロダクトマネージャーに限りなく近いオペレーションポジションオペレーションの...

WordPressでLiteSpeed Cacheを有効にする方法

WodPess は最も人気のある Web サイト構築プログラムの 1 つです。Web サイトの機能を...

データウェアハウスの運用(データウェアハウスは、企業の分析や意思決定に不可欠であり、企業のデータ分析や運用などの問題を解決します)

データウェアハウスは、企業の分析と意思決定に不可欠であり、企業のデータ分析や運用などの問題を解決しま...

2022年の不動産販売データ(昨年、全国の商業住宅販売額は18兆元を超え、第4四半期は「テールアップ」市場が見られた)

昨年、全国の商業住宅販売額は18兆元を超え、第4四半期には「テールアップ」市場が見られた。 2021...

WordPress で背景画像を設定するにはどうすればいいですか?

WodPess で背景画像を追加するのは簡単なプロセスで、コンテンツ管理システムではさまざまな方法で...

酒類オフラインプロモーションプラン(おばあちゃんでも読める酒類業界向けダブル12マーケティングプラン5選)

おばあちゃんでもわかる、酒類業界のためのダブル12マーケティングプラン5つテキスト|チャットAIラ...

製品運用システム(0から1まで、計画から実装まで、この記事ではステップバイステップで説明します)

指標管理システムを0から1まで、計画から実装まで、この記事ではステップバイステップで説明します指標...

オンラインとオフラインの活動促進計画(韶関丹霞山新メディアマーケティング計画提案)

韶関丹霞山新メディアマーケティング計画提案1. 景勝地の背景韶関丹霞山は、独特の丹霞地形と豊かな自然...

物流振興計画(青島市は物流産業の「品質向上、コスト削減、効率化」を推進するための「20の措置」を発表)

青島市は物流産業の品質向上、コスト削減、効率化を促進するための20の措置を発表した。一方の端は生産に...