データ分析でよく使われる 5 つの統計概念のうち、いくつ知っていますか?データ分析を始めるのに必要なスキルは何かという質問に答えるとき、私はよく統計の知識について言及します。統計学は、数学理論を使用してデータ分析を実行する手法です。統計を通じて、より情報主導で的を絞った方法でデータを操作できるようになります。 データ分析業務では、統計を使用することで、データがどのように正確に整理されているかをより深く注意深く観察し、この整理構造に基づいてデータ分析方法を決定することで、より多くの情報を得ることができます。 今日は、データ分析でよく使われる 5 つの基本的な統計概念を紹介します。 機能統計 特徴統計は、おそらくデータ サイエンスで最も一般的に使用される統計概念です。 これは、偏差、分散、平均、中央値、パーセンタイルなど、データセットを調査するときによく使用される統計手法の集合です。 機能の統計を理解し、コードに実装するのは非常に簡単です。次の図をご覧ください。 上の図では、中央の直線がデータの中央値を表しています。中央値は外れ値に対してより堅牢であるため、平均値よりも使用されます。 最初の四分位数は基本的に 25 パーセンタイルであり、データの 25% がこの値を下回ることを意味します。第 3 四分位数は 75 パーセンタイルであり、データの 75% がこの値を下回ることを意味します。最大値と最小値は、データ範囲の上限と下限を表します。 ボックス プロットは、基本的な統計的特徴の役割をわかりやすく示しています。
確率分布 確率は、何らかの出来事が起こる可能性をパーセンテージで表したものと定義できます。 データ サイエンスでは、これは 0 から 1 のスケールで定量化されることが多く、 0 はイベントが確実に発生しないことを意味し、1 はイベントが確実に発生することを意味します。 確率分布は、すべての可能な値が発生する確率を表す関数です。次の図をご覧ください。 一般的な確率分布、一様分布(上)、正規分布(中央)、ポアソン分布(下): 均等配分 一様分布は最も基本的な確率分布です。特定の範囲内でのみ現れる値を持ち、その範囲外の値はすべて 0 になります。0 または別の値の 2 つのカテゴリを持つ変数と考えることもできます。カテゴリ変数は0以外の複数の値を持つ場合がありますが、それでも複数の均一に分布する区分関数として視覚化できます。 正規分布 正規分布はガウス分布とも呼ばれ、平均と標準偏差によって定義されます。平均は空間全体に分布し、標準偏差はそれがどの程度広がっているかを制御します。他の分布との主な違いは、標準偏差がすべての方向で同じであることです。したがって、ガウス分布を使用すると、データ セットの平均だけでなく、データの広がり、つまり、データが広い範囲に広がっているか、主にいくつかの値に集中しているかがわかります。 ポアソン分布 ポアソン分布は正規分布に似ていますが、多少の歪みがあります。正規分布と同様に、ポアソン分布は歪度値が低い場合、すべての方向に比較的均一に広がります。ただし、歪度の値が非常に大きい場合、さまざまな方向へのデータの広がりは異なります。一方の方向ではデータの拡散が非常に大きく、もう一方の方向では拡散が非常に小さくなります。 ガウス分布に遭遇した場合、ガウス分布に対してデフォルトで適切に機能するアルゴリズムが多数あることがわかっているので、まずそれらのアルゴリズムを見つける必要があります。ポアソン分布の場合、空間拡張の変化に対して堅牢なアルゴリズムを選択するように特に注意する必要があります。 次元削減 次元削減という用語は、データセットの次元を削減するという意味として直感的に理解されます。データ サイエンスでは、これは特徴変数の数です。次の図をご覧ください。 上の画像の立方体は、3 次元で合計 1000 個のポイントを持つデータセットを表しています。 現在の計算能力では、1,000 ポイントを計算するのは簡単ですが、規模が大きくなると問題が発生します。 ただし、立方体の側面など、2 次元の観点からのみデータを見ると、すべての色を簡単に分離できることがわかります。 次元を削減することで、3D データを 2D 平面上に表示し、計算に必要なポイントの数を実質的に 100 に削減し、計算量を大幅に節約します。 もう 1 つの方法は、特徴量の削減によって次元を削減することです。このアプローチを使用すると、分析にとって重要ではないと思われる機能をすべて削除できます。 たとえば、データセットを調べた結果、10 個の特徴のうち 7 個は出力と高い相関関係があり、残りの 3 個は相関関係が非常に低いことが判明する場合があります。 まあ、これら 3 つの関連性の低い特徴は計算する価値がない可能性があり、出力に影響を与えずに分析から単に削除できる可能性があります。 次元削減のための最も一般的な統計手法は PCA であり、基本的には、出力に対する重要性、つまり関連性を示す特徴のベクトル表現を作成します。 PCA は上記の 2 次元削減操作を実行するために使用できます。 オーバーサンプリングとアンダーサンプリング オーバーサンプリングとアンダーサンプリングは、分類問題で使用される手法です。たとえば、1 つのクラスの例は 2000 個ありますが、2 番目のクラスの例は 200 個しかありません。 これにより、データをモデル化して予測を行うために使用する多くの機械学習技術が台無しになります。さて、オーバーサンプリングとアンダーサンプリングでこの状況に対処できます。 次の図をご覧ください。 上図の左側と右側では、青いクラスの方がオレンジ色のクラスよりもサンプル数が多くなっています。この場合、機械学習モデルのトレーニングに役立つ 2 つの前処理の選択肢があります。 アンダーサンプリングとは、サンプル数の多いカテゴリから一部のデータのみを選択し、サンプル数の少ないカテゴリからはできるだけ多くのサンプルを使用することを意味します。この選択は、分類の確率分布を維持するために行う必要があります。サンプル数を減らすことで、データセットのバランスをより良くするだけです。 オーバーサンプリングとは、少数クラスのコピーを作成して、多数クラスと同じ数の例を作成することを意味します。少数派層の分布を維持するためにレプリカが作られるでしょう。より多くのデータを取得することなく、データセットをよりバランスの取れたものにしました。 ベイズ統計 ベイズ統計を使用する理由を完全に理解するには、まず頻度主義統計がどこで失敗するかを理解する必要があります。頻度主義統計は、「確率」という言葉を聞いたときにほとんどの人が最初に思い浮かべる統計の種類です。 これは、イベントの発生確率を分析するために何らかの数学理論を適用することを含み、具体的には、計算するデータは事前データのみです。 サイコロを一つ渡して、6 が出る確率はどれくらいかと尋ねたら、ほとんどの人は 6 分の 1 と答えるでしょう。 しかし、誰かがあなたに、常に 6 が出る特定のサイコロを渡したらどうでしょうか?頻度分析では過去のデータのみが考慮されるため、不正なサイコロが与えられたという事実は考慮されません。 ベイズ統計ではこの点が考慮されており、ベイズの定理を使ってこれを説明することができます。 式中の確率 P(H) は、本質的には、イベント発生の確率に関する過去のデータに基づく頻度分析です。式中の P(E|H) は可能性と呼ばれ、本質的には周波数分析から得られた情報に基づいて現象が正しい確率です。 たとえば、サイコロを 10,000 回振って、最初の 1,000 回ですべて 6 が出た場合、サイコロが不正行為をしているとほぼ確信できます。頻度分析が非常に適切に行われていれば、6 ポイントの推測が正しいと確信できます。同時に、サイコロの不正行為が実際にあるかどうか、独自の事前確率と頻度分析に基づいて、不正行為の要素も考慮します。 式からわかるように、ベイズ統計ではすべてが考慮に入れられます。 過去のデータが将来のデータや結果を適切に表していないと思われる場合は、ベイズ統計手法を使用する必要があります。 |
<<: オペレーション データ スペシャリストの仕事内容 (Meituan テイクアウト オペレーション試験の受験方法、受験要件、キャリア開発の見通しは良好か)
>>: 運用管理には何が含まれますか? (セキュリティ運用管理:受動的な防御から能動的な監視へ)
インターネットマーケティングエージェンシー: ビジネスを成功に導く今日のデジタル時代において、オンラ...
アルファプランニング「科学投資」の調査研究によれば、中国の中小企業の平均寿命はわずか3~4年で、毎年...
現代では人々はブランドしか認識しませんが、企業はどのようにブランドを確立し、宣伝すべきでしょうか?今...
phpMyAdmin は、データベースやデータ テーブルの作成方法、MySQL データベース スクリ...
Longxin.com のヒント: 企業の宣伝計画により、ブランドの魅力が高まります!今日の競争の...
VMwe は、単一のコンピューター上で複数の独立したオペレーティング システムを実行できる、成熟した...
今日の社会では、越境電子商取引は最もホットな産業の 1 つになっており、Shopify は高速 We...
Xiaohongshuエージェント操作完全ガイド:0から1まで人気コンテンツを作成する小紅書エージ...
Ubuntu で何ができるのでしょうか? Ubuntu システムは、デスクトップ、サーバー、ソフトウ...
カーテン生地業界のトップ 10 ブランド、どれをご存知ですか?中国のトップ10カーテンブランドは何で...
広西師範大学出版グループ株式会社 2024年度採用案内広西師範大学出版局1986年11月18日桂林に...
デジタル構築の三部作: データ操作多くのインターネット企業がデジタル構築を行っていますが、デジタル構...
WodPess ウェブサイトの記事内の Tianjian キーワードの内部リンクは、検索エンジンがウ...
ケーキ屋の店主は「低価格で集客」し、7日間で12万を稼いだ。これがあなたのためのお金稼ぎのルーチンで...
WodPess は現在最も人気のあるコンテンツ管理システムの 1 つです。海外のサーバーをレンタルす...