ビッグデータのビジネス範囲（ビッグデータの紹介とビッグデータの応用シナリオ）

ビッグデータとビッグデータの応用シナリオの紹介

インターネット情報技術の急速な発展に伴い、企業の生産プロセスで生成されるデータの量は飛躍的に増加しています。一連の統計を見てみましょう。

1986 年、世界のデータはわずか 0.02EB、つまり約 21,000TB でした。
2007年には、世界のデータ量は280EB、つまり約3億TBでしたが、これは14,000倍に増加しました。
2012 年には、毎日 2.5 EB のデータが生成されました。
IDCのレポートによると、世界のデータ量は2013年から2020年にかけて4.4ZBから44ZBに増加し、2025年までに世界のデータ量は163ZBに達すると予想されています。

単位変換は次のとおりです。

1GB = 1024 MB 1TB = 1024 GB 1PB = 1024 TB 1EB = 1024 PB 1ZB = 1024 EB 1YB = 1024 ZB 1BB = 1024 YB 1NB = 1024 BB 1DB = 1024 NB

一般の人にとって、TB は理解できるデータ量です。誰もが 10 TB 程度のハードドライブまたはネットワークディスクを持っています。 PB は 1024 TB しかないので、悪くありません。平均的な人は、生涯で音楽、ビデオ、写真、ファイルをすべて合計しても、1 PB を使い切ることはないでしょう。

1PB はどれくらいの大きさですか?携帯電話が MP3 を平均 1 分あたり 1 MB の速度で再生し、曲の平均長さが 4 分の場合、保存されている 1 PB の曲を 2000 年間連続して再生できます。もちろん、これは少し誇張です。 1分間に10M、つまりほぼすべての曲がロスレス曲に置き換えられるとして計算すると、1PBの曲を200年間連続再生できることになります。つまり、普通の人は1PBの音楽を聴くような生活はしていないのです。 1PB は、米国のすべての学術研究図書館のコレクションと参照コンテンツの 50% に相当します。

1EB は 1024PB で、ロスレスの曲は 204800 年間再生可能であり、つまり無限に再生できることになります。基本的に、PB レベルを超えるデータに対してオンライン分析を実行するには、データマイニングがビッグデータの分野で解決する必要がある問題です。従来のトランザクションデータベースでは、このような膨大な量のデータを数秒以内に処理することはできません。

実際、リレーショナルデータベースの分散テクノロジが成熟するにつれて、データ水平 + 垂直シャーディングクラスターなどのテクノロジを通じて、データ量が多すぎて処理できないという状況はなくなります。水平 + 垂直シャーディングは理論的には無限に拡張できるためです。そうだとしたら、Hadoop、Kudu、Spark などのビッグデータ処理フレームワークはなぜ登場したのでしょうか?重要な問題は依然として処理時間です。たとえば、何兆もの注文データをリージョン + ユーザー ID シャーディングキーで水平に分割します。このように、データ量がどれだけ大きくなっても、特定の地域のユーザーの注文データを照会する効率は、データ規模の増加に応じて低下しません。ただし、需要がすべての注文によって生成された合計売上をカウントするように変更された場合、これは統計のためにデータベースのテーブル全体をスキャンすることと同じです。シャード化されたクラスターの場合は、すべてのシャードのテーブル全体をスキャンし、すべてのシャードの統計結果をカウントします。従来のリレーショナルデータベースでは、通常、データが行形式で保存されます。データ列の合計を計算するには、すべてのデータ行をスキャンし、その列のデータを取得して、統計を実行する必要があります。特にデータ量が多い場合、効率が極端に低下します。

MySQL を例にとると、すべてのデータ行は B+ クラスター化インデックスツリーを通じて編成され、インデックスのルートノードから始まるさまざまな範囲のインデックスページに分割されます。ルートノードはすべてのデータページを格納し、データページは双方向ポインタによって接続されます。データページ内には実際のデータ行があり、データ行は単方向ポインターによって接続されています。この形式のデータ編成は、データがすべてリーフノード内にあり、データノード間にポインターがあるため、特定の範囲のデータを見つけるのが比較的簡単なので、主キークエリと範囲クエリには非常に効率的であることは明らかです。ただし、列の合計を計算するためにテーブル全体をスキャンする必要がある場合は、すべてのデータをスキャンする必要があり、それがいかに非効率的であるかは想像に難くありません。

この頃、このような問題を解決するために、いくつかの列格納型データベースが登場し、広く使われるようになりました。このタイプのデータベースは、統計や意思決定などのシナリオに重点を置いており、オンライン分析プロセス (OLAP) データベースとも呼ばれます。このタイプのデータベースで処理されるデータの量は通常、PB レベルを超えます。上記のトランザクションデータベースは、一般的にオンライントランザクション処理 (OLTP) データベースとも呼ばれます。もちろん、単一の OLTP データベースが処理できるデータ量は通常 GB レベルです。データベースの種類に関係なく、最終的な拡張はデータの垂直および水平シャーディングである必要があります。

ビッグデータ、つまり大量データとは、データが膨大であるため、主流のソフトウェアツールを使用して、企業が妥当な時間内により積極的なビジネス上の意思決定を行うのに役立つ情報として収集、管理、処理、整理することができないデータの量を指します。

ビッグデータとは、データの集合であり、情報資産です。これらのデータコレクションが非常に大きいため、従来のデータベース処理ソフトウェア (リレーショナルデータベースの MySQL、Oracle、DB2 など) では処理できない、または処理が困難な場合、このタイプのデータはビッグデータと見なすことができます。もちろん、膨大な量のデータはビッグデータの基本的な特徴に過ぎず、他にもいくつかの特徴があります。

IBM はビッグデータの 5V 特性 (量、速度、多様性、価値、真実性) を提案しました。

大規模: ビッグデータで処理する必要があるデータセットのサイズは、通常 PB レベルを超えます。
高速性: ビッグデータの時代では、データの作成、保存、分析のすべてに高速処理が必要です。たとえば、電子商取引 Web サイトでのパーソナライズされた推奨事項には、可能な限りリアルタイムの推奨事項が必要です。これは、ビッグデータを従来のデータマイニングと区別する重要な特徴でもあります。
多様性: データにはさまざまな形式とソースがあります。これには、構造化データ、半構造化データ、非構造化データが含まれており、具体的にはネットワークログ、音声、ビデオ、画像、地理的位置情報などとして表されます。複数の種類のデータにより、データ処理機能に対する要件がさらに高くなります。
値密度が低い: データ値密度が比較的低い。通常、大量のデータを生成するビジネスデータは、値密度が低い可能性が非常に高くなります。ビッグデータが解決しなければならない問題は、膨大なデータから価値を引き出すことです。最も明白な例は、車両のインターネットの分野です。車が走行すると、さまざまな運転データが生成されます。このデータの価値密度は極めて低いように思えますが、実はこのデータに基づいて行われるさまざまな警告は、運転の安全性に大きな価値を生み出しています。そうすれば、ドライバーと乗客の命を大きく守ることができるので、ユーザーはこれらの価値に対してお金を払うことになります。
信頼性: データの信頼性を確保することで、データ分析の正確性を確保できます。

ビッグデータは、倉庫・物流、電子商取引小売、自動車、モノのインターネット、通信、バイオ医学、人工知能、スマートシティなど、多くの分野に応用できます。ビッグデータ技術は、疫病との戦いにおいても重要な役割を果たしています。応用シナリオは人が考えます。ビッグデータはほぼあらゆる分野に適用できます。上記は比較的成熟した応用分野にすぎません。ビッグデータには、人々が探索するのを待っている無限の可能性があります。

<<: Duoduo 運営データ (Duoduo データ: Pinduoduo 加盟店向け運営ツール)

>>: Tmall 代理運営内容 (Tmall 代理運営にはどのようなサービスが含まれますか?)

店舗プロモーション・マーケティングプラン（スーパーマーケットやコンビニエンスストアのマーケティングプロモーション手法とは？）

ビッグデータのビジネス範囲（ビッグデータの紹介とビッグデータの応用シナリオ）

ビッグデータとビッグデータの応用シナリオの紹介

店舗プロモーション・マーケティングプラン（スーパーマーケットやコンビニエンスストアのマーケティングプロモーション手法とは？）

精密マーケティング推進計画（精密マーケティング計画のプロセスと主な方法）

2022年不動産売上ランキング（中国指数研究院は最近、「2022年上半期中国不動産企業売上実績ランキング」を発表した）

運用能力には何が含まれますか (CPA 財務管理: 運用能力分析)

情報フロー広告はどのように課金されますか (Douyin に広告が掲載される仕組みと課金方法)

戦略的インターネットマーケティング (インターネットマーケティングマーケティング戦略 (インターネットマーケティング戦略とは何か))

WooCommerce を使用して WordPress の外国貿易ウェブサイトに商品を一括アップロードする方法

オンライン統合マーケティング計画（AIコンピューティングパワーの波を受けて、玄武クラウドと玄通ブランドのアップグレードが消費財業界を再編）

事業運営データ（「財務報告を読む」エクスプレス社6月運営データ：ユンダの売上高は前年比、前月比ともに減少し、STOのシングルチケット売上高は前年比で大幅に減少）

ハイエンドブランドのマーケティング戦略（トラフィックが高すぎる、2020年にハイエンドブランドを構築するには？ハイエンド市場を開拓し、ハイエンドの顧客を獲得する）

推薦する

会員カードプロモーションプラン（6 つの定番会員カードマーケティングモデルで、お店を待ち望んでいるお客様でいっぱいにしましょう！）

成都ブランドマーケティング（成都にはたくさんの「マネージャー」がいますが、彼らは何を「管理」しているのでしょうか？）

経営管理には何が含まれるのか（経営管理の概念と意義）

電子商取引ブランドのマーケティング戦略（電子商取引プラットフォームの構築方法とは？電子商取引運営8年目が実践ノウハウを共有 | マーケティング戦略）

ビッグデータ運用研修（データ運用エンジニアに応募するには？応募プロセスは？資格を取得するのは簡単ですか？）

飲食店プロモーション企画（飲食店がイベントを開催しても、なぜお客さんが来ないのか？）

Xshell がスイッチのコンソールポートに接続するグラフィックチュートリアル

メタデータ管理ソリューション (25 のメタデータ管理ソリューションを紹介する 10,000 語 (ビデオを含む、コレクションに推奨))

ウェブサイトのプロモーション方法（いくつかのウェブサイトのプロモーション方法の長所と短所についての簡単な説明）

オフラインでのプロモーション方法（オフライン店舗がマーケティングプロモーションにミニプログラムを使用する 7 つの要素）

動物園振興計画（「広州の老人」の「幼少時代の思い出」をグレードアップし、粤港澳大湾区の一流国際動物園に生まれ変わらせる）

春節酒類販売計画（春節期間中の酒類販売の「現象」：スーパーマーケットでは派手な「転売」価格が見られ、中高級酒類が消費者の間で人気が高まっている）

トップレベルドメイン com は何の略ですか? .comドメイン名の意味の紹介

電子商取引ネットワークマーケティング論文 (電子商取引マーケティング論文の要約テンプレートサンプル)