ビッグデータとビッグデータの応用シナリオの紹介インターネット情報技術の急速な発展に伴い、企業の生産プロセスで生成されるデータの量は飛躍的に増加しています。一連の統計を見てみましょう。
単位変換は次のとおりです。 1GB = 1024 MB 1TB = 1024 GB 1PB = 1024 TB 1EB = 1024 PB 1ZB = 1024 EB 1YB = 1024 ZB 1BB = 1024 YB 1NB = 1024 BB 1DB = 1024 NB 一般の人にとって、TB は理解できるデータ量です。誰もが 10 TB 程度のハード ドライブまたはネットワーク ディスクを持っています。 PB は 1024 TB しかないので、悪くありません。平均的な人は、生涯で音楽、ビデオ、写真、ファイルをすべて合計しても、1 PB を使い切ることはないでしょう。 1PB はどれくらいの大きさですか?携帯電話が MP3 を平均 1 分あたり 1 MB の速度で再生し、曲の平均長さが 4 分の場合、保存されている 1 PB の曲を 2000 年間連続して再生できます。もちろん、これは少し誇張です。 1分間に10M、つまりほぼすべての曲がロスレス曲に置き換えられるとして計算すると、1PBの曲を200年間連続再生できることになります。つまり、普通の人は1PBの音楽を聴くような生活はしていないのです。 1PB は、米国のすべての学術研究図書館のコレクションと参照コンテンツの 50% に相当します。 1EB は 1024PB で、ロスレスの曲は 204800 年間再生可能であり、つまり無限に再生できることになります。基本的に、PB レベルを超えるデータに対してオンライン分析を実行するには、データマイニングがビッグデータの分野で解決する必要がある問題です。従来のトランザクション データベースでは、このような膨大な量のデータを数秒以内に処理することはできません。 実際、リレーショナル データベースの分散テクノロジが成熟するにつれて、データ水平 + 垂直シャーディング クラスターなどのテクノロジを通じて、データ量が多すぎて処理できないという状況はなくなります。水平 + 垂直シャーディングは理論的には無限に拡張できるためです。そうだとしたら、Hadoop、Kudu、Spark などのビッグデータ処理フレームワークはなぜ登場したのでしょうか?重要な問題は依然として処理時間です。たとえば、何兆もの注文データをリージョン + ユーザー ID シャーディング キーで水平に分割します。このように、データ量がどれだけ大きくなっても、特定の地域のユーザーの注文データを照会する効率は、データ規模の増加に応じて低下しません。ただし、需要がすべての注文によって生成された合計売上をカウントするように変更された場合、これは統計のためにデータベースのテーブル全体をスキャンすることと同じです。シャード化されたクラスターの場合は、すべてのシャードのテーブル全体をスキャンし、すべてのシャードの統計結果をカウントします。従来のリレーショナル データベースでは、通常、データが行形式で保存されます。データ列の合計を計算するには、すべてのデータ行をスキャンし、その列のデータを取得して、統計を実行する必要があります。特にデータ量が多い場合、効率が極端に低下します。 MySQL を例にとると、すべてのデータ行は B+ クラスター化インデックス ツリーを通じて編成され、インデックスのルート ノードから始まるさまざまな範囲のインデックス ページに分割されます。ルート ノードはすべてのデータ ページを格納し、データ ページは双方向ポインタによって接続されます。データ ページ内には実際のデータ行があり、データ行は単方向ポインターによって接続されています。この形式のデータ編成は、データがすべてリーフ ノード内にあり、データ ノード間にポインターがあるため、特定の範囲のデータを見つけるのが比較的簡単なので、主キー クエリと範囲クエリには非常に効率的であることは明らかです。ただし、列の合計を計算するためにテーブル全体をスキャンする必要がある場合は、すべてのデータをスキャンする必要があり、それがいかに非効率的であるかは想像に難くありません。 この頃、このような問題を解決するために、いくつかの列格納型データベースが登場し、広く使われるようになりました。このタイプのデータベースは、統計や意思決定などのシナリオに重点を置いており、オンライン分析プロセス (OLAP) データベースとも呼ばれます。このタイプのデータベースで処理されるデータの量は通常、PB レベルを超えます。上記のトランザクション データベースは、一般的にオンライン トランザクション処理 (OLTP) データベースとも呼ばれます。もちろん、単一の OLTP データベースが処理できるデータ量は通常 GB レベルです。データベースの種類に関係なく、最終的な拡張はデータの垂直および水平シャーディングである必要があります。 ビッグ データ、つまり大量データとは、データが膨大であるため、主流のソフトウェア ツールを使用して、企業が妥当な時間内により積極的なビジネス上の意思決定を行うのに役立つ情報として収集、管理、処理、整理することができないデータの量を指します。 ビッグデータとは、データの集合であり、情報資産です。これらのデータ コレクションが非常に大きいため、従来のデータベース処理ソフトウェア (リレーショナル データベースの MySQL、Oracle、DB2 など) では処理できない、または処理が困難な場合、このタイプのデータはビッグ データと見なすことができます。もちろん、膨大な量のデータはビッグデータの基本的な特徴に過ぎず、他にもいくつかの特徴があります。 IBM はビッグデータの 5V 特性 (量、速度、多様性、価値、真実性) を提案しました。
ビッグデータは、倉庫・物流、電子商取引小売、自動車、モノのインターネット、通信、バイオ医学、人工知能、スマートシティなど、多くの分野に応用できます。ビッグデータ技術は、疫病との戦いにおいても重要な役割を果たしています。応用シナリオは人が考えます。ビッグデータはほぼあらゆる分野に適用できます。上記は比較的成熟した応用分野にすぎません。ビッグデータには、人々が探索するのを待っている無限の可能性があります。 |
<<: Duoduo 運営データ (Duoduo データ: Pinduoduo 加盟店向け運営ツール)
>>: Tmall 代理運営内容 (Tmall 代理運営にはどのようなサービスが含まれますか?)
WodPess ウェブサイトの SEO ランキングを向上させる方法はたくさんあります。WodPess...
快手情報フロー広告配信プロセス快手では、ユーザーは写真や短い動画を使って日常生活を記録したり、ライブ...
ATFX: フィンテック分野のリーダーであり、14四半期連続で世界取引量トップ10にランクインAT...
プライベートドメインで旅行宿泊施設を運営するには?何に注意すればいいでしょうか?旅行宿泊施設のプライ...
チャウ・シンチーとチャン・イーモウから学んだ情報フロー広告の撮影方法春節は過ぎましたが、春節期間中に...
Toutiaoの情報流通広告のアカウント開設手順は? Toutiao 広告は現在人気のインターネッ...
どの電気オーブンが一番いいですか?各ブランドの売れ筋モデルトップ10を発表!非常に使いやすい製品はど...
新しい年、新しい雰囲気! 2024年1月の大手3社のデータが公開されました →大手3社は2月20日、...
ネットワーク セキュリティ意識の継続的な向上により、現在ではほとんどの Web サイトが、Web サ...
ウェブサイト運営におけるユーザー増加戦略と方法ユーザーの増加は、ウェブサイトの開発と収益性に直接関係...
144時間のビザなし旅行:中国旅行旋風を起こす方法2024年7月15日、中国ニューズウィーク誌第1...
情報流通プラットフォームを通じて顧客を獲得する方法情報フロープラットフォームを通じて顧客を獲得する方...
プロのブランドフルケース企画会社星州ブランドコンサルティング:usmileの大規模ポジショニングケー...
チチハルヤメイ知輝データオペレーション管理株式会社採用パンフレットネヘシティメディアセンター 1. ...
職場で働いていると、会社が給料を支払わなかったり、理由もなく人を解雇したりするなど、悪いことに遭遇す...