ビジネスデータとは何ですか? （みんなビッグデータについて話していますが、それは何でしょうか？）

誰もがビッグデータについて話していますが、それは何でしょうか?

「ビッグデータ」という用語は、おそらく過去 2 年間で IT 業界で最もホットな言葉の 1 つです。ビッグデータは常にさまざまなフォーラムや会議で議論されています。「ビッグデータ」という用語は、IT 業界では「ストリートマシン」または「ストリートワード」になっています。トレンドに従わず、「ビッグデータは長い、ビッグデータは短い」などと言うと、自分が IT 業界にいることを人に言うのが恥ずかしくなるでしょう。

ビッグデータとは何ですか?

ビッグデータとは、従来のソフトウェアツールを使用して一定期間内にコンテンツを取得、管理、処理することができないデータの集合を指します。ビッグデータ技術とは、さまざまな種類のデータから貴重な情報を迅速に取得する能力を指します。ビッグデータに適用できるテクノロジには、超並列処理 (MPP) データベース、データマイニンググリッド、分散ファイルシステム、分散データベース、クラウドコンピューティングプラットフォーム、インターネット、スケーラブルなストレージシステムなどがあります。

具体的には、ビッグデータには 4 つの基本的な特性があります。

まず、データの量が膨大です。 Baidu のデータによると、新しいホームページナビゲーションには毎日 1.5PB (1PB = 1024TB) を超えるデータを提供する必要があることが示されています。このデータを印刷するとA4用紙5000億枚を超えることになります。データによれば、これまで人間が作成したすべての印刷物のデータ量はわずか 200PB です。

2 番目に、データの種類が多様です。今日のデータの種類はテキスト形式だけでなく、画像、ビデオ、オーディオ、地理的位置情報など、複数の種類のデータが含まれており、パーソナライズされたデータが大部分を占めています。

3つ目は、処理速度が速いことです。データ処理は「1秒ルール」に従い、さまざまなデータから価値の高い情報を素早く取得できます。

4番目に、価値密度が低いです。ビデオを例に挙げてみましょう。 1 時間のビデオでは、中断のない監視中に、有用なデータが 1 秒か 2 秒しか存在しない場合があります。

ビッグデータ処理

1. ビッグデータ処理1: 収集

ビッグデータの収集とは、複数のデータベースを使用してクライアント（Web、アプリ、センサー形式など）から送信されたデータを受信することを指し、ユーザーはこれらのデータベースを通じて簡単なクエリと処理を実行できます。たとえば、電子商取引企業は、MySQL や Oracle などの従来のリレーショナルデータベースを使用して各トランザクションデータを保存します。さらに、Redis や MongoDB などの NoSQL データベースもデータ収集によく使用されます。

ビッグデータ収集の主な特徴と課題は、同時実行数が多いことです。これは、数万人のユーザーが同時にアクセスして操作する可能性があるためです。たとえば、ピーク時には鉄道チケット販売サイトや Taobao への同時アクセスが数百万に達するため、収集側でそれをサポートするために大量のデータベースを展開する必要があります。そして、これらのデータベース間で負荷を分散し、シャーディングする方法には、綿密な検討と設計が必要です。

2. ビッグデータ処理2: インポート/前処理

収集側自体には多数のデータベースがありますが、これらの膨大なデータを効果的に分析したい場合は、フロントエンドから集中型の大規模分散データベースまたは分散ストレージクラスターにデータをインポートし、インポートに基づいて簡単なクリーニングと前処理を実行する必要があります。一部のユーザーは、Twitter の Storm を使用して、インポート中にデータのストリーミングコンピューティングを実行し、一部の企業のリアルタイムコンピューティングのニーズに対応しています。

インポートおよび前処理プロセスの主な特徴と課題は、インポートされるデータの量が大量であり、その量は 1 秒あたり数百メガバイト、さらにはギガバイトに達することもあります。

3. ビッグデータ処理3: 統計・分析

統計と分析では、主に分散データベースまたは分散コンピューティングクラスターを使用して、そこに保存されている大量のデータに対して一般的な分析と分類の集約を実行し、最も一般的な分析ニーズを満たします。この点では、リアルタイムのニーズには EMC の GreenPlum、Oracle の Exadata、MySQL ベースの列指向ストレージ Infobright が使用され、バッチ処理や半構造化データベースのニーズには Hadoop が使用されます。

統計および分析部分の主な特徴と課題は、分析に大量のデータが関係し、特に I/O を中心に大量のシステムリソースを占有することです。

4. ビッグデータ処理パート4: マイニング

これまでの統計および分析プロセスとは異なり、データマイニングには通常、事前に設定されたトピックはありません。主に既存のデータに対してさまざまなアルゴリズムに基づく計算を実行し、予測効果を実現することで、高度なデータ分析のニーズを満たします。一般的なアルゴリズムには、クラスタリング用の Kmeans、統計学習用の SVM、分類用の NaiveBayes などがあります。主に使用されるツールには Hadoop の Mahout が含まれます。このプロセスの特徴と課題は、主に、マイニングに使用されるアルゴリズムが非常に複雑で、必要なデータと計算の量が非常に多いことです。一般的に使用されるデータマイニングアルゴリズムは主にシングルスレッドです。

ビッグデータ処理全体の一般的なプロセスは、比較的完全なビッグデータ処理と見なされるためには、少なくともこれらの 4 つのステップを満たす必要があります。

ビッグデータの応用とケーススタディ

1. ビッグデータの応用事例：医療業界

[1] Seton Healthcareは、ヘルスケアコンテンツの分析と予測にIBMの新しいWatsonテクノロジーを使用する最初の顧客です。この技術により、企業は患者に関連する大量の臨床医療情報を見つけ出し、ビッグデータ処理を通じて患者情報をより適切に分析できるようになります。

[2] カナダのトロントの病院では、未熟児について毎秒3,000件以上のデータ測定が行われています。病院はデータ分析を通じて、どの未熟児が問題を抱えるかを事前に把握し、未熟児の死亡を防ぐための的を絞った対策を講じることができます。

[3] これにより、より多くの起業家がソーシャルネットワークを通じてデータを収集する健康アプリなどの製品を開発しやすくなります。おそらく数年後には、収集されたデータにより医師はより正確な診断を下せるようになるでしょう。たとえば、成人の場合の慣例である 1 日 3 回 1 錠ずつ服用する代わりに、医師は血液中の薬が代謝されたことを検知し、薬を再度服用するよう自動的に通知することがあります。

2. ビッグデータ応用事例：エネルギー産業

[1] ヨーロッパのスマートグリッドは現在、いわゆるスマートメーターの最終段階に達しています。ドイツでは、太陽エネルギーの利用を促進するために、すべての家庭に太陽エネルギーが設置される予定です。電気を販売するだけでなく、太陽光発電で余剰電力が発生した場合は、その電気を買い戻すこともできます。電力網は5分または10分ごとにデータを収集します。収集されたデータを使用して顧客の電力使用習慣を予測し、今後 2 ～ 3 か月で電力網全体でどれだけの電力が必要になるかを推測できます。この予測により、発電会社や供給会社から一定量の電気を購入することができます。電気は先物取引のようなもので、前もって買うと安くなりますが、現物で買うと高くなります。この予測により、調達コストを削減できます。

[2] Vestas Wind Systemsは、BigInsightsソフトウェアとIBMスーパーコンピューターを活用して気象データを分析し、風力タービンや風力発電所全体の設置に最適な場所を見つけています。ビッグデータにより、以前は数週間かかっていた分析作業が 1 時間未満で完了できるようになりました。

3. ビッグデータ応用事例：通信業界

[1] XO Communicationsは、IBM SPSS予測分析ソフトウェアを使用して顧客離脱率をほぼ半分に削減しました。 XO は、顧客の行動を予測し、行動の傾向を特定し、欠陥のあるリンクを特定できるようになり、企業が顧客を維持するためにタイムリーな措置を講じるのに役立ちます。さらに、IBM の新しい Netezza ネットワーク分析アクセラレータは、単一のエンドツーエンドのネットワーク、サービス、および顧客分析ビューのためのスケーラブルなプラットフォームを提供することで、通信会社がより科学的かつ合理的な意思決定を行うのに役立ちます。

[2] 通信事業者は、数千万件の顧客データを通じてさまざまなユーザーの行動や傾向を分析し、それを必要とする企業に販売することができます。これはまったく新しいデータ経済です。

[3] 中国移動はビッグデータ分析を利用して、あらゆる業務の監視、早期警告、追跡を行っています。このシステムは、市場の変化を即座に自動的に捉え、指定された担当者に最速で通知します。これにより、担当者は最短時間で市場の状況を把握できるようになります。

[4] NTTドコモ（6000万人以上の加入者を抱える日本最大の携帯電話事業者）は、携帯電話の位置情報とインターネット上の情報を組み合わせて、近くのレストランの情報や、最終バスが近づくと終バス案内サービスを顧客に提供している。

4. ビッグデータ応用事例：小売業

[1] 「当社のクライアントの 1 社は、地元のデパート、インターネット、カタログ通販事業を通じて顧客にサービスを提供する大手専門ファッション小売業者です。同社は、顧客に差別化されたサービスを提供し、自社の差別化をどのように位置付けるかを検討していました。Twitter と Facebook からソーシャル情報を収集することで、化粧品のマーケティングモデルに対する理解を深めました。そして、高額購入者と影響力の高いユーザーという 2 種類の貴重な顧客を維持する必要があることに気付きました。ユーザーに無料のメイクアップサービスを受けてもらうことで、口コミが広がることを期待しました。これは、トランザクションデータとインタラクションデータの完璧な組み合わせであり、ビジネス上の課題に対するソリューションを提供します。」 Informatica のテクノロジーにより、小売業者はソーシャルプラットフォームのデータを使用して顧客マスターデータを充実させ、ビジネスサービスをより的確に行うことができました。

[2] 小売企業は顧客の店内での動きや商品とのやり取りも監視しています。彼らはこのデータを取引記録と組み合わせて分析し、どの製品を販売するか、どのように陳列するか、いつ価格を調整するかなどのアドバイスを提供します。このアプローチにより、大手小売業者は在庫を 17% 削減し、市場シェアを維持しながら利益率の高いプライベートブランド製品の割合を増やすことができました。

MBAシンクタンク百科事典WeChat ID: mbalibwiki APPクライアントをダウンロードすると、さらに多くの知識があなたの発見を待っています↴

<<: ニューメディア運用業務の内容とは（ニューメディア運用者とは何をする人か）

>>: ビジネス分析には何が含まれますか? （実際のビジネスのビジネス分析で知っておくべき7つのこと！）