ビッグデータとは、従来のシステムでは解析が難しいような膨大な量のデータ群のことです。ここではビッグデータの仕組み、分析方法や活用事例について説明します。
目次
1.ビッグデータとは?
ビッグデータとは、コンピュータ処理速度の向上やインターネットの普及により生成される、大容量のデジタルデータ群のこと。
コンピュータの利用増加により、文字・音声・写真・動画などのデジタルデータが、インターネット上のさまざまなサーバーに蓄積されていきます。さらに利用状況や通信記録などの「ログ」と呼ばれるデータも、日々作られているのです。
これらのデータを合計すると数百テラバイト以上とされており、さまざまな分野で活用できます。
2.ビッグデータを表す要素
ビッグデータは複雑なデータセットで、必要な要素があります。量だけ大きければよいわけではありません。必要な要素を十分に備えたビッグデータを使用すれば、これまで解決できなかった問題に対処できるでしょう。
ビッグデータを表す3V
2000年代初頭、ビッグデータについて、「V」から始まる3つの要素が定義されました。
- Volume (量)
- Velocity (速度)
- Variety (種類)
この3Vについて、以下で説明します。
①Volume (量)
ビッグデータの「ビッグ」とは、データ量のこと。ビッグデータを扱う際は、「密度が低い」「構造化されていない」「価値が不明確」さまざまな状態のデータを大量に処理する必要があります。
データの種類によっては、処理するデータ量が数十テラバイト、ときには数百ペタバイトに及ぶ場合もあるのです。
②Velocity (速度)
データを受け取って処理する一連の流れで、速いスピードが求められます。しかし日々、膨大なデータが発生・変動し続けており、これらを速やかに処理するのは難しいでしょう。
それでも高速で処理しなければなりません。なぜなら高速で処理したものをタイミングよく活用して初めて、ビッグデータの分析効果が得られるからです。
③Variety (種類)
従来、構造化されたデータのみを収集していました。一方、ビッグデータでは、多くのタイプのデータを集めています。将来さまざまな目的で利用できる可能性があるからです。
たとえばテキストや音声、画像や動画といった構造化されていないデータがそのまま収集されています。
ビッグデータを表す要素に追加された2つのV
ビッグデータの定義に、新たにふたつのVが追加され、5Vになりました。追加された2つについて説明します。
- Value(価値)
- Veracity(正確さ)
①Value(価値)
Value(価値)は2種類です。
- ビッグデータ自体の価値
- ビッグデータが生み出した価値
データの検出・分析プロセスが適切なら、データが信頼に値します。その結果、価値が高まるのです。またデータを活用して成果をもたらせば、そこに新しい価値が生まれます。
②Veracity(正確さ)
ここでは取り扱っているデータの正確性が求められます。
データの量が増え、速度が増すと内容や精度が変化するもの。そこにはフェイクニュースやデマ情報が含まれている場合もあります。いかに正しいデータを取り扱うかの判断が重要です。
3.ビッグデータの仕組み
ビッグデータには、固有の仕組みがあります。下記について見ていきましょう。
- 分析目的に応じたビッグデータの収集
- ビッグデータの保存
- ビッグデータのクレンジングと分析
- ビッグデータの可視化
①分析目的に応じたビッグデータの収集
ビッグデータの収集は、明確な分析目的を持つことが重要です。「何のために」「どのような効果を期待しているのか」をはっきりさせてデータ収集を行いましょう。
トランザクションやログ、モバイルデバイスなど多様なデータの扱いに慣れていない企業の場合、適切なビッグデータプラットフォームを使うと難しいステップが簡略化できます。
②ビッグデータの保存
ビッグデータは、分析前、分析作業中や分析後のいずれの段階でも保存しておく必要があります。その際、データの破損、紛失や漏えいなどがあってはなりません。
一方で、ビッグデータには今後さまざまな活用ができる可能性があるため、拡張性をもった保存法が望まれるのです。ビッグデータは、「安全」「耐久性がある」「スケーラブル」などの形式で保存しておきます。
③ビッグデータのクレンジングと分析
ビッグデータを分析する前に、収集したデータをクレンジングします。「重複」「誤字脱字や表記のゆれ」「整合性の低いもの」など正しくない要素を持ったデータを取り除き、全体の品質を高めます。そしてデータを生の状態から消費可能な形式に変換するのです。
ソートや集約、結合やより高度な機能の実行などを行います。
④ビッグデータの可視化
ビッグデータは、わかりやすく可視化すると価値が高まります。より速く新たな発見を導き、次の行動計画や変動予測へとつながるからです。図表や画像、チャートやグラフなどを用います。
集計や分析、レポート作成に、データの可視化ツールを利用するのもよいでしょう。単にデータを提供するのではありません。相手が理解しやすいよう直感的に表現することがポイントです。
4.ビッグデータの分析手法
ビッグデータの分析には、さまざまな方法があります。代表的な5種類の分析手法を紹介しましょう。
- アソシエーション分析
- クロス集計
- クラスター分析
- 決定木分析
- ロジスティック回帰分析
①アソシエーション分析
一目見ただけではわからないデータ同士の関連性を分析する手法のこと。一見、関係がないような事柄から共通の類似性や規則性を探り、結果に至るまでの隠れた原因を見つけていきます。
スーパーマーケットやコンビニエンスストア、インターネット通販などの購入商品について「何と何が一緒に買われているか」「その原因は何か」を分析するものは「マーケットバスケット分析」ともいわれているのです。
②クロス集計
特定の2~3点の情報に限定し、データの集計・分析を行う最も基本的なデータ分析手法のこと。エクセルといった標準搭載のものを利用し、複雑な計算を必要としないので、データの分析手法の中では比較的扱いやすいものとなります。
集計表を作る際、「縦軸にデータの結果」「横軸に年齢や地域などの属性」を配置すると、属性ごとのデータ集計・分析が行えるのです。アンケートの集計や世論調査、販売予測などで利用されています。
③クラスター分析
集団ごとの特徴を分析する手法のことで、「クラスター(Cluster)」とは集団を意味します。
ビッグデータという大きな集団を、異なる性質を持つデータ同士の類似性により複数の集団(クラスター)に分類し、集団ごとの属性を導き出していくのです。
クラスター分析では、性別や年齢といったものではなく、類似性にもとづいて集団分けします。マーケティング施策やブランディングなどで活用されるのです。
④決定木分析
樹木状のモデルを活用して要因を分析、その結果から予測を行うもの。複数の要因を踏まえて「~だったらどうなるか」と仮説を立て、クロス集計を繰り返すことで、枝分かれ式に分析していくのです。
原因から結果と、上から下へ枝分かれしていく図が樹木のように見えるため、「決定木分析」と呼ばれています。「商品Aは、ある客層でよく売れている」という顧客の分類に有効です。マーケティング分野でターゲットを絞り込むために用いられています。
⑤ロジスティック回帰分析
物事の将来的な発生確率を予測する分析手法のこと。分析の結果は確率を示すため、1から0(発生するかしないか)の間の数値であらわされ、1つの質問に対し「はい」または「いいえ」の2択の答えを集計します。
たとえば下記のような状況で使われるのです。
- マーケティングにて、商品Aが売れる確率を予測
- 医療業界にて、病気の発症確率を予測
医療については結果に対する原因が把握しやすいので、治療効果向上の研究にも役立てられるでしょう。
5.業界から見るビッグデータの身近な活用事例
ビッグデータは私たちの身近なところで、活用されています。ビッグデータの活用例を、下記のような業界から紹介しましょう。
- 観光
- 医療
- 金融
- 農業
- 小売りやECサイト
①観光
観光業界では、ビッグデータを以下のように活用しています。
- ユーザーの口コミや検索キーワードを分析し、観光地の人気度を評価する
- 地理的位置・交通・気象の情報にもとづいて、特定の顧客にあったオファーや特典を送信する
- 航空会社では旅行中の乗客と荷物のデータを分析し、それに応じたサービスを計画して提供する
②医療
医療業界では、ビッグデータを以下のように活用しています。
- ウェアラブルデバイスにより患者の健康状態を監視し、医療機関にデータを転送する
- ビッグデータにより根拠にもとづいた診断で、予防医学に役立てる
- 流行病の発生を予測し、影響を最小限に抑えるための予防策を考える
医療機関が厚生労働省に対して匿名で医療費データを提出し、厚生労働省が集計・発表する「DPC(Diagnosis Procedure Combination:診断群分類別包括評価)」の取り組みが行われています。
③金融
銀行業界では近年、ビッグデータを利用して金融分野のイノベーションを目指す動きが活発です。これらの動きを総称して「フィンテック(FinTech)」といいます。総務省では、フィンテックを下記の4類型に分類しているのです。
- 決済・送金
- 資産管理
- 融資・調達
- ブロックチェーン
たとえば決済・送金では、身近になったキャッシュレス決済があげられます。ここにもビッグデータが活用されているのです。
④農業
農業では、ビッグデータを以下のように活用しています。
- IoTセンサーで気象状況を測定し、生産計画を可視化する
- 気象データからリスクを予測し、被害を抑える対策をする
- 既存農家の経験をデータ化し、新機能業者に提供する
農業は長年、経験や勘に頼る面が多く、新規参入にハードルがありました。しかしビッグデータを利用した結果、確実な農作物管理と安定的な生産が可能になったのです。
⑤小売りやECサイト
小売やECサイトの業界では、ビッグデータの活用が進んでいます。小売業では売上データを分析して、売上の拡大やマーケティング、在庫管理の適正化などに役立てているのです。
ECサイトでは多様なビッグデータを保有しており、自社のAI技術とあわせて活用し、さまざまな分析を行っています。そして購入率アップや利用者満足度の向上を実現しているのです。
6.シーンから見るビッグデータの身近な活用事例
最後にビッグデータが使われるシーンについて、紹介しましょう。
- 製品開発
- 運用効率
- カスタマーエクスペリエンス
- イノベーション
①製品開発
NetflixやProcter&Gambleでは、以下の方法によりビッグデータから新しい製品やサービスの予測モデルを構築しています。
- 過去や現在の製品やサービスの特性を分類する
- 分類して得た特性と、その製品またはサービスの成果の関係をモデル化する
②運用効率
運用効率を向上させたい場合にもビッグデータの利用が有効です。
製造部門や顧客のフィードバック、返品などの要素を分析・評価すると、「生産性を上げる」「無駄を減らしコストを削減する」「返品やクレームを減らす」などができます。将来の需要の予測も可能です。
③カスタマーエクスペリエンス
ビッグデータを利用すると、個別のカスタマー・エクスペリエンスの可視化がより明確になります。
現代ではこれまでにないほど、顧客の獲得・維持の競争が始まっているのです。顧客ごとにアレンジし、最適な提案を行えば、顧客の離脱・解約率を下げられます。
④イノベーション
イノベーションを促進し、従来の組織やシステムを改善する場合にもビッグデータの活用が有効です。関係する人や組織、対象物やプロセス、関係性などを調べて改善案を考えます。
社内の組織改革や作業工程の変更、新製品やサービスの開発など現状を改善したいさまざまなシーンで、多くの可能性があるでしょう。