ビッグデータ と ビッグ情報アナリティクス の活用プロセス
<<ビッグデータ と ビッグ情報アナリティクス の活用プロセス>>
<はじめに>
ビックデータという言葉が、ここ数年よく使われている。しかし、ビックとはどういうことか、あるいは、データとは何をいうのか、しっかり考えて使われているであろうか。甚だ疑問に感じるときがある。
関連用語に、インフォメーション:情報、ファクト:事実など英語・日本語混在していろいろあるが、区別して使っているであろうか。
読者のみなさんは、「データという言葉を日本語でいうとなんでしょう」といわれたらどうこたえるであろうか。ちなみに、「インフォーメーション=情報」と和訳されますよね、と付け加えられると、じゃあ「データ」は、「??」となるのではないか。
大体、「放射能の情報を提供してください」VS「放射能のデータを提供してください」は、ほとんど同義であり、情報・データとか、かなり適当に使われている言葉である。
さらにビッグがつくと ますます適当ということだ。ビッグデータとは言っても、ビッグ情報、ビッグインフォメーションとは言わないよなー? となる。
<1:「データ」の定義>
データについて、インターネット辞書では、「物事の推論の基礎となる事実」「コンピューターで、プログラムを使った処理の対象となる記号化・数字化された資料」というようなことだ。
手短に言うと、データとは事実の記録である。付加価値は無い(少ない)が、事象の表現である。そして、現在のICT社会では、「いろいろな特性を持った事象が記述された”デジタルコンテナ”である」といえる。
アナログ時代には、紙やアナログ写真をデータと位置づけていたと言えるが、昨今ではデジタル化による共有ができるものでないと「データ」とは言えなくなってきた。
すなわち「事象・事実の記録をデジタル化してデータベースに取り込まれたものを”データ”と呼ぶ」のが適切と考えられる。
<2:「情報」の定義>
「情報=インフォメーション」というのはラテン語の「informationem インフォルマーティオーWikipedia(心、精神に形を与えるもの)という言葉がオリジンとのことである。心、精神に形を与える、整理する、命令する、教える、といった意味のようだ。
ドラッカーによれば、「データそのものは情報ではない。情報の原石にすぎない。原石にすぎないデータが情報となるには、目的のために体系化され、具体的な仕事に向けられ、意思決定に使われなければならない」(『未来への決断』)である。
ドラッカーをまねて、私も、「情報は、目的(課題の解決や新たな発想の実現など)を持って考えた切り口で、抽出した価値あるデータ群」と定義している。
したがって、データは事象の記述に過ぎないが、情報は、目的意識をもつものであり、情報分析の結果を受け取る対象者(顧客、他部門、社長、部下、友達等)が存在して成り立つ。
<3:「ビックデータ」の定義>
ではビッグデータとは何か。ビックは簡単である=MB、GB、TB、PB・・ バイトの超拡大という話である。
ムーアの法則によってチップの性能が上がりICTの能力が上がれば処理できる量が増える、スピードが増す、というシンプルなロジックである。
注目すべきは、データの方である。すなわち、内容が変化する、あるいは、種類が増えるという事である。従って、Big & Various DATAと言うべきである。
先日、IBMのセミナーでビッグデータは、天然資源であると説明されていた。鉄、石炭、石油、そしてビックデータというシナリオらしい。鉱山や油田の資源に例えているようである。
確かに、鹿児島県菱刈の金鉱山は、金の含有量が高品位で有名であるが、それでも50グラム/トンだそうだ。
たぶん、ビッグデータ鉱山から取れる金=価値情報は、1/無限大(値)であろう。ICTの世界では、この採鉱=検索を、簡単に1秒以下で行ってしまうわけだ。
ただ、金と情報の違いは、「金」は世界中の万人にとって共通価値であるが、情報は私にとっての固有価値であり、あなたにとってはゴミかもしれないのである。
そして、社会の仕組み自体が、データを生み出してゆく構造になってゆく必要がある。ICTリテラシー、セキュリティ、情報発信者の意識や教育程度、情報を活用できる環境や風土(オープンガバメントなど)である。
<4:「ビッグ情報アナリティクス」の提起>
さて、ここで新しい概念を提起したい。それは、「ビッグ情報アナリティクス」である。
ビッグデータからテーマに沿って一定の範囲や対象のデータを「すべて」抽出した「情報」を、HWや分析ツールの制約を受けずに一気に回す分析である。膨大な天然資源である金脈「ビッグデータ」から、金すなわち「相関関係やプロファイルを検証や発見すること」を得るのである。
さらに、何日もかかるのではなく、数分あるいは数秒という世界でシミュレーションができる分析が必要なのである。
<5:図の説明>
【左側 森羅万象からのデータ収集】
青色領域
ビックデータと言われる以前は、企業内情報を主として取り扱って分析をしてきた。企業活動すなわちR&D、CRM、SCM、FM、HCM、ICT、戦略など基幹システムが作り出すデータが中心である。
これらは、社員の画面入力や基幹システムからのインターフェイス(IF)によって、RDB(リレーショナルデータベース)の構造化(あるいは正規化)データとして蓄えられてきた。
それがICT、特にスマートフォンなどモバイルデバイスの発展によりFACEBOOKやTWITTERなどの個人からの入力や写真、音楽、動画のアップロードがひろまった。また、POSデータも、小売業では自社データであるが、CPGなどでは購入した大量データとしてここに位置付けることもできる。
橙色領域
さらには、GPSあるいは家電や車などからのM2Mセンサー入力の仕組みよって、非構造化(非正規化)データを含むいろいろな種類のデーターが蓄えることになった。電力使用量データ、自動車の走行データ、医療機関の患者モニタリングデータなどである。
ドラム缶のDB図
これらが、オンプレミスやクラウドの環境の展開によって、ストレスなくアップロードや検索ができるようになったのである。この場合、企業でも個人でも、そのDBを「所有するのか利用なのか」の形態は、問われない時代になってきた。機密要件などで合理的に判断すればよい。
DBのなかには、FBやTwitterあるいはオープンガバメントのような公開のアクセス可能なデータもあれば、企業内に膨大にたくわえられたPOSデータや行動履歴データ、さらには、メディアの動画データなどが、各所に蓄積され、検索されるのをまっている。もちろん、どうでもいいようなつぶやきデータもである。
図では、データの種類を、一番左に いろいろと記述してみた。貯えられるデータベースもHadoopなどno-SQLをイメージして記述した。
【右側=データ・情報の活用プロセス】
ビックデータを使うユーザー側は、程度の差こそあれ個人でも企業でもデーターサイエンス的な世界に巻き込まれる。
仮説を検証したい、あるいは課題の解決案を発見したいという意識で、森羅万象・巷の環境のビックデータから「対象を丸ごと」検索・抽出をして、ビッグ情報=ポテンシャルデータ(砂金になるかもしれないデータ)を取り出す。
検索・抽出においては、仮説や課題に対応した抽出条件・検索条件を、知識や記憶をベースに設定する。テーマに合わせて取り出すデータを決定するわけである。これにより抽出されるであろうデータの集団が整えられる。この設定で範囲を誤れば、分析・解析しても結果が判明しないこともありうることを理解しておくべきである。
ビッグ情報=ポテンシャルデータは色々な角度から分析され検証や発見が行われ。そして最終的に価値を持った解決案として整理される。
検証型:テーマに対して仮説設定して、データを解析し検証結果を得る(参照サイト:仮説検証スタイル)
発見型:ビッグデータ(ビッグ情報)のなかから、相関関係などを発見する
大抵の場合には、検証型を実施していて、その中から発見があり、ではもう少し範囲を広げたらどうか など検討を繰り返すことになることも多いのではないかと考える。
そして、ビッグ情報アナリティクスの結果は、評価され解決案につながり、知恵となり再び記憶知識の世界に登録される。その一部は、再度公開され巷の森羅万象中に放出される。
知恵はさらに意思決定となり、そして行動となる。
ビッグ情報アナリティクスを、概念的にイメージすると 上図のようになる。
左側にある社内・外で生成されて、システムに取り込まれたビッグデータから、アナリティクス(ツール)が、テーマの対象データをビッグ情報として取込み、分析・解析する。それも瞬時に。
分析=ビッグ情報アナリティクスのプロセスには、従来の仮説検証型に加えて、技術進歩で本来の「発見型」が有効になってきたわけである。(従来のデータマイニングは、扱えるデータ量制限の少なさ故に、事前シナリオ付マイニングからの結果=仮説検証のようなものだったのではないかと言える)
そして、分析・解析結果は、BIで見えるかされ意思決定が促される。
<6:活用プロセスの適用>
さて、このプロセスは個人、企業、団体、政府等あらゆるエンティティー(主体)で同様に実施されている。
たとえば、あなたが会社の歓送迎会の幹事になり宴会を仕切る必要があるとなったら、会場・レストランをグーグルで探すであろう。人数、場所、等が検索条件である。そして情報活用プロセスを回す。もっとも高価な解析ツールはいらないが!
化粧品メーカーが、新製品の売れ行きやキャンペーンの成果を確認したいと考えれば、Twittreを収集するかもしれない。性別、年齢、地域等が検索条件である。そしてビッグ情報アナリティクスを活用してプロセスを回す。
携帯電話通信会社が、電波接続率ナンバーワンを目指して、アクセス履歴データを収集、成績の悪い場所の特定、限られた予算のなかでのアンテナ設備の効果的設置案策定。たとえば、スマートホンの接続データ(ビッグデータ)ベースから、東京駅周辺のデータを抽出(ビッグ情報)してビッグ情報アナリティクスを回し、八重洲北口のXXアンテナに負荷がかかっているという結果を得る。
政府が、税収を上げたいと思えば、???、などなど。このビッグ情報アナリティクスプロセスがうまく回せる個人、会社、組織は成功するし、だめなやつは失敗する。
昨今、はやりのデータサイエンティストsとは、このあたりのビッグデータから価値を導き出すこと=ビッグ情報アナリティクスのできる人たち(集団)を言うようだ。好奇心がありなんにでも興味津々な態度、ビジネスセンスと分析軸を見つける直観力、データを見つける力、統計(相関、検定、回帰、因子・・)の力、経営者に噛み砕いて伝える力 など が必要スキルらしい。
<7:要点>
さて、ここで「ビッグデータ」と「ビッグ情報アナリティクス」のポイントを、いくつかハイライトしておこう。
7-1)企業内情報の入力
もともと、青色で表示した(主に)企業内のデータは、入力時点である程度目的化されている。一方、黄色や橙色の部分のデータには、入力時に定義された目的意識は薄い。FBもTWも入力内容の使われ方を、意識してつぶやいている人はすくないであろう。
故に、以前は、情報とデータを混在していてもそれほど齟齬はなかったが、ビッグデータの世界では 情報≠データとなったのである。
7-2)データーからの発見
繰り返しになるが、
2-A)仮説の正当性を「検証」するための ビックデータ & ビッグ情報アナリティクス なのか
2-B)課題の解決案を「発見」するための ビックデータ & ビッグ情報アナリティクス なのか
データの使われ方がいろいろあるということである。B)のようにアイディアを発見する目的で使えるようになったのはまさにビックデータ&ビッグ情報アナリティクスの世界だからである。ICTによる気づきの提供だ。しかし、そのためには相関分析やプロファイリングなどの技術が重要になるし、ICTのさらなる進化が必須だ。
7-3)未来を見るためのデータ
企業内のRDBの構造化データは、ほとんど過去データ(ERPなど基幹システムデータ)が中心であった。すなわち、過去からの延長線データからしか、ダッシュボードを作れなかった。過去データダッシュボードに満足していた電機メーカーは、苦戦に陥った。
ビックデータからは、今・現在の個々のつぶやき、あるいは世界中のマクロ将来動向予測、こういったものがダッシュボードに描けるようになった。
7-4)リアルタイム モニタリングデータ & シミュレーション
従来は一定のパッチ処理による情報提供のために、結果を見てアクションをとっていた。
ところが、ビックデータとりわけ「センサー」から得られるリアルタイムデータは、瞬間・瞬間の意思決定を促すことが可能になった。渋滞を避けたリアルタイムルートセッティングや医療機関における患者の継続的モニタリングだ。
モニタリングがリアルタイムにでき、さらにシミュレーションが瞬時にできれば意思決定は、当然、早くなる。(参照サイト:意思決定スタイル(カーナビ事例))
7-5)多様化したデータ(コアコンペテンス関連外データへのアクセス)
自分の専門以外のデータが、容易に手に入る時代になったということである。一方において自分も、公開できる情報は出すことが社会のためになるという意識に変わる。
情報を隠し持っていることが価値という時代の終わり。(特許維持戦争に明け暮れるコダックの終焉)。
公開情報から付加価値を生めるかを競う時代になった。(特許を申請し続ける会社の勝利)
7-6)ビッグ情報アナリティクスの基幹プロセスへの組込み
ICTの進化により、ビッグ情報アナリティクスはスポットのタスクではなく基幹システムのプロセスに組み込まれることになる。
すなわち、R&D新製品開発のプロセスにビッグ情報アナリティクスタスクが組み込まれる。CRM顧客管理のなかにビッグ情報アナリティクスが組み込まれることになる。ビッグ情報アナリティクスは、継続的活動になる。
<8:最後に>ビックデーター活用に向けての意識改革について