「ビッグデータ」が叫ばれて久しいですが、その中でも価値があるかどうか不明なデータデータが大量に存在していることをご存知ですか?
それは「ダークデータ」と呼ばれています。現在は様々な障壁があるためなかなか解析が進んでいませんが、今後のビジネス成功のカギを握るデータとして注目されています。
今回は、そんな「ダークデータ」についてご紹介したいと思います。
「ダークデータ」とは
ビッグデータを構成する3つのデータ
まず「ビッグデータ」と呼ばれるものについて解説したいと思います。
ビッグデータは以下の3種類に分類されます。
- ROTデータ:ビジネスにおいて価値のない古く冗長なデータ
- クリーンデータ:ビジネスにおいて有効と判断され活用できるデータ
- ダークデータ:上記のどちらか不明で、企業がまだ活用できていないデータ
テクノロジーの発達により、ダークデータを構造化できるようになっている分野もありますが、そのほとんどは手つかずのままです。
まず、ダークデータはビッグデータの中の一種類であると覚えておきましょう。
全体の75%は「ダークデータ」
ダークデータとは、企業が蓄積しているビッグデータの中で有効活用されずに保存されたままのデータのことを指します。
データというものは、分類され構造化されて初めて価値を持ちますが、ダークデータは構造化されていない状態の文字通り混沌としたデータのことなのです。ダークデータは様々な理由から分析不可能、価値があるかどうかの判断も不可能なデータとなっており、このようなデータを抱える企業は約90%に上ります。
ダークデータが注目されるようになった背景
記録されているデータのおよそ90%がここ数年で生み出されています。しかし、そうしたデータのうちおよそ75%は構造化されていないダークデータとして存在しているのです。つまり、テクノロジーの発達により便利になった今日でも全データの約25%しか活用できていないのです。
このような状況でAppleがダークデータを構造化するIT企業を買収したり、Googleがビッグデータ解析用のプロダクトを開発したことによって、ダークデータの活用が世界的に注目を集めるようになりました。
ダークデータの具体例
それでは具体的にどのようなものがダークデータに当たるのか、具体的にご紹介していきます。
ダークデータは以下の3種類に分類することができます。
- テキスト系ダークデータ
Eメール、各種書類、ログ、通知など主にテキストから成るダークデータ。
関連データベースへの紐づけが甘かったり、効率的なツールを導入していないとダークデータ化します。
- リッチメディア系ダークデータ
画像、ビデオ、音声などのデータ。
AIのデータ分析活用によりこれらのデータも関連付けして分析することが可能になりつつあります。
- ディープウェブ系ダークデータ
ウェブ上に存在しながらも検索エンジンの検索結果に引っかからないデータ。
Google検索で出てくる情報の約500倍がディープウェブのデータとして存在するそうです。
ダークデータの活用がもたらすメリット
ダークデータが活用されることで起こりうる変化について3つご紹介したいと思います。
各種手続きの自動化
ダークデータを活用するにはコグニティブRPAが必要不可欠になります。コグニティブRPAとは、普通のRPAとは違い構造化されていないコンテンツを構造化するAIを用いた業務自動化ツールです。このツールにより蓄積された膨大な書類、画像、電子メールなどのダークデータを関連付けて解析することが可能になりました。結果的に、今後益々業務の効率化が見込めるでしょう。
業務内容の変化
次に業務内容の変化です。従来のRPAも含め、上で述べたコグニティブRPAも5年以内には多くの業界で一般化すると予想されています。この技術の一般化により、膨大な量の事務作業に追われることなく、意思決定や例外処理、経営目標を達成するための業務など、”考えること”に注力することが可能になります。つまり、社員が本来行うべき業務に多くのコストを割くことが可能になるのです。
損失の削減
Veritasというアメリカのデータアナリシス企業によると、平均的な中規模企業が1000兆バイトのデータを保存した際の費用は年間約5億5千万円に上ると言われています。全データ量のうち75%を占めるダークデータを活用することはこの費用を無駄にしないための取り組みにもつながります。
ダークデータが活用されない理由
ここまで有用なダークデータが現在活用されていない原因を2つご紹介します
量が多すぎる
この記事で述べたダークデータに関する情報をまとめると、現存する1000兆バイトのデータ量のうち約70%はダークデータとなっています。これを解析するためには膨大なコストがかかりますし、データの種類も様々なのでなかなか手を付けられていません。
スキル不足
ダークデータは構造化されていないデータの山です。有用なデータもあり、有用ではないデータもあります。そのうえ一見意味のないようなデータでも関連付けて解析することで意味を成してくるものもあります。企業内にはそれを解析することのできるスキルセットを持った人材がいないというのもダークデータが活用されない原因の一つです。
ダークデータの今後の課題
既存ソリューションの活用
全ての分野ではありませんが、いくつかの分野でダークデータの解析を支援する為のソリューションを提供している企業が存在します。そのため、コストを削減するためにもすでに開発が行われている既存ソリューションを活用するようにしましょう。
データの洗い出し
有益性のあるデータと全く役に立たないデータを洗い出すようにしましょう。レポジトリ内のデータを論理的に整理すれば、他の社員が素早くデータを見つけられるようになるので業務の効率化にもつながるでしょう。
ダークデータのまとめ
5Gの到来、IoTのさらなる進化によって今後ますますデータは大規模化、膨れ上がっていくでしょう。
それと同時にデータ同士の関連性は複雑化し、人力での解析は更に難しくなるはずです。そんな時のために、今のうちからデータを分類したり分析しやすい設計にしたり、将来のデータ活用に向けて先手を打っておくことが必要ではないでしょうか。