総務省トップ > 政策 > 白書 > 25年版 > フレームワーク
第1部 特集 「スマートICT」の戦略的活用でいかに日本に元気と成長をもたらすか
第3節 ビッグデータの活用が促す成長の可能性

(1)フレームワーク

ア 対象主体

世間一般で言うところの「ビッグデータ」には、個人、企業、政府等あらゆる経済主体が多様な手段・ルートで生成したデータが含まれており、また、「1.ビッグデータがもたらす新たな成長」でも触れたように、構造化されたデータのみならず、最近は非構造化データが大量に生成され、それらの活用により新たな社会・経済的価値が創出されているものと考えられる。本来であれば、ビッグデータとして想定されるデータすべてについてその量を把握できることが望ましいが、特に個人に関わるものなど、その把握が困難と考えられるものもあるため、今回の調査では、計測の対象とする主体及び対象データについて特定を行い、その範囲内における流通・蓄積量の測定を実施する。

まず、対象主体の選定にあたっては、ビッグデータを活用することにより、社会・経済的価値を創出する主要な経済主体は企業であると考えられることから、対象主体を企業に限定し、かつ、計測対象とするデータを企業が電子的に受信するデータに限定した上でフレームワークの検討及び計測の試行を行った。なお、ここで言う「企業が電子的に受信するデータ」には、同一企業内で受信するデータ、他の企業、個人または政府から受信するデータのすべてを含むものとする。

また、推計対象産業は、産業連関表にある13部門分類のうち公務及び分類不明を除く11部門を対象産業に選定の上、推計に必要なデータの収集20を行った(ただし、推計に必要なサンプル数が集まらず、今回、推計を断念した部門は存在する)。

なお、次年度以降は、対象分野を拡張するとともに、データ「発信」の側面も考慮しつつデータ流通・蓄積量推計の精緻化・網羅化を図る予定である(図表1-3-2-1)。

図表1-3-2-1 ビッグデータ流通・蓄積量計測の対象主体
(出典)総務省「情報流通・蓄積量の計測手法の検討に係る調査研究」(平成25年)
イ データ生成・流通・蓄積過程の概念整理

続いて、企業が内外から電子的に受信するデータ流通・蓄積量を計測するにあたっての、データの生成・流通・蓄積過程についての概念を整理する。

まず、生成されたデータが流通し蓄積されるまでの一連のプロセスについて整理すると、ある時点で生成されたデジタルデータ(構造化データ、非構造化データ)は、通信ネットワーク等を介して家計や企業、政府等の個別の経済主体に流通し、それらが蓄積されることによってデータ生成-流通-蓄積までの第1次サイクルが終了する。その際、データの特性に応じて生成されたデータがすべてそのまま流通・蓄積される場合もあれば、その一部のみが流通・蓄積される場合もある。以下では、このように本源的なデータが生成・流通・蓄積されるまでの一連のライフサイクルをデータ流通の第1次過程と定義する21

さらに、デジタルデータの大きな特徴として、一度蓄積された諸データが複製や加工・集計を通じて、新たなデータとして再生成され、それらが再び、流通・蓄積されるという再生成-再流通-再蓄積が行われることが挙げられる。以下では、このようなデータの再生成・再流通・再蓄積の一連の過程をデータ流通の第2次過程と定義する。

以上のデータ生成・流通・蓄積過程の概念を図示すると図表1-3-2-2のとおりである。

図表1-3-2-2 データ生成・流通・蓄積構造の概念
(出典)総務省「情報流通・蓄積量の計測手法の検討に係る調査研究」(平成25年)
ウ データ流通・蓄積量の推計範囲と推計対象データ

次に、今回のデータ流通・蓄積量推計にあたっての推計範囲と推計対象データについて説明する。

先述したとおり、デジタルデータは生成・流通・蓄積までの一連のプロセスが多段階にわたって繰り返されることによって、データ量が加速度的に増大していくという特性を有するため、第1次データ流通過程以降のすべてのデータ流通サイクルを考慮しつつ、その量を推計することは非常に困難である。そのため、今回のデータ流通量推計にあたっては、データ流通量の全体像を把握するための第1次接近として、データ流通の第1次過程において流通するデータ量(本源的に生成され流通したデータ量)に限定し、そこでのデータ流通量の推計を行った。従って、一度蓄積された諸データから再生成されたデータの再流通部分は今回のデータ量推計の対象外である(図表1-3-2-3)。

図表1-3-2-3 データ流通量の推計対象範囲
(出典)総務省「情報流通・蓄積量の計測手法の検討に係る調査研究」(平成25年)

次に、データ流通量を推計するにあたっての計量対象データについて説明する。ビッグデータはさまざまな特性を有する複数のデータから構成されていること、またビッグデータを構成するデータ群は時間とともに動態的に変化していくことを鑑みれば、ビッグデータの構成データを画一的に画定し、その中のすべてのデータを対象にしたデータ流通量を推計することは現実的には困難である。そのため、実際に流通・蓄積量を推計するにあたっては、計量対象とするデータを限定する必要がある。

そこで、今回のデータ流通量推計では、推計に必要なデータの取得可能性や企業のマーケティング戦略や意思決定等の企業レベルでの経済活動におけるデータの利活用状況を考慮しつつ、構造化データとして8種データ(顧客データベース、経理データ、POSデータ、レセプトデータ、eコマースの販売ログデータ、GPSデータ、RFIDデータ、気象データ)、非構造化データとして9種データ(業務日誌データ、CTI音声ログデータ、固定IP電話の音声データ、携帯電話の音声データ、電子メール、ブログ・SNS等の記事データ、アクセスログデータ、電子カルテデータ、画像診断データ)の計17種のデータを計量対象データに設定した(図表1-3-2-4)。

図表1-3-2-4 ビッグデータの構成データと流通量の推計対象データ
(出典)総務省「情報流通・蓄積量の計測手法の検討に係る調査研究」(平成25年)

このように、今回のデータ流通量推計は、企業が電子的に受信するデータを対象としていること、また再生成・再流通するデータ量は推計対象から除外していること、及び計量対象データも全体のデータのうちのごく一部に限定していること等の多くの制約条件が課された下で実施されており、必ずしもデータ流通量の全体像を明らかにしたわけではない。したがって、今回の推計は、ビッグデータ流通量のうち、ごく一部分のデータ流通量を推計したに過ぎない点には留意する必要がある(図表1-3-2-5)。

図表1-3-2-5 ビッグデータの定義とデータ流通量の推計範囲(イメージ)
(出典)総務省「情報流通・蓄積量の計測手法の検討に係る調査研究」(平成25年)
エ ビッグデータ流通・蓄積量の推計アプローチ
(ア)ビッグデータ流通量の推計アプローチ

データ流通量の推計に関しては、その対象産業を9産業(サービス業、情報通信業、運輸業、不動産業、金融・保険業、商業、電気・ガス・水道業、建設業、製造業)22、計量対象データを図表1-3-2-4に示された17種のデータとした上で、次の推計モデルを用いて個別産業ごとの合計データ流通量を推計し、それらを積み上げることでマクロ全体のデータ流通量を計測した。

産業別のデータ流通量推計に用いた推計モデルの詳細は、計量対象データごとに異なるが、その概要は次のとおりである。まず、2012年時点の各産業の総企業数に当該データ(例えばPOSデータ)利用率(2012年時点)を乗じることで、2012年時点の当該データ利用企業数(例えばPOSデータ利用企業数)を産業別に導出した。次に、当該データ利用企業数に、2012年時点の当該データの受信頻度、従業員数、1回のデータ受信当りの情報量等を乗じ、2012年の当該データの流通量を推計した。ここまでのステップで、全17種の計量対象データのうち、それぞれのデータ流通量が産業ごとに推計されたことになる。最後に、それぞれの計量対象データの流通量を産業ごとに合計することにより、2012年時点における産業別のデータ流通量を推計した(図表1-3-2-6)。なお、今回の流通量推計では出来る限り過去時点の流通量に関しても遡及推計を行ない、データ流通量の時系列データ(2005年、2008年、2011年、2012年)を構築した23。時系列データの構築にあたっては、2012年以外は、データ量推計に必要なデータの取得が困難であることから、企業数、当該データ利用率、従業員数以外の変数(データ受信頻度、1回のデータ受信当りの情報量等)の水準は2012年当時と同一レベルと想定の上、データ流通量の遡及を行なった。以上の推計ステップを用い、2005年、2008年、2011年、2012年の4ポイントの流通量データの構築を行った。

図表1-3-2-6 ビッグデータ流通量の推計モデル
(出典)総務省「情報流通・蓄積量の計測手法の検討に係る調査研究」(平成25年)

 

(イ)ビッグデータ蓄積量の推計アプローチ

次に、データ蓄積量の推計フレームについて述べる。今回のデータ蓄積量の推計に当たっては、企業組織の内部あるいは外部に設置されているサーバーに保存されているデータ量に着目した。したがって、先述のデータ流通量推計では対象データが限定されているのに対し、蓄積量の推計では推計対象とするデータを限定しておらず、サーバーに保存されているあらゆるデータが対象となっていることから、統計の対象範囲が異なる点に留意する必要がある。

データの蓄積量の推計モデルは次のとおりである。まず、各企業の社内に設置されたサーバー容量に自社サーバーの使用率を乗じ、「内部データ蓄積量」を推計した。次に、当該企業が外部に設定しているサーバー総容量に外部サーバーの利用率を乗じ「外部データ蓄積量」を推計した。最後に、「内部データ蓄積量」に「外部データ蓄積量」を加え、それに各産業の企業数を乗じることで、産業ごとのデータ蓄積量を推計し、それらを積み上げることでマクロ全体のデータ蓄積量を計測した(図表1-3-2-7)。

図表1-3-2-7 データ蓄積量の推計モデル
(出典)総務省「情報流通・蓄積量の計測手法の検討に係る調査研究」(平成25年)


20 全国の企業21,731社を対象にウェブアンケートを実施。うち、5,096社から回答があった(回収率23.5%)。対象企業は、産業区分では(1)農林水産業、(2)鉱業、(3)製造業、(4)建設業、(5)電力・ガス・水道業、(6)商業、(7)金融・保険業、(8)不動産業、(9)運輸業、(10)情報通信業、(11)サービス業(医療分野以外)及び(12)医療分野の12区分。ウェブアンケート会社が保有するモニターから、対象産業に就業中のモニターを抽出。具体的には「ICTサービスおよびメディアの利用状況・利用頻度」、「ICTサービスおよびメディアの単位あたりデータ量」、「サーバの利用状況」を主な調査項目として設計した。付注6も参照されたい。

21 情報生成・流通・蓄積という一連の流れは、情報やデータの特性に応じて時間を置いて行われる場合もあれば、瞬時に完結する場合もあり得る。

22 農林水産業及び鉱業は推計に必要な量のデータが取得できなかったため、推計対象から除外した。

23 今回の流通量推計は、アンケート調査から得られた各種データを多く用いて実施しているため、アンケート対象者の回答負担やデータの信頼性等の観点から、2005年以降のすべての年について、そのデータ流通量を計測することは不可能である。そこで、今回の分析では、スマートフォンやタブレット端末の急速な普及やモバイル通信ネットワークの高度化、クラウドサービス等の新たなICTサービス・技術が勃興した2005年以降に着目し、3年ごとのデータ流通量及び、直近の2012年のデータ流通量を計測した。なお、今後、今回の分析を基にデータ流通量のさらなる過去への遡及及び長期の流通量データを構築する予定である。

テキスト形式のファイルはこちら

ページトップへ戻る