特許事務所 IT知財情報
CONTENTS
CONTACT

特許業務法人
HARAKENZO
WORLD PATENT & TRADEMARK


大阪本部    

〒530-0041
大阪市北区天神橋2-北2-6
大和南森町ビル
TEL:06-6351-4384(代表)
FAX:06-6351-5664(代表)
E-Mail:

東京本部    

〒105-6121
東京都港区浜松町2-4-1
世界貿易センタービル21 階
TEL:03-3433-5810(代表)
FAX:03-3433-5281(代表)
E-Mail:

広島事務所 

〒730-0032
広島市中区立町2-23
野村不動産広島ビル4 階
TEL:082-545-3680(代表)
FAX:082-243-4130(代表)
E-Mail:

2018年3月開設予定
名古屋事務所

〒453-6109
名古屋市中村区平池町4-60-12
グローバルゲート9 階
TEL:052-589-2581(代表)
FAX:052-589-2582(代表)
E-Mail:


上記トレードマークの背景地図は、1991年当時の特許登録件数を陸地の大きさと形状に擬態化して、地図状に表現したものです。

プライバシーポリシー


IT知財情報
IoT×AI 支援室
室 長
担当者
担当者
担当者

: 弁理士 村上 尚
: 弁理士 鶴田 健太郎
: 弁理士 樋口 智夫
: 博士(保健学) 塚田 幸治

 <大阪本部所属>
 <東京本部所属>
 <大阪本部所属>
 <大阪本部所属>

東京本部 TEL
: 03 - 3433 - 5810
大阪本部 TEL
: 06 - 6351 - 4384
東京本部 FAX
: 03 - 3433 - 5281
大阪本部 FAX
: 06 - 6351 - 5664
E-mail

E-mail

IoTによって生成されるビッグデータの量と質に関する一考察

20161020

文責 :  塚田

1. はじめに

「Internet of the Things」略して「IoT」は、「モノのインターネット」と表現されます。

IoTにおいてネットワークに接続された「モノ」は、大量のデジタルデータを生成します。IoTが進めば、「モノ」によって生成されるデジタルデータの量は、さらに増加していくことでしょう。実際、機器によって生成されたデジタルデータの量が地球上で1年間に生成されるすべてのデジタルデータ(ビッグデータ)の量に占める割合は、2005年には11%でしたが、2020年には40%にまで上昇する、との予測がなされています。


コンピュータの性能の向上と情報通信技術(ICT)の進歩は、大量のデータ(ビッグデータ)をリアルタイムに処理することを可能としました。しかし、処理対象となるデータがいくら大量であっても、その質が良くなければ、データ解析を能率的かつ精密に行うことはできません。単に網羅的に収集されていたり、全く異なる目的で収集されていたりしたデータには、除去すべきノイズが多く含まれています。また、そのデータが収集されたときの条件が理想的であるとは限りません。


一方、IoTによって生成されるデータの質は、既存のビッグデータとは一線を画しています。なぜなら、IoTによって生成されるデジタルデータは、予め明確な目的(顧客サービスの充実、事業のランニングコストの削減、など)を設定した上で収集することができるからです。IoTは、大量で、かつ質の良い(高S/N比の)データを生成します。この点において、IoTは、人工知能(AI)、深層学習(Deep Learning)、ニューラルネットワークなどに供されるビッグデータの供給源としても、重要な技術となるでしょう。


本稿では、IoTによって生成されるビッグデータの量と質について考察します。


2.モノのインターネット

「インターネット」は、主として、人と人(友人、情報発信者などを含む)とのコミュニケーションをサポートするものであると言えます。例えば、ウェブサイトに画像やコメントなどをアップしたり、各種ウェブサイトにアクセスして情報を取得したり、家族や友人に電子メールを送信したり、といった私たちの行動の多くは、インターネットを介して行われます。

このことから、「モノのインターネット」は、プロセッサ、メモリ、および通信機能を備える「モノ」がインターネットに接続され、かつ「モノ」同士が互いにコミュニケーションする技術に関すると捉えることができます。


IoTは、既に私たちの身近な技術を含んでいます。例えば、外出中にスマートフォンを用いて家庭内の機器を制御する技術は、IoTによって実現される技術の1つです。この例では、スマートフォンおよび家庭内の機器が「モノ」に相当します。また、家電などの機器が消費する電力に基づいて各機器に対する制御情報を生成し、これらの機器に供給する電源を切り替えたり、機器の動作を制御したりするHEMS(Home Energy Management System、家庭内電力管理システム)も、IoTによって実現される技術の1つです。


このように、IoT自体は新しい技術ではありません。では、最近、各産業分野において着目されているIoTはどこが従来技術と異なるのでしょうか。従来のIoTとの差を理解するためのキーワードは、「ビッグデータ」です。


3.ビッグデータ

「ビッグデータ」とは、その名の通り膨大な量のデジタルデータです。

今や、「ネットバンキング」、「ネット通販」、「ネット予約」、・・・などに代表されるように、前出のインターネットを介してさまざまな手続きが可能です。例えば、ネット通販を利用した場合、利用日時、購入品、数量、および購入頻度、さらには、購入処理を行うまでに要した時間や、閲覧した他の商品などはデジタルデータです。また、カーナビゲーションシステムを搭載している自動車は、位置情報を受信しています。これらの位置情報もデジタルデータです。


2012年12月11日、米国のEMC(現在はDELL EMC)は1年間に生成されるデジタルデータの数に関する調査結果を発表しました。

この調査結果[1] によれば、1年間に生成されるデータ量は年々増加し、デジタルユニバース(1年間に全世界で生成あるいは複製されたデジタルデータの総量;米国調査会社IDCによる造語)の規模は2年ごとに倍増していく、と予測されました。具体的には、2012年時点で2.8ゼッタバイト(2.8×1021byte)であったデジタルユニバースの規模は、東京オリンピックが開催される2020年には、40ゼッタバイト(4×1022byte)となると予測されました。これは、物質量1モルを構成する分子・原子・イオンなどの数を示すアボガドロ数(6.02×1023)と同等の膨大な数です。また、1年間に生成されるデータ量に占めるマシン生成データ(すなわち、機器によって生成されるデジタルデータ)の割合は、2005年の11%から、2020年には40%にまで上昇する、と予測されました。


また、同調査結果において、2012年におけるデジタルユニバースの23%(643エクサバイト、6.43×1020byte)はビッグデータとして活用可能であるものの、タグ付けされているデータは全データの3%であり、さらに分析対象となっているデータは全データの1%未満であることが報告されました。2012年当時はまだ、ビッグデータの活用が十分には進んでいなかったことが分かります。


4.IoTが生成するビッグデータ

EMCジャパンは、IDCによる調査結果に基づいて、2013年4月18日にデジタルユニバースに関する発表会[2] を行いました。この発表会において、IoTが生成するビッグデータに関して以下のようなことが報告されました。


2013年当時、インターネットへ接続される可能性のある「モノ」の総数は2000億個を超えているものの、インターネットに接続されているのは全体のわずか7%(140億個)であり、これらの「モノ」が送受信するデータ量は総データ量の2%に過ぎない。しかし、今後IoTがさらに進み、2020年にはインターネットに接続されている「モノ」の総数は140億個から320億個に増加し、IoTによって生成されるデータ量は、2020年には総データ量の10%に達する見込みである。


地球上のデジタルデータの増大と、今後のIoTの進展とをふまえ、次のような分析がなされています。


「ビッグデータ化やIoTの浸透は、新たなビジネスモデルの創出やミッションクリティカルシステムのリアルタイム情報などを生み出す可能性がある。また、収益の多様化、ビジネスのグローバルな可視性、業務のインテリジェント化も進む。一方で、データの増大や多様化、増加のスピードなど上がり、企業も対応が難しくなっている。そのため、企業はビジネスインテリジェンス(BI)や意思決定ツールを用い、膨大なデータの中から価値のもっとも高い“ターゲットリッチなデータ”を抽出する必要がある。



5.データの量から、データの質への流れ(量≠質)

解析可能なデータ量がどんどん増大していく中で、どのようにして質の良いデータを能率的に解析するかが重要になります。既存のビッグデータは、目的とする解析の邪魔となるノイズが大量に混在しているため、ノイズ除去を行う必要があります。データの量が膨大であればあるほど、除去すべきノイズも膨大となります。多くの場合、既存のビッグデータは、そのままではターゲットリッチなデータではありません。

例えば、インターネットで所望の情報を検索する場面、ウェブ上の情報が爆発的に増加すれば、私たちが本当に欲しい情報は、それ以外のノイズに埋もれてしまいます。その結果、該当する情報をピンポイントで検索することは困難になる一方です。


例えば、グーグル社が提供する検索エンジンの基本は、リンク総数に基づく一種の人気投票に基づいています。これは、「ページ・ランク・アルゴリズム」と呼ばれるアルゴリズムです。しかし、「検索エンジン最適化(SEO)」、および無意味なコンテンツを大量生産する「コンテンツ・ファーム」の出現などによって、グーグル検索のランキングが意図的に操作され得るようになりました。また、個々のユーザが求めている情報が人気投票の上位にランクするとは限らないため、個々のユーザは、他の多くの人が欲しがった情報を押し付けられることになります。

そこで、グーグル社は「ナレッジグラフ」と呼ばれる巨大なデータベースを構築することで、従来の検索エンジンとは根本的に異なる「セマンティック検索(Semantic Search)」の開発を進めています。この「ナレッジグラフ」とは、AIを用いて、この世界を構成する知識(人物、地名、歴史、イベント、事件、など)とこれら知識間の関係性とを蓄積したデータベース(「知識ベース」とも呼称される)です。セマンティック検索は、個々のユーザによる検索の「意味」(すなわち、ユーザのニーズ)を理解して、各ユーザが所望する情報を提供することを目指しています。質の高いビッグデータである「ナレッジグラフ」の構築は、「セマンティック検索」の開発に繋がりました。これは、ビッグデータの量から質への流れの1つの例として考えられます。



6.実験計画法への回帰

ここで、ある書籍を1つ紹介させていただきます。1976年に初版が発行され、2010年7月30日に復刻版が発行された田口玄一著「実験計画法」[3] です。この書の「まえがき」は、以下のような記述から始まります。なお、同書は、具体的なデータ解析の事例を詳細に解説しているため、データ解析に関係のあるすべての者にとってたいへん有益な書です。


「科学や技術の研究は、すべて次の三つのステップから成り立っている。

(1)目的を決める。(2)手段を考える。(3)目的に対する手段の評価をする。

本書では、実験計画法を(3)の評価の中の汎用技術として定義している。目的に対して提案されたさまざまな手段の価値について、信頼のおける評価を能率よく行うための共通的手法の全体が実験計画法で、その内容は、計算や実験のわりつけの方法、データの解析方法、特性値の合理化から成り立っている。」


この「実験計画法」の初版が発行された当時は、正確な統計解析の論理に基づいた実験計画が練られ、その実験から質の良い(解析する価値が高い)データを収集し、このデータを精密に解析することが主流でした。したがって、制御されていない因子の影響を最小にするように設計された実験を実行し、得られた「質の良い」データを解析することが求められました。


しかし、コンピュータの性能も情報通信技術(ICT)も大きく向上した現代では、記憶容量や処理速度に制約されることがほとんど無くなり、加えて、AI等の導入も進み、大量のデータをリアルタイムに処理することも不可能ではなくなりました。データが大量であれば、データの中に多少のノイズが混在していてもよく、結論を左右するノイズでなければ問題はありません。すなわち、膨大なデータ量を素早く解析して事象の大枠を捉えることを目指すのであれば、膨大なデータは役に立ちますので、もはや実験計画法が不要になった感があります。


しかし、事象の大枠を捉えることにとどまらず、顧客ニーズを掘り起こして顧客満足度を向上させる方法や、事業における無駄の削減方法などについてきめ細かく正確に解析するためには、データの質が重要です。したがって、解析する前に、収集したデータに補正すべき系統誤差が含まれてはいないか、解析する目的に対して適切な測定方法が用いられているか、解析に用いる統計・検定モデルは適切か、などについて十分に検討した上で、データを収集し、解析することが求められます。


IoTによって生成されるデジタルデータは、予め明確な目的(顧客サービスの充実、事業におけるランニングコストの削減、など)を設定した上で収集することができます。この点において、IoTによって生成されるデータの質は、既存の雑多なデータを含むビッグデータとは一線を画しています。IoTによって生成されるデータは量と質とを兼ね備えています。それゆえ、IoTによって、これまでに無かったきめ細やかで適切なサービスを顧客に提供したり、事業の効率化に向けた効果的で斬新な施策を考案したりすることが可能になると考えられます。IoTはいわば、ビッグデータの解析が可能となった現代における、実験計画法への回帰なのではないでしょうか。


IoT関連技術の特許出願は、今後ますます増加していくことでしょう。現在までに特許出願された発明の多くは、大量のデータを収集して解析することを含む発明や、これまで収集できなかったデータを収集して他のデータと組み合わせて解析することを含む発明に関するものです。しかし今後は、上述したような実験計画法への回帰の流れを受けて、解析に供するデータの質が良いからこそ、その解析結果に基づいて特有の効果を発揮するような発明に関する特許出願が増えていくかもしれません。



〔参考文献〕
[1] http://ascii.jp/elem/000/000/759/759462/(2016年9月28日検索)
[2] http://ascii.jp/elem/000/000/886/886040/(2016年9月28日検索)
[3] 田口玄一 著,「復刻版 第3版 実験計画法(上)」, 2010年,丸善株式会社


以 上



このページのトップへ