ビッグデータ、それは世の中を革新する根源的な原動力だ(前編)

ビッグデータの利用が爆発的に普及し、私たちの社会にかつてない変化をもたらし始めた。膨大なデータの収集と解析によって、これまで漠然と捉えていた現象が「従来の見える化という言葉では表現出来ないくらい、透き通るように細かく判るようになり」、生活や産業、交通、エネルギー、教育、ヘルスケアなどあらゆる分野でパラダイム・シフトが起きる可能性を秘めている。
国立情報学研究所の喜連川優所長(東京大学教授)は、「我々はいま歴史的な転換点の上を動いている」と語る。喜連川氏は内閣府の最先端研究開発支援プログラムである超高速データベース・エンジンの開発でも知られ、従来の1000倍の処理速度を実現した日本を代表する計算機科学研究者だ。
ビッグデータを活用した社会サービスはこれからどんな分野でどのように発展するのか、そこに限界はないのか。そしてインターネット特有の個人情報保護、著作権、セキュリティーの問題、さらには話題の人工知能などについて、喜連川所長に伺った。

ビッグデータは、世の中の構造を透かして
「見える化」させる

――ビッグデータは世の中を一気に革新する勢いです。私たちはその歴史的な意味をどのように考えればよいのでしょうか。

ビッグデータ、それは世の中を革新する根源的な原動力だ(前編)

喜連川 この10年間、世界にインパクトを与えたキーワードとして、ビッグデータを凌駕するほどのものは出ていません。米オバマ大統領は2012年3月に「ビッグデータ研究開発イニシアティブ」を発表しましたが、諮問機関である科学技術委員会の答申は、「ビッグデータは科学、産業、社会のあらゆるものを根源的に変革する力をもっている」と述べています。現時点において、そのことを皆が体感するようになりつつあります。大量のデータを用いて、定量的に思考するというアプローチは非常に効果があり、ビッグデータという用語はすぐに使い捨てになるのではなく、表現は多少変化することはあるやもしれませんが、今後も長く続くキーワードだと感じております。

後世の人が今の時代を振り返るとき、いままさに人類がさしかかっている歴史的な転換点の最前線を駆け抜けていたことが判ると思います。ビッグデータの何が根源的かと言えば、「超精細な観測(age of observation)」です。世の中の構造が透き通って見えるようになり、社会の動きを非常に正確に捕捉することができるようになります。見えなかったものが見えるようになり、そこから新たな洞察が可能となり、さらに多様なイノベーションが生まれつつあることが肌で感じられるのは、大変素晴らしいことです。

ビッグデータは世の中を革新する根源的な原動力です。「このビッグデータとあのビッグデータをこう使って、こういうソリューションが作れる!」とデザインする時代に入ってきました。私は、ビッグデータが本質で、最近よく使われるIoT(Internet of Things)はビッグデータを作るためのツールであるという見方をしています。つまり現時点ではIoTはデータのセンサーノードと考えるのが自然な捉え方です。将来的にはIoTはアクチュエータとなり得ますが、現時点ではまだ非力です。

――「見える化」で、私たちの生活や社会はどのように変わるのか、具体的なイメージがあればお話しいただけませんか。

喜連川 4月に韓国の国際会議に出席しましたが、そこでサムスンがある発表をしました。コリアテレコム(KT=韓国最大の通信会社)が深夜帯のモバイルデータを解析したところ、どの地域に人がたくさんいるのかという分布がかなりクリアに出てきた。それによって深夜バスをどのルートで走らせれば効率的であるかが分かり、実際ルートを変更したというのです。

バスが走る路線は不動産価値が高くなるために利権になっていて、従来そういう改善は不可能でした。しかし、住民の利便性を考えると、住民のニーズに合わせてバスを運行するのは公共サービスとしては至極自然です。バス会社が自分の持っていないデータを譲り受け、エビデンスに基づくサービスの改善に取り組むというこの事例には、人間の生活を豊かにするという方向性が見えてきます。データ活用が新しい領域に及んでいく1つの例と言えるでしょう。

ビッグデータの応用は
ヘルスケアが最も期待できる

――先生は「ビッグデータの応用はヘルスケアが最も期待できる」とコメントされていますが、それはどういう理由からでしょうか。

ビッグデータ、それは世の中を革新する根源的な原動力だ(前編)

喜連川 ヘルスケアについては膨大なレセプトデータを解析することによって、実際に定量的にいろいろな新しい知見が得られつつあります。疾病は全国一律に発生しているわけではなく、この県にはこの病気が多いとか少ないとか顕著な差があることが分かってきました。これは驚きでした。

これまで病院の医療サービスは全国一律の内容で展開するのが当たり前でしたが、県によって病気の発症率が違うのですから、地域の事情に合った医療内容に変えるのが当然合理的です。もちろん医療に従事されておられる方は、多分こうだろうなと何となく感じておられたこととは思いますが、現実のデータを見ることで非常にすっきりと正確に把握できます。

こうして社会の効率を数%でも高めることができれば、非常に大きなインパクトがあります。国の医療費は35兆円ですから、わずかな効率改善でも極めて大きな効果が期待できます。ビッグデータはいろいろな気づきを与えてくれます。

IBMではワトソン(Watson)を駆使して病気を診断・治療する研究を進めていますね。膨大な文献情報を検索して、目の前にいる患者に有効と想定される施術を医師に示唆してくれることは、より正確な診断や治療ができると期待しています。もちろん最終判断は医師ですが、医学の進歩により非常に多くの知見が得られており、それを一人の人間が覚えきれない状況であることも事実であり、医学に限らず多くの学問分野で、このような知識をアシストしてくれるようなシステムが今後も多く求められると思います。

ネット購買で広がる
新ビジネス導入への手法とその課題

――そうしたビッグデータ解析の手法は、ネット購買などいろいろな分野でもすでに使われていますね。

喜連川 そうです。例えばアマゾンで本を買うと、似たような本をあれこれ勧めてきますが、それは同じ購買パターンの人を検索で見つけて、それならこんな本も買うのではないかと推測しているわけです。

CCC(カルチュア・コンビニエンス・クラブ)の場合は、レンタルビデオだけでなく、他の多様な業種と連携して、より広い活動傾向を補足しようとされています。個人の購買行動を細かく分類して新ビジネスに導く手法は、これまでもなされてきたわけですが、今後はより膨大なデータを活用し精度を上げるという方向があらゆる分野で見えてきていると思います。

しかし、なかなか困難な問題もあります。どんどんとパーソナライズしてゆきますと、一見、コンバージェンスがあがり、つまりその人の興味にあったものだけが常に提示され、その人は心地よいと考えがちですが、それが行過ぎますと、どんどん狭い世界に埋没することとなり、新しい世界に触れることがなくなってしまいます。人生の幅がどんどん狭くなるといのはやはり問題で、広がりのある豊かな人生にしたいと思えば、ちょっとは違うものを表示しないといけません。かといってあまり遠い分野だと興味を持ってもらえない。ここが技術的に非常に難しいところです。

ダイバーシティーの観点から
未解決の問題が多い教育分野

――教育分野の見通しはいかがですか。Moocs(Massive Open Online Courses)の普及によって、一人ひとりの進展に合わせた授業が可能になっています。

ビッグデータ、それは世の中を革新する根源的な原動力だ(前編)

喜連川 教育は、これまではほとんどデータ解析が活用されてこなかった難しい領域ですが、教育のデジタル化を背景に、学生の習熟ログを取得しそれを解析することにより、学生のつまずきを発見したり、学生が教材を繰り返し再生しているところを検出し、判りにくいと想定される箇所を発見しそれを改善したりするなど、一歩一歩活用の努力が始まっています。グローバルに教材をオープンにしますと数万人、数十万人規模の受講も常識になりつつあることから、ビッグデータの活用が本格化していると言えます。これまで教育課程のデータは極めて取得困難でしたが、デジタル化により道が開けつつあるということです。

低学年の教育においては学習進度を解析することにより落ちこぼれそうな兆しを検出し、いろいろと手を差し伸べることが可能ですが、一方で、学習の履歴はその学生のゲノムと同じ程度に個の能力を示す機微なデータとなり得ることは明白で、その取扱いは慎重である必要があります。異なる見方として、学生自身が自分を見つめる素材にもなる可能性もあります。利用ガイドラインの策定には時間がかかるものと想定されますが、今日、法改正により遠隔授業がよりやりやすくなるなど、やれるところから積極的に改善することはまさに必要であり、教育は将来の国家の発展において極めて重要であることは論をまたず、教育における積極的なIT化は不可欠と言えましょう。

MoocsもこれまでのものからC-Moocsのように教材を一緒に作り上げるプロセスに重点を置く方式など多様な展開がなされており、今後教育学と情報学の有機的連携はますます活発化することを期待したいところです。
一例ですが、米一流大学の先生が、Moocsで1番を取った成績優秀な学生に「君の成績は素晴らしい。ぜひ当大学に来てください」と言ったら、その学生は「全然興味ありません」と言ったそうで、ネットから想像する学生像と直接に接する実際の学生の姿との乖離はとても大きいようです。デジタル化で学生の理解の状況が分かった気になるのも危険な側面があるかもしれません。教育は、拙速にならないよう今後ゆっくりと知見を広げていくべき分野と感じます。

「超高速データベース・エンジン」と、
今後の展望

――先生はビッグデータを解析する「超高速データベース・エンジン」の研究で、従来の1000倍もの処理性能を達成されています。今後の展望をお聞かせいただけますか。

ビッグデータ、それは世の中を革新する根源的な原動力だ(前編)

喜連川 ビッグデータは2つのパートに分かれます。1つはビッグデータをきっちりと形式を整え、データの各要素の意味をメタデータとして記述し、利用する際には高速に取り出せるように保管しておくデータベースの部分。もう1つは格納されたデータを解析する部分です。実際の作業では、実は前者の方が圧倒的に時間がかかることが多いのが実情で、もちろん解析部分は重要なのですが、前者をきっちりとしておかないと、全く機能しません。そもそも格納しているデータが何を意味しているかはっきりせず、どう使っていいかもよく判らなくなってしまいます。
このようにデータベースは極めて大切なコンポーネントですが、約30年前に大学で「データが命」だと思いデータベースの研究を始めた頃にはまだ黎明期で、「計算が命」と思っている研究者のほうがずっと多かったように思います。30年はムーア則を適用しますと100万倍の変化を意味します。今日のコンピューターに比べ論理素子は100万分の1に過ぎないお粗末なもので、100万分の1の極めて少ない記憶容量のコンピューター環境で研究をしていた次第です。

当然のことながら、これまでのデータベース・システムは、ビッグデータ時代に備えていたわけではありませんので、巨大データの解析処理にはまだまだ不慣れな状況です。そこで、ビッグデータ時代に重要となる領域をターゲットとし、圧倒的な高性能化を狙ったのが、独自に開発した「非順序型実行原理」(注)に基づく「超高速データベース・エンジン」で、内閣府最先端研究開発支援プログラム(FIRST)によって開発致しました。

このデータベース・エンジンは非決定性という性質を持っていることがその特徴です。これは、毎回実行するたびに自動的にその時に適した実行パターンをとるため、毎回挙動が変わるというちょっと不思議な性質を持っています。これによりストレージシステムのポテンシャルを最大限に引き出し、処理速度を大幅に高速化できます。この技術は製品化され、2014年には世界の業界標準ベンチマークである「TPC-H」における最大クラスである100テラバイト級に世界で初めて登録されました。大学の技術を実用に昇華させたわけですが、まだビッグデータ時代に産声を上げたという段階です。

(注)非順序型実行原理: 一般のデータベースが行うデータ処理は「順序型実行原理」に基づいており、命令が来るとそれを処理し終えてから次の命令を実行するという順番で繰り返す。それに対し「非順序型実行原理」は必要な命令を最初にまとめて全部出し、データベースはバラバラな順序で処理するが、最後につじつまが合う。データベースの機能をフルに使うのでムダな待ち時間を劇的に短縮できる。この技術の発明に対し、最近、発明協会から「21世紀発明賞」が授与された。

テキスト:木代泰之

後編はこちらから

喜連川 優

きつれがわ・まさる
喜連川 優

 

国立情報学研究所所長、東京大学生産技術研究所教授
1978年 東京大学工学部電子工学科卒業。
1983年 東京大学大学院工学系研究科情報工学専攻博士課程修了。工学博士
1997年 東京大学 生産技術研究所 教授
2010年 東京大学 地球観測データ統融合連携研究機構長
2013年 国立情報学研究所 所長。情報処理学会 会長
主な受賞・褒章等: 2009年 ACM E.F.Codd Innovations Award受賞。2012年 IEEE Fellow。同年 ACM Fellow。2013年紫綬褒章。2015年 21世紀発明賞。


Sponsor Content Presented ByIBM

※日本IBM社外からの寄稿や発言内容は、必ずしも同社の見解を表明しているわけではありません。


関連記事