DEEP LEARNING

「思考し、創造をする人工知能」は社会になにをもたらすか?——Google プリンシプル・サイエンティスト、ブレイス・アグエラ・ヤルカスに聞く

「Innovative City Forum 2016」に登壇するために来日したブレイス・アグエラ・ヤルカスは、Googleの(つまりは、現在地球上において最先端/最重要な)人工知能研究の中心にいる人物である。彼が研究しているのは、「machine intelligence(マシンインテリジェンス)」と呼ばれる分野。なかでも、人の脳を模した「ディープニューラルネットワーク」技術を用いた「machine perception(機械知覚)」は、人のごとく思考し、創造する知性として大いに注目されている。そんなマシンインテリジェンスの進化が、これからの社会になにをもたらすのかについて、ヤルカス氏に訊いた。

TEXT BY Tomonari Cotani
PHOTO BY Koutarou Washizaki
Main Image taken from the Keynote by Agüera y Arcas

——ヤルカスさんが研究されている「The machine perception algorithms(機械知覚アルゴリズム)」がどういうものなのか、わかりやすく教えていただけますか?

コンピューターサイエンスの始祖のひとりであるアラン・チューリング(1912〜54)は、コンピューテーションの最初のアイデアを紹介した「Intelligent Machinery(知的機械)」という論文を書いています。「どうしたら考える機械をつくれるか」という趣旨の論文です。このアイデアは、コンピューターサイエンス初期に広く浸透しました。コンピューターを研究する人と、脳を研究する人たちは、同じ人たちだったのです。

時は流れ、私がマイクロソフトに所属していた2010年代初頭に、コンピューターヴィジョンの分野において革命が起きました。脳の仕組みによく似たモデルである「ディープラーニング」の登場です。このテクノロジーが、コンピューターヴィジョン技術における最高のメソッドにとって代わろうとしていました。ディープラーニングがいままでの技術とどう違うのかをはっきりさせるために、ひとつ例を挙げたいと思います。顔認識技術です。

いままでの顔認識技術——この技術にはかなり長い歴史があるのですが、例えば1990年代のソニーのデジタルカメラを考えてみましょう。写真を撮る時に、背景ではなく顔を自動で見つけてフォーカスするための技術です。この技術では、目や鼻といった顔の特徴となるものを手がかりに顔を認識します。これはプログラマーたちがきっちりとプログラミングしたものです。つまり、すべてがルールに則ってプログラミングされているのです。これが以前のコンピューターヴィジョンのアプローチでした。

現在のディープラーニングは大きく違います。顔を認識する方法はプログラマーによってプログラムされていません。ニューラルネットワークが自動で学習したものなのです。これは簡易化された脳のモデルで、人工ニューロンをもっています。画像内のピクセルひとつひとつが、ニューロンに入力信号を送り、それが次の層のニューロンに送られ、そのニューロンがさらにほかのニューロンに送り……という作業を繰り返します。そうやって何層にもつながっていった「ニューロン同士のコネクションの強さやつながり方」から、自動的に顔を検出することができるようになっていくのです。

19世紀の神経解剖学者サンティアゴ・ラモン・イ・カハールが描いた鳥の脳の神経のイメージ。

ディープラーニングは、トレーニングに大量のサンプルが必要です。ちょうど、幼い子どもが顔の区別の仕方や、周りの世界にあるものの見方を、沢山の例を見ることによって覚えるようにです。だからトレーニングの仕方、つまりルールに則ってプログラミングされていないということと、人間のニューロンによく似た仕組みを持つことという両方の意味で、この技術は1990年代ころの画像認識の技術よりはるかにニューロサイエンスの分野に近づいているのです。

従来の画像認識技術では、「目の形をした箇所を探しなさい」というプログラムを書くわけなので、あまり多くのサンプルは必要ありません。プログラマーの洞察力が、書かれたコードにすでに含まれているからです。一方、ディープラーニングでは、プログラマーは顔がどのようなものかを定義しません。その代わり、プログラマーは大量のサンプルを用意して、システムに顔の形を「自分で」学習させるのです。

長くなりましたが、機械知覚アルゴリズムの特徴は、「自分で学習すること」、そして「その作りが人工ニューロンをもった脳に似ていること」だといえます。

——「machine intelligenceが創造的行為をする」ということが、今後人類に対してどのような意味を持つとお考えですか?

「わかりません」というのが本当のところです。でも、思うところはあります。まず、人間としての私たちの欠点は、自分を特別だったり、ユニークだったり、ほかの人と違う存在にしてくれる「なにか」を常に探そうとしていることにあると思います。また、私たちが「自分たちの社会以外の社会に属する人間も、同じ人間である」と認めたのは、人類の歴史から見てみると、本当に最近のことです。自分たち以外の存在を排除することが、人類の歴史なので。

そしてごく最近、私たちは機械や人工知能が、「自分たち以外の存在」になってしまうのではないかと考え始めました。

もし彼らが私たちの職を奪ったら? もしクリエイティヴィティが人間の領域ではなくなってしまったら? コンピューターがすべてやってくれるせいで、もし私たちが生きる意味を失ってしまったら?

でも、テクノロジーについて本当のことを言うと、「人間は自然の一部ではないし、テクノロジーは人間の一部ではない」といったように、すべてが分断されていると考えるのは間違っています。私たちは、自分たちが生み出したものと強くつながっているのです。カタツムリが自分の殻と繋がっているようにね。私たちが、先祖である類人猿のように全身体毛に覆われていないのは洋服があるからです。私たちの消化管が短いのは、人間が火を扱えるようになり、体の外で調理ができるようになったからです。要するに「自分たち以外」という考え方は、いってみれば幻なのです。

あまり深い答えは持ち合わせていないのですが、いま訊かれた質問の前提には、「人間とテクノロジーが分断されたものである」という考えがあると思います。けれど、それは間違っていると思うんです。私たちは常にテクノロジーの生み手であり、テクノロジーによってかたちづくられているのですから。

もしクリエイティヴィティやマシンインテリジェンスについてもっと具体的な資料を探しているなら、“Art in the Age of Machine Intelligence”というエッセイをネットに書いているのでぜひ読んでみてください。思想家のヴァルター・ベンヤミンが1930年に書いた代表作『複製技術時代の芸術作品(Art in the Age of Mechanical Reproduction)』にちなんでいるんです。

このエッセイは、芸術作品が無限の方法で複製されるがゆえにその権威が失われることによる、芸術への影響について書いたものです。彼はフィルムや印刷技術のことについて考えていたんですね。そしてこれは同時に、クリエイティヴィティや権威、価値のパニックについて述べたものでもありました。もちろん、ここから花咲いたアートもあるのですから、私たちは同じようなことを考えているのだと思います。

Innovative City Forum 2016の控え室にて。伊藤穰一 MITメディアラボ所長(左)と北野宏明 ソニーコンピュータサイエンス研究所 所長(右)とともに、セッション「人工知能と共生」に向けての打ち合わせ。

——大量生産技術を用いたアンディ・ウォーホルが出現したように、これまでとは全く異なる新しい芸術も生まれてくる、ということでしょうか。

そうです。テクノロジーとアートは常に一緒に歩んできたんです。写真はテクノロジーの姿をした芸術です。写真も、その技術が発明されたころには多くの議論がなされました。「ヴィジュアルアートの終焉かもしれない。写真が絵画を破壊してしまう」と。でももちろん、そんなことは起こりませんでした。写真の発明はキュビズムへとつながり、カメラが生み出せるものとは違う絵画のかたちが生まれました。これが私の見方です。

——国籍や年齢や性別や嗜好などに関係なく、人類があまねくマシンインテリジェンスの恩恵に与れるようになるためには、どのようなアプローチを取る必要があると考えますか?

私が非常に興味を抱き、かつチームで取り組んでいるのが、マシンインテリジェンスにおけるバイアスの問題です。IAT(Implicit Association Test)というテストをご存じでしょうか? 人の中にある気づかないバイアスをテストするものです。仕組みを簡単に説明しますね。

例えば、テストのなかには人種に関するテストがあります。この人種に関するIATテストは、人の中にある親白人・反黒人といったバイアスをテストするものです。黒人と白人の画像があり、それを左右どちらか一方の隅に分類します。そのあとに単語が出てくるので、それを「よい」「悪い」のどちらかに分類するのです。例えば「最低」「素晴らしい」といった単語です。それを左右どちらかの隅に分けていきます。ある条件では、白人と悪い言葉、黒人とよい言葉が一緒の隅に表示され、また違う条件では黒人が悪い言葉、白人とよい言葉が同じ隅に表示されます。大多数の人は、黒人とよい言葉を一緒に分類するのに手間取ります。逆も然りです。そしてこれは、私たちのバイアスが子どもの時からさらされてきた、メディアによるものだということを明らかにするのです。

この話を持ち出したのは、同じような実験を、世界中から来るデータを使って学習させたニューラルネットワークで行うと、人間で実験した時に見られたのと同じようなバイアスが現れるからなんです。私たちがバイアスを体得するのと同じデータにさらされているわけですから、当然ですよね。これは大きな問題です。ですので、いま私たちは、どうしたらマシンインテリジェンスを設計したりトレーニングする時に、人種差別や性差別といったことを本質的に教えないようにできるか、という研究をしています。これは、とても重要な視点だと思います。

機械学習システムは、あらゆる人間に対して確実に平等に作動しなければなりません。しかし現状では、さまざまなかたちのバイアスが存在します。ネガティヴなステレオタイプやネガティヴな関連性は、単純にそのシステムをトレーニングする時に使うメディアから学習しているんです。

トレーニング用のデータを変えたり、または学習中に使われるペナルティ関数をトレーニングしたり変更したりすることで、バイアスを排除する……。やがて人類があまねくマシンインテリジェンスの恩恵を受けられる日のために、いまはその研究を進める必要があると考えています。

【関連記事】

profile

ブレイス・アグエラ・ヤルカス|Blaise Agüera y Arcas
1975年アメリカ・ロードアイランド州生まれ/Googleプリンシプル・サイエンティスト。6歳からプログラミングを始め、プリンストン大学では物理学や計算論的神経科学を専攻。シアトルで起業した会社が2006年にマイクロソフトに買収されたことにより、同社に2013年まで在籍し、その後Googleへ。2008年、MITからTR35(35歳未満の若いイノベーター35人)に認定される。