いよいよ日本でもスマートスピーカーが流行の兆しを見せているが、音声認識以外にも、「声」には可能性が秘められている。そのひとつが「音環境分析」だ。会話を分析し、可視化することでコミュニケーションをより豊かにするというこの技術には、どのような可能性が秘められているのか。この分野で起業したHylableの代表・水本武志に訊いた。
TEXT BY TOMONARI COTANI
PHOTO BY KOUTAROU WASHIZAKI
すべてはカエルの鳴き声から始まった
──まずは、水本さんがどのような研究人生を歩み、Hylable(ハイラブル)の起業にまで至ったのかを教えていただけますか?
水本 高等専門学校でロボコンにのめり込んだ後、京都大学に編入しました。研究室を選ぶ際に、ロボット聴覚といって、ロボットに耳の機能を与える研究がおもしろそうだなと思ったんです。その根底には、「ロボットと話したい」というモチベーションがありました。研究室に入った当初は、ロボットが人の演奏を予測しながら合奏をするという研究をしていましたね。
ある日、先生に「カエルを研究しているヤツがいるから、手伝ってあげて」と突然言われ、「はぁ」といった感じで(笑)、カエルの声を録音しに行ったんです。その人は物理学者で、「カエルのコミュニケーションを数学的にモデル化する」研究を行っていました。野外、というか田んぼにマイクを置いて録音するわけですが、最初はよくわからなくて大変だったんです。マイクを置いたり、回収したり、泥を落としたりするのもひと苦労でしたし。
でも、やっているうちに段々楽しくなってきたんです。水田のまわりには、カエルが何十匹もいてうるさいのですが、最終的に、目的のカエルたちがどのように鳴いているかを「計測」して「可視化」するシステムと、それを分析する手法を生み出すことができました。カエルというのは田んぼの縁に並んでいるのですが、隣り合うカエルたちは交互に鳴いていたんです。
──まさに輪唱!
水本 そうなんです。その後はホンダの研究所に入り、いわゆる音声認識の研究に携わっていました。ただ、大企業だと商品化ははるか先なので、自分でやってみたいということで、2016年に会社を作りました。
──日本でもようやく、スマートスピーカーが普及の兆しを見せ始めましたが、起業された当時から、「これからは音声が来る!」という手応えはあったのでしょうか?
水本 正直、音声認識というのは、基本的にはまだまだ信用ならないものなんです。よくクルマで、「右に曲がって」「左に曲がって」とコントロールするのはどうかと言われるのですが、100%成功しないとダメじゃないですか。「認識率は99%で、たまに左へ行っちゃいます」だと危ないですからね(笑)。その点、今のスマートスピーカーは、認識が間違っていても「知ったかぶり風」にいい感じで返すことが大事なわけですが、それをうまくやっているなという印象です。
僕が居た研究室でも、3人が同時にロボットに話しかけて、それぞれ聞き分けるといった似たような研究をしていましたが、「さすがだな」と思っていました。なので自分の会社では、「音環境分析」と「議論分析」で勝負しようと考えたんです。
会話を「定量化」することで見えてくること
──この卵型のデバイスは、何なのでしょうか?
水本 これはマイクロホンアレイといって、8個のマイクが内蔵されています。これを使うと、どの方向から音が来たかということがわかります。例えば僕の声は、8個のうち一番近いマイクに最初に届き、ちょっとずつ遅れていきます。この遅れの情報を使うんです。
──このマイクロホンアレイを使って、どのようなサービスを提供しているのでしょうか?
水本 このマイク自体はウチが開発したものではないのですが、Hylableでは、このマイクを使って「音環境分析」と「議論分析」を組み合わせた「DAS」という議論評価サービスを、主に教育機関に提供しています。DASというのは、Discussion Assessment Serviceの略です。
現在、教育の現場では、子どもたち自身が主体的に学べる機会を増やそうということで、アクティブ・ラーニング型の授業が注目されています。それによって、子どもたち同士が話し合うような「能動的な活動」が増えて行くことになるのですが、アクティブ・ラーニングというのは、まだまだ客観的な分析方法がなく、先生の力量や努力に頼っている部分が多いんです。
そうした分野を定量化・可視化することで、エビデンスに基づく客観的な評価やふり返りを提供しようというのが、DASになります。何が起こっているかを知りたい、調べたいということから、「アセスメント」と名付けています。
──具体的には、どのようなことが定量化・可視化されるのでしょうか?
水本 例えば下の図は、ある学校で実験した「5人の生徒による会話」のデータなのですが、オレンジの子は、ほとんど話していないことがわかります。子どもたちにこの結果を見せたところ、「案外自分がずっとしゃべっていることがわかった」とか、「全然私しゃべってなかった」という気づきがあり、「次は司会を立てよう」とか、「次回はもっと話そう」といった、客観的なふり返りができました。
水本 もうひとつ、通常、学校でもICレコーダーをたくさん置いて録音するのですが、それだと、先生は全部聞かなければオレンジの子の発言を拾えませんし、場合によっては誰の発言かわからないこともあります。その点、このデータを見れば、オレンジの子が何を話したのかをピンポイントで聞くことができますし、「このとき盛り上がったのはなぜだろう」とか、授業の進め方を変えていくノウハウを蓄積できるという意見がありました。
今までは感覚とか経験に頼っていたものでしかなかったものを、データというエビデンスに落とせて振り返ることができる、ということが特徴だと思います。スーパー先生のスキルを定量化することができれば、誰もがそのスキルを使うことができるようになるはずです。
あの上司がいると、この人は喋らない!?
──DASは、当初から教育機関向けに開発されたのでしょうか?
水本 実はそういうわけではないんです。音声認識は花形なので、当初はそこで勝負したいという思いがあったのですが、DASに音声認識の結果を入れても、全然うまく行かなかったんです。「うまく行かないんだったら取ってしまえ」ということで外してみたら、案外よかったという。で、会話を可視化するのにいい場所はないかなと思っているときに、「教育機関がいいのでは?」という意見を、リバネスの方からいただいたんです。なので、今は教育の現場を中心にしていますが、会話があるところであれば、どこでも活用できると考えています。
──オフィスの会議室に置いたりしても、いいわけですよね?
水本 そうですね。まだ実例はありませんが、マイクロホンアレイを置くだけなので、ぜひご検討いただきたいですね。例えばテーブルに埋め込んで電源を刺しておけば、いつでも使えますし。
──ビジネスの現場にDASが投入されると、何が「可視化」されてくるのでしょうか?
水本 会社の場合、「あの上司がいると、この人は喋らない」といったことがありますよね。これまでは、何となく「わかる人にはわかる」という状況だったと思いますが、それがデータでわかるようになるので、例えば一番話し合いが活性化するようなチーム編成にしたり、新入社員をどこに配属したらいいかといったことを、判断しやすくなると思います。
ほかには、成績がよかったチームはどのような話し合いをしていたのかがわかるので、「こういう議論をすれば、成果が出る」といったこともわかるようになると思います。
──それって、経験値や暗黙知が可視化された、ということなのでしょうか? それとも、これまで気づかなかったことを見つけられるようになった、ということなのでしょうか?
水本 今のところは、経験者たちが持つノウハウが、その通りだったということがわかってきた段階です。なので、このデータはそこそこ信頼できるね、ということがわかってきました。その次の段階として、新しいことがわかってくると思います。例えば、会話に先生が入ってきたときといないときではどう違うか、ということもわかるわけですが、それって、席を外した先生自身は、わからなかったことじゃないですか。
──学校、会社以外では、どういった場で活用できる可能性がありそうですか? あまり明言してしまうと、ビジネスに影響するかもしれませんが……。
水本 そうですね(笑)。基本的にDASは、会話にはどういうダイナミクスがあるか、ということがわかるサービスなので、研究領域でも使っていただきたいとは思っています。あと、本当にやるかどうかは別ですが、合コンに使ってもいいかもしれません。
──ほう! 何が見えてきますかね。
水本 相性ですね(笑)。まあでも、結局人がしゃべっているところであれば、どこでもおもしろいアイデアはあるかなと思います。
──同時に、何人くらいの会話までカバーできるのでしょう?
水本 最大で7、8人くらいですが、今学校では、3〜5人で実験をしています。逆に言うと、それくらいの人数で話す場であれば、どこでもいけると思います。例えば、売れる営業はどんな話をしているのか、とか。そうすると、商材によってどういう話し方をした方がいいかということが見えてくるかもしれません。とにかく、今まで見えなかったものが見えてくることは間違いないと思います。
カエルは聞き分けていた
──ずっと聴覚の研究をされてきたわけですが、改めて、音のおもしろさというと何なのでしょうか?
水本 音は見えませんが、その「見えないもの」が見えるのがおもしろいところだと思います。結局、カエルもそうなんです。ゴチャゴチャっとしていたものの構造が見えてくるところがおもしろかったんです。会話も、何となく雰囲気でしかなかったものが、それが可視化されることで「何が起こっているか」がキレイに見えてくる。そこが一番おもしろいところだと思います。
──それこそ、ジェンダーだったり、年齢だったり、国籍だったり、立場だったりで、個別の特徴みたいなものがありそうですが、それぞれの会話が定量化されたことなんてないわけですから、とても大きな空白を見つけたとも言えるわけですよね。
水本 例えばアメリカでは、初めて議論に参加するときは、しゃべり過ぎないように気をつけるそうです。日本だと、がんばってしゃべるという意識があったりしますが。そういう文化差がより浮き彫りになってきたりするかもしれません。
あと、メタ認知というものが人にはあって、こういうデータを見知っておくと、脳内で、今、誰がどれくらい話しているかというイメージが湧くようになって、「もう少し話そう」とか「しゃべり過ぎかな」といった感覚が働くようになるかもしれません。
──DASのビジュアルを、リアルタイムで表示することは可能なのでしょうか?
水本 それはおもしろいですね。今のところは一度録音してから解析しているのですが、ネットワークの通信さえどうにかできれば、技術的にはできます。
──あと、現在は2次元で表示されていますが、例えば誰かの発言で会話の方向性が変わったことを3次元で表示できたりすると、おもしろうそうですね!
水本 確かに、今のところ時間の情報だけを使っていますが、意味的なことで、話題の方向が変わったことを可視化できたりするかもしれません。
──ちなみに今更ですが、Hylableという会社名には、どういう意味があるのでしょうか?
水本 僕が研究していたニホンアマガエルの学名が、Hyla japonicaと言うんです。カエルのように聞き分けられる技術を作りたいということで付けた社名なんです。
──あっ、カエルは聞き分けているんですね。
水本 そうなんです。うるさいなかでも隣の音を聞いて、自己主張できるタイミングで鳴いているんです。結局メスに見つかりたいわけで、一緒に鳴くと、聞き分けてくれないからだろうと言われています。
──なるほど……。じゃあやっぱり合コンは正しい使い方じゃないですか!
水本 起源を考えると、確かにそうですね(笑)。
──最後に、例えばslackのようなチャットツールが、ビジネスの現場においてコミュニケーションの主流になってきていると思います。テキストベースのコミュニケーションと、音声のコミュニケーションを比較したとき、音声ならではの特徴というと、どういった点になるのでしょうか?
水本 テキストだと、1回考えますよね。なので、作れるというか取り繕えるというか。アンケートも結局そうですよね。でも、しゃべりはそのままですし、相手の雰囲気に影響を受けるので、よりリアルな情報だと思います。それが可視化され、解釈されることでわかってくることは、思いのほかたくさんあると考えています。
水本武志 | Takeshi Mizumoto
1985年大阪府生まれ。2006年、大阪府立工業高等専門学校 電子情報工学科卒業。13年、京都大学大学院 情報学研究科 知能情報学専攻 博士後期課程修了。博士(情報学)。その間、2011年4月より学振特別研究員DC2採用、フランスのLAAS-CNRS滞在(2011年)など。2013年より、株式会社ホンダ・リサーチ・インスティチュート・ジャパンにてリサーチャーに。16年、ハイラブル株式会社設立。代表取締役に。
SHARE