「音」と「人間」の関わり方に注目して新しい研究テーマを発掘したい！

2016年6月10日掲出

メディア学部大淵康成教授

　本学に赴任するまで、企業の研究所などで「音声認識」の研究を続けてきた大淵先生。現在、研究室で取り組んでいる「音」にまつわるさまざまな研究テーマや、「音」をひもとく面白さなどについてうかがいました。

■ 先生の研究内容について教えてください。

　いろいろなテーマに取り組んでいますが、わかりやすい例として代表的なものをふたつ、紹介しましょう。
　まずは昔から私がやっている音声認識の研究で「雑音の中で人が喋っているときの音声認識」。たとえばスマホで音声認識機能を使うときなどは、周囲が雑音でざわざわしていることが多いですよね。そのような状況で、どこからどこまでが人間の喋った声で、どれが雑音なのかということを判断するための技術です。静かな場所であれば、音量が大きくなったところから小さくなったところが話し声、というように簡単に音声認識ができます。このような話し声を検出する「Voice Activity Detection」という技術に、最近はやりの「ディープラーニング」を適応しています。
　「ディープラーニング」というのは、もとは人間の脳のなかにあるニューロン（神経細胞）の反応を模したコンピュータのネットワーク「ニューラルネット」という分野で発展した技術です。入力に対してひとつめの層が反応し、その結果を受けて次の層が反応し、さらに三層目がそれを受けて反応する。このようにどんどん深い層に反応が伝わっていくことで、複雑な処理ができるようにネットワークが学習していく仕組みです。昔は３層くらいまでしかできなかったものが、最近、新しい学習アルゴリズムができたおかげで、より深いネットワークで複雑な処理ができるようになりました。その状態で、たくさんのデータを用意して学習させると、雑音のなかでも人の声の識別ができるようになるのです。
　もうひとつは去年担当していた大学院生が手がけた「音のアーカイブ作り」。彼は自分の地元のお祭りにとても興味があって、なかでもお祭り独特の「音」を保存したい、ということから研究をスタートさせました。現場の臨場感を保った音のアーカイブを作るためにはどうすればいいかということを考え、実際にお祭の現場で録音してきた音のデータをすこし加工したうえで、バーチャルリアリティ映像に埋め込むことで、リアルな音を再現したのです。
　もちろん、お神輿の後について歩きながら普通にマイクで録音すれば、現場の音はそのまま録音できます。けれど実際には混雑したお祭りのなかでそれをやるのは難しく、さらにそれではルートが一本に限られてしまうので、再現できる音もその場のものでしかありません。しかし実際に彼が作ったソフトでは、キーボードをつかってVRのなかを移動することができて、そこではどんな風に音が聞こえるのかということも試せるようになっています。

: 「Voice Activity Detection」の仕組み

: お祭りのアーカイブの例

■ 先生がこのテーマに興味を持ったきっかけは何ですか？

　昔から音に興味があった、というわけではなくて、実はわりと遠回りをしてきました。もともとは物理をやりたくて、大学では理学部の物理学科に進学。そもそも当時はコンピュータっていうものがまだそれほど一般的ではなくて、自分がそういうことを好きだということさえわからなかったんです。ようやく実験データを整理したりするのにコンピュータを使うようになってきたのは、大学院生くらいになってからですね。面白いなと思ってはいたものの、それで食べていくつもりはまったく無かったのですが、当時物理に少し行き詰まっていたこともあり、途中で方向転換して博士課程を中退。日立の研究所に勤めはじめて、最初に研究したのが「ニューラルネットワーク」でした。それはとても面白かったんですが、当時は全然お金にならず、大学時代とはまた違った意味で行き詰まり（笑）。そのタイミングで、たまたま音声の研究室のリーダーだった方に声をかけていただいて、そちらのグループに移ったんです。それが30歳のときで、音の研究をはじめたのはそこから。音に関しては一から勉強しなおしました。

　ニューラルネットの研究をはじめたとき、それまで学んできた物理を役立てようとはほとんど思っていなかったにも関わらず、実は物理の統計力学ととても関係が深くて「物理も役に立つじゃないか」と思いました。面白いことに、その後、分野を変えて音声認識を研究していたら、ここへきて昔やっていたニューラルネットワークが再び注目されはじめ、音声認識の研究にも使えるようになってきた。自分としてはリセット、リセットでここまできたつもりだったんですが、結果的にはやってきたことがつながっていたし、役にも立っている。これは、なんだか不思議な気がしますね。

■ この先、やってみたい研究や展望などはありますか？

　いまはビッグデータの時代といわれています。たくさんのデータを集めてそれを分析することで、さまざまなことが明らかになっていく。私も音に関して自分なりの切り口でデータを集めて、それを使った研究をしていきたいと思っています。たとえば街の中にマイクを設置して、日々の音を集めることで交通事故の起こりやすい交差点が自然にわかるようになったり、痴漢が出やすい場所が明らかになって危険が回避できるとか。音のデータを蓄積していくことで、街そのものが賢くなっていく。そんなことができたら面白いと思いますね。

　そこで鍵になるのが、いかに効率的にデータを集めるかということです。ただ「音」というのは「盗聴」と言われてしまう恐れがあって、実はデータを集めるのが難しいんです。
　前の職場で画像の研究をしている人と協力して、カメラとマイクを職場に仕掛けてずっと撮影するという実験をしたことがありました。これを実際にやってみると、マイクで得られる情報の方が圧倒的にまずいんです。外から見ていて、職場の映像くらいだったらどうってことはないんですが、音に関しては相手がちょっと油断していたりするとものすごく大事な情報が聞こえてきたりする。ここは本当に難しい問題だなと思いましたね。
　ただ、そこをうまく乗り越えて、いろいろな場所で自然な形で音のデータを集めることができれば面白い研究ができるでしょうし、その結果を日常生活にフィードバックもしていけると思います。

■ 最後に、受験生へのメッセージをお願いします。

　私は長年会社勤めをしてきて、いろいろな部署への異動も経験しましたが、音の研究をしている人って、意外とつぶしがきくんです。もちろん「音」そのものにも詳しくはなるんですが、もう少し一般的な情報処理とか、そういったコンピュータサイエンスの本質的な技術が身につくので、それはIT分野の違う業界にいっても役に立ちます。また、音って目に見えないものなので、研究するときにはすごく抽象的に考えなければいけない。スペクトルとか周波数とか、そういう概念を自由に使いこなせるようになるためには、ある種の抽象化ができるようにならなければいけなくて、その結果、科学的なセンスや思考力が身につくんじゃないかな、とも思っています。

　私自身はまったく芸術的なバックグラウンドがない人間なので、「音」といってもそういう方向に興味がある人は別の研究室に行っていただければと思うのですが、なかには芸大に行くような才能はないけれど、音や音楽には興味がある、という人はいると思うんです。そういう学生さんには、芸術的才能で食べていくかわりに、技術を身につけてそれを活かせる仕事に就くという道もあるよ、ということを伝えたいです。技術の力でできることはたくさんあります。そして技術は学べば必ず身につく。「音」に興味があるのなら、「音」にまつわる技術を学んで、それを活かす道を考えるという方向もありますよ。

■メディア学部WEB：
https://www.teu.ac.jp/gakubu/media/index.html

・次回は7月8日に配信予定です。

「音」と「人間」の関わり方に注目して 新しい研究テーマを発掘したい！

メディア学部 大淵 康成 教授

「音」と「人間」の関わり方に注目して新しい研究テーマを発掘したい！

メディア学部大淵康成教授