What is transcription?

人は誰しも、テープ起こしをしている:美学者・伊藤亜紗に訊く

多くの人は、テープ起こしが自分の人生に関係があるとは思わないかもしれない。しかし、それぞれ異なる生を送っている私たちにとって、ある身体から発せられ、それを異なる身体がどう受け止めるのかという“記憶と記録”をめぐる問題は、実は身近な重要テーマだといえるのではないだろうか。音声認識AIが発展しつつある現在ならば、なおさらだ。

インタビュー連載「編集できない世界をめぐる対話」第7回は、近年話題の美学者・伊藤亜紗をゲストに迎えた。目の見えない人や吃音のある人などさまざまな障害をはじめとして、各々の体を生きる人々にインタビューしてきた伊藤は、本記事のインタビュアーと以前にはじめて会った際、「テープ起こしが好きだ」と話していた。あの大変なテープ起こしが好き? いったいどういうことなのだろう。テープ起こしについてのみ伊藤と話す、稀有な機会を設けた。

TEXT BY Fumihisa Miyata
PHOTO BY Kaori Nishida
TAPE REWRITE BY Yuko Sakuraba and Kumiko Sakuraba

──(ICレコーダーを机の上に置きながら)伊藤さんはご自身でインタビューする際、こうしてレコーダーを置く瞬間、相手にそこはかとなく圧を与えていると感じますか。

伊藤 圧を与えているという自覚はすごくありますし、こうした場面で、どういうふうに機材を置くのがいいんだろうかという問題はありますよね。レコーダーではなく、見慣れているスマートフォンのほうがまだいいのかな、とか……。

──録音をはじめた瞬間に、「録音が回っているという前提での語りしか出てこないのではないか」という不安もよぎります。

伊藤 私の場合は最近、iPadにApple Pencilでメモを取りながら録音しています。そうすると、録音機の存在が一番消える。ただそれってどうしても、こっそり録っている感じが消えないんですよね。もちろん、目の見えない方々にお話を聞く場合も含めて、どなたが相手であろうと、機材を出して回しはじめる前にきちんと許可はとります。

──許可は大事ですね。いずれにせよ、テープ起こしの前段階から悩ましいですよね……。

伊藤 録音をとめて「ありがとうございました」とお伝えした後に、大事な話をしはじめる方もけっこういますし……どうすればいいんでしょう。たとえばICレコーダーの隣に、(机上にあった)羊羹でも置くといいんじゃないでしょうか(笑)

伊藤亜紗|Asa Ito 1979年生まれ。美学者。東京工業大学科学技術創成研究院未来の人類研究センター長。同リベラルアーツ研究教育院教授。専門は美学、現代アート。主に障害を通して、人間の身体のあり方を研究している。主な著作に『目の見えない人は世界をどう見ているのか』『どもる体』『手の倫理』『体はゆく』などがある。2020年、池田晶子記念「わたくし、つまりNobody賞」および、『記憶する体』を中心とする業績でサントリー学芸賞を受賞。

──なるほど(笑)。半ば冗談ではありつつ、たしかに緊張感が和らぎますね、考えさせられます。テープ起こしはこうした録音行為の上で成り立ちますが、伊藤さんは改めて、テープ起こしのどこに魅力を覚えているのでしょうか。

伊藤 まず前提として、人は常にテープ起こしをしていますよね。

──……どういうことでしょうか?

伊藤 たとえば誰かと会った日、寝る前などに「こんな話をしたな」「あのときあんなことをいっちゃったけど、いわなければよかった」「もっとこういっておけば、伝わりやすかったかな」とか、人とのコミュニケーションが再生されますよね。それはある意味でテープ起こしの初期段階ともいうことができて、とても大事な時間なんですけれども、実際にその録音、いわば生身の音声をテープ起こしすると、その再生をやめることができるんですよね。

──実際にテープ起こしをすると、自分のなかでの音声の再生が止まる?

伊藤 はい。人の記憶って、録音という記録に比べれば、自分の視点で既に解釈されているものですよね。その視点も必要なのですが、しかしどうしてもエゴイスティックであったり、自己を守ったり過剰に責めたりするような方向で記憶はつくられがちだし、自分が発言したこともそのように思い出されていくことが多いわけです。

でも記録を聞くと、自分ひとりで再生しているときのようなことは起こっていないことがままあって、実際に交わされていたやりとりのほうがめちゃくちゃ豊かなんです。その豊かさというのは単に言葉のレベルにはなくて、それこそ上手く言語化して説明するのが難しいんですが、自分とその人が話してわかりあえた、本当に大事な部分が含まれているということなんです。特に私は普段、体のことについてインタビューしているので、インタビューを経てテープ起こしをしていると、その人の体を愛でているような感覚になります。

──インタビューとテープ起こしを経ると、表面上の言葉のレベルを超えて、相手の体を愛でるようになると。

伊藤 愛でるという言葉が強いようであれば、その人のことをすごく好きになるといってもいいかもしれません。好きになるという感覚は、相手の体について「わかる」ことと密接につながっていて、話を聞いていても、改めてテープ起こしをしていても、「ああ、そういうことか」というように「わかる」瞬間がある。そもそも、そういう瞬間が訪れるまでインタビューというのはやめられないものです(笑)。「わかる」瞬間は、私にとってはとても幸福感に満ちていて、テープ起こしで音声記録を聞きかえすと、ちゃんとその瞬間に戻ることができるという気がします。

──「わかる」瞬間に立ち戻ることができるのが、テープ起こしなんですね。

伊藤 加えて、「わかる」ということと一見矛盾するようですが、テープ起こしの前提として、インタビューにおいては喋っている本人にとっても「自分がそんなことを知らないということすら知らなかった」ということを引き出したいんです。前もって話すことをいろいろ用意してくださる方もいるんですが、聞く方としては正直、その事前準備した内容を如何に早く終わらせて、次にいくかを考えている(笑)

──準備していたものは早めに吐き出してもらう感覚は、インタビュアーとしてよくわかります(笑)。その先の、インタビュイー自身も知らない領域の話にたどり着きたいわけですよね。

伊藤 もちろん情報としては大事ですからきちんと聞くのですが、その上で、これは絶対ご本人も考えたことがないな、という問いに如何に至るのかが大事ですね。聞き手にとっての「わかる」という瞬間は、語り手本人にとっても「知らないことすら知らなかったこと」について語るなかで訪れるわけです。

たとえば最近、摂食障害の方によくインタビューしているんですが、私は当事者ではないので実際にどういう感じなのか経験的には知らないんです。そのなかで先日、拒食と過食を繰り返した方にお話をうかがったんですね。過食のときはこういう状態で、拒食のときはこうで、と話してくださっても情報としては受け取れるのですが、体感としてはなかなかピンとこない。でもふとした瞬間に、ふたりの間で「スイッチ」という言葉がふと浮かんできた。その方はある程度回復されている方なのですが、拒食・過食とは別に体調を崩したときにもらった薬に、副作用として太りやすいと書いてあって、その薬は飲めないと思ったそうなんです。治ってはいるんだけれど、日常のあちこちに「スイッチ」があって、それをうっかり踏んでしまうとまた摂食障害が始まってしまう日々を生きている、と。

──「スイッチ」は、伊藤さんがご著作などでよく言及される「メタファー」のひとつですね。

伊藤 そうですね。「スイッチ」というメタファー自体は吃音の方もよくおっしゃられるものでして、特段珍しい表現というわけではないのですが、ただその方はさらに、「スイッチ」には「歴史」があるとおっしゃったんですね。

──歴史、ですか?

伊藤 かつてご自身が拒食と過食の波を生きてきたわけで、現在において「スイッチ」が入った瞬間に、その「歴史」がバーッと立ち上がる、と。その話が出た瞬間が私にとってはすごく面白くて、その方のことがよくわかった、という感覚があったんですね。

こうした体の研究が「自分がそんなことを知らないということすら知らなかった」ことに近づいていくのは、まさにそこには「歴史」しかないからといいますか、本人にとっても合理的な選択ではなく「そうなってきました」としかいえない経験だからなんですね。理由がないものほど強く、その人をかたちづくる。その理由のなさを知りたいというふうに常に思っていて、だからこそ「わかる」と感じた瞬間は、すごく愛おしさが募るといいますか……尊さを感じるんですね。

──そうした感覚は、テープ起こしの際にはどうなるのでしょうか。

伊藤 たとえばその方との会話、そして録音された音声においては、私が現場で「スイッチ」という言葉に強く反応したので、いわばスイッチ話が10分ぐらい続いているんですね(笑)。それまで話していたことが「スイッチ」というメタファーによって整理されながら、ああ、そういうことだよね、と会話が展開していく。ただ、「スイッチ」という言葉は、いわばうっかりこぼれたものなんですよ。まさに「知らないことを知らなかった」領域の話なんです。その言葉にふたりともハッとしながら、スポットライトを当てる時間が流れていく。

──ふたりでメタファーにフォーカスしていく、と。

伊藤 「うっかり」という軽率さって、人と人が会っているからこそ生まれるものというか、インタビューという相互行為において、とてもいいものですよね。その人の考えを述べているのではなく、聞いているから答えるという関係性のなかで、出会っていることのひとつの産物、証拠としてポロッと口にしてしまう。

それが単なるノイズに終わるのではなく、「知らないことすら知らない」領域の事柄がズルズルッと引きずり出されていく……そんな本質に気づくきっかけに、メタファーはなることが多いのだと思います。そしてまたこれも面白いのですが、テープ起こしをしていると「そんなにズルズル引き出されていないな」と気づくこともあって、寝る前に思い出していた記憶のほうがよほど綺麗に流れている会話だなんてこともある(笑)。私と相手とで印象が異なることもあるでしょうし。

──相手の言葉尻にこちらが「おっ」と思って乗っかったときの、相手の戸惑いもありますよね。「そんなつもりで口にしたんじゃなかった」というような。

伊藤 そうですね。ですからテープ起こしには、「うっかり」が永遠化してしまうといいますか、ある種暴力的な変換という側面もあるにはあります。その上で、「乗っかる」感覚って、やはり面白いんですよ。暗中模索というか、溺れている二人が流れてきた木の板に思わず乗っかっちゃう感じというか。助かるかどうかはわからないけれどしがみついてみたら、案外助かった、という感覚があるわけです。

聞き取りをするということは、そういう危ない橋を渡っているということでもあると思います。永遠化することの暴力性や危険性を理解しつつ、相手を共犯者にしたいというところがある。せっかくふたりで見つけた「うっかり」の可能性を一緒に掘りたい、ともに見つけた仮説に賭けてみたい──テープ起こしというのは、そんな共同的な「うっかり」を永遠化する作業であり、そのことを自覚するプロセスでもあると感じます。

──伊藤さんは昨年末から連載「会議の研究」(雑誌『ちゃぶ台』掲載)をはじめていますね。会議は2019年から研究の対象とされているとのこと。実はテープ起こしに関連して気になる点もあるのですが、そもそもの話として、会議を研究するのって楽しいんでしょうか?

伊藤 観察するなら、とても楽しいですね。参加するとあまり面白くないけど(笑)。加えてインタビューと違うのは、会議では自分が完全に外部にいるということです。その都度異なる会議を見学しているので、最初はそこで交わされている言葉もよくわからないんですよ。

──人間関係の上で省略される言葉も多いでしょうね。

伊藤 そうなんですよ。会議の場合は、インタビューのようにその人の何かを知りたいというよりは、もうちょっと抽象的な力というか、場のダイナミクスを見ている気がします。

──「会議の研究」で伊藤さんが書かれる人々の会話は、テープ起こしの世界でいうところの「ケバ取り」をあまりしていないように見えるのが印象的です。「ケバ取り」とは、「素起こし」といわれるテープ起こし原稿から「あのー」といった意味をなさない言葉を削る作業ですが、「会議の研究」では積極的に残しているように見えます。

伊藤 たしかに、いわれてみればそうですね。実際の会議の場にいると、ちょっとした言い回しなどがすごく重要なんだとわかるので、それを残そうとしているのかもしれません。現場を見ている立場からすると、全然残すことができていないな、と感じるくらいです。

──なるほど。ある編集部の会議を見学した際は、編集長が「ねー」と語尾を伸ばすとアイディア募集=「玉入れ」の合図だった、と書かれていますね。

伊藤 はい。考えてみると、ケバというのは繊細な問題でして。たとえば私自身も当事者として吃音の研究をしているわけですが、吃音の人の喋りって、いわばケバだらけなんですよね。いろんな種類がある吃音のひとつとして、「インタビュー」と一語話そうとして、その前の音がイイイイイイイ……となってしまうような「連発」があります。この音が何秒、何十秒と続けば、文字起こし不可能な音になる。吃音の人にインタビューするとき、これをどう文字起こしするのかという問いにぶつかったんです。私は、すべてケバを取るという道を選びました。

──そうなんですね。

伊藤 そもそも、吃音の人の心の動きは、その音に必ずしも乗っていないと思うんです。たとえばある研究方法においては、ひとつひとつの音の間の秒数を計測し、すべて書き出しながら分析をするんですが、吃音の当事者としては「そこに私の真意は乗っていない」と感じます。先日『体はゆく』という本を出しまして、私たちの意識的な理解よりも体はもっと奔放だということを書いたのですが、まさに吃音においても「体はゆく」なんです。勝手にそういうふうになっちゃうということなので、それを計測・分析して虚構の私の思いのようなものを立ち上げられても困る、というところがある。ですから私は体を研究するにあたって、積極的な意味合いにおいて諦めているんです。言葉と体、言葉と現実に起こったことが対応しているということは、望むべくもないと考えている。ただ、その場での言い回しが場のダイナミクスに作用するということはありますから、仮に吃音の人が会議に参加して、その人がどもったことばが場を動かしたとしたら、私はたぶんそのまま文字に起こすと思います。

──なるほど。伊藤さんのテープ起こし観が徐々につかめてきた気がします。

伊藤 テープ起こしをするときは「早く終わらせよう」とは思っていなくて、楽しもうとしているんです。頻繁に行きつ戻りつして起こしていますし、ある意味でかなりいやらしい感じでやっていますね。私にとってはいわばスルメなんですよ、どれだけしゃぶりつくすかという(笑)

──基本的な姿勢は、私たちが仕事としてテープ起こしするのとやはり違うんですかね。行きつ戻りつというのは、手元で起こしている数秒間だけではなくて、ひとつのテープ起こし原稿・音声を全体的に見直しているということですか。

伊藤 両方ですかね、音声全体にかんして戻ることはそんなに多くはないですが……。ただ、会議の起こしにかんしては、かなり前に戻って修正することもあるかもしれません。

──音声を先まで起こしていって、「あ、さっきのあそこの起こし方、ニュアンスを間違えたな」と戻る、というような感じでしょうか。

伊藤 そういう感じですね。たとえば会議では、構図が変わることがあります。Aという陣営ふたり、Bという陣営ふたりで対立して話していたと思ったら、だんだんA1とA2同士の対立になるとか(笑)。そうすると、AとBの関係ばかり気にして起こしていたのを、どうやら修正したほうがよさそうだと気づく。さっきA1が発言したとき、そういえばA2って実は黙っていたな、というようなことですね。

──そこで音声を戻して、A2が黙っているところをきちんと記しておくわけですね。テープ起こしが音声や場全体の構図まで把握する営みであることがよくわかります。細部にかんしていえば、たとえば「うーん、」と「うーん……」、どちらで起こすか迷うようなこともありますよね。

伊藤 私の場合、悩むのは「そうですね」ですね。「そうですね」って文字にすると単なる同意に見えますが、会話だとわりと否定のニュアンスを帯びていることも多いですから。あるいは、ちょっと考える時間がほしいとか。「そうですね」ではなく「わかります」だったら、ほぼ同意のニュアンスだと思うんですが。

──たしかに。インタビュアーがいったことに対して相手が「そうですね……」と、ときに腕を組みながら考え込むような場合もありますよね。

伊藤 そうした、頷かないで腕を組むというようなニュアンスが、文字にすると消えちゃうんです。人によっては、相手の言葉を受けての話し出し方が9割方「そうですね」という癖をもつ人もいます。それを逐一起こしてしまうと、まるで相手が私のすべてを受け止める変な会話になるというか、私の信者のような人物ができあがってしまう(笑)。そんな「そうですね」をどれだけ残すか取るのか、ですかね。否定したいときに「そうですね」とおっしゃるような方の場合は、起こしの際は削るようにはしています。

──伊藤さんは以前SNSで、ご自身がインタビューを受けた際、音声認識AIに起こさせたままのような原稿が届くことが多くなってきたとおっしゃっていましたね。聞き手が「こう聞いた」という痕跡のある原稿のほうが嬉しいとも呟いていた、その所以がわかる気がします。視覚・聴覚・触角が拘束されるテープ起こしが苦手な身としては耳が痛いお話ですし、この音声も信頼するプロフェッショナルの方に起こしていただくんですが。

伊藤 たしかにテープ起こしって情報量としてはものすごくて、日常的に人と会話するよりはもちろん大変で疲れるので、アウトソーシングしたくなる気持ちもよくわかります。それでも、「おっ、ここにもこんな言い淀みが」という感じでキャッチするモードになることができれば、楽しめるんだと思います。もしかしたら、痕跡を探す探偵とかの感覚に近いのかもしれません。

──探偵的な楽しさがある、と。

伊藤 おそらく疲れるというのは、情報の通り道としての作業マシーンになってしまって、自分の思考を動かせないからなのではないでしょうか。逆に、「いや、ちょっと待て。さっきのあれは……」と考えて、めちゃくちゃ一時停止したり、ときに戻ったりしながら進めると、探偵というか、宝探しのようになってくるんですよ(笑)。ですから私はたぶん仕事としてのテープ起こしはできないです、すごく時間がかかっちゃうので。

──いまさらですが、仮に1時間の収録音声だと、伊藤さんはどれくらいの時間で起こすんでしょうか。

伊藤 どのぐらいなんでしょうか、2分の1倍速で再生していますし、その時点で倍の2時間かかるわけですよね。一時停止もたくさんしていますし、戻ることもあって……全体としては10時間くらいかかっているかもしれないです。

──……ごめんなさい、先ほど伊藤さんのテープ起こし観がすこし理解できたといいましたが、何も理解できていませんでした(笑)。業界としては収録時間×3、1時間の音声なら3時間で起こすのが標準だと思うので、やはりまったく感覚が違いますね。

伊藤 そうなんです、だからテープ起こしは私にとってスルメなんですよ(笑)。仕事として取り組むなら失格ですね。

──最後に、改めてAIについてうかがいたいです。音声認識AIが現在のような情報処理における効率の良さ、あるいは経済的なリーズナブルさなどの面だけにおいて活用されるのではなく、より深くテープ起こしに寄与することができるとしたら、どんなありようが考えられるでしょうか。

伊藤 なんでしょうね……たとえば私は、AIが話し相手になってくれればいいなとは思っているんです。私自身が普段から、何か思いついたら他人(ひと)に話して、他人の頭で考えたい人間なんですよね。

──なるほど、それこそ文字に起こして読者の方に伝わるか不安な表現ですが(笑)、「他人の頭で考えたい」と。

伊藤 はい。だからこそとりあえず、人に向かって話す。思いついた何かについて、まるでマイブームのように誰に会ってもその話をしているうちに、いつの間にかアイディアが育っていくことがあるわけです。リアリストでありたいと思っている人間なので、自分だけで頭でっかちに、いろいろと概念で考えないようにしたいんですね。他人の頭を借りたほうが、その人の経験に紐づいた何かが返ってくるので、自分のアイディアのポイントや可能性が、すごくリアルなフェイズで見つかるんです。

そういう意味で、人の力を借りて知的な活動をするということは自分にとってナチュラルな方法なのですが、実はAIであってもいいなとは感じるんです。たとえばAIが一緒にインタビューにいって話も聞いてくれて、そのインタビュイーと別れた後に「あの話、ここがよかったよね」「あそこが面白かったよね」なんて語り合えるようであればいいですね。

──ああ、それは編集界隈が普段やっていることですね。我々もこのインタビューが終わったら、帰りしなに「伊藤さんの話のあの部分、グッときましたねえ」なんて話すはずです(笑)。それは記事をつくるにあたってアタリをつけることにもなっていくわけですが。いわばテープ起こしの準備段階ですね。

伊藤 AIは音声を記録しているはずですから、仮にICレコーダーにAIが組み込まれるとしたら、いろんなことが可能なはずなんです。たとえばインタビュー後に私が「さっきの『スイッチ』の話、めっちゃ盛り上がったよね」と話すと、私が気づけないほどの高い精度の分析で「あの人が想定しているスイッチは、実はオンオフを押して切り替えるものではなく、実はダイアル式だったよ」と教えてくれるとか(笑)

──すごい、テープ起こしの中身に大きな影響を与えますね(笑)

伊藤 実は私はインタビューの現場に、彼ら自身の後学のために学生を連れていくことが多いんですよ。そして学生は、ときにインタビュイーの話を聞いているのかいないのかよくわからなくても、質問させるととんでもない角度の問いを投げることもある。そのような、ある意味で曖昧な存在として、音声認識AIが私と一緒にいてくれたらいいな、と感じるんです。

 

profile

宮田文久|Fumihisa Miyata
1985年、神奈川県生まれ。フリーランス編集者。博士(総合社会文化)。2016年に株式会社文藝春秋から独立。2022年3月刊、津野海太郎著『編集の提案』(黒鳥社)の編者を務める。各媒体でポン・ジュノ、タル・ベーラらにインタビューするほか、対談の構成や書籍の編集協力などを担う。