「ざらつき」の喪失 ―― AI音声の普及で見えてきた「本人らしさ」という計算不可能な正体

# AI # FRACTAL # アニメ/ゲーム # 梶裕貴

記事を読み終える目安:

09:00

記事を書いた人

龍田優貴

ライター・編集者

人気声優の梶裕貴氏が、自身の声を学習させたAI音声の活用やタレントマネジメントを担う新会社「FRACTAL（フラクタル）」を設立したというニュースは、テクノロジーと表現の境界線に関心を持つ多くの人々に鮮烈な印象を与えた。これは、これまで「生身の人間」にしか不可能だと思われていた表現の領域にAIが本格的に参入し、表現者のアイデンティティを拡張する頼もしいパートナーとして機能し始めたことを象徴している。

しかし、この画期的な一歩を目の当たりにして、私たちは一つの根源的な問いを突きつけられている。それは、「私たちが誰かの声に命を感じて心を動かされる瞬間、その正体はいったい何なのか」という問いだ。AIが滑らかさを手に入れれば手に入れるほど、皮肉にも人間の声に混じるノイズやかすれ、つまり肉体的な不完全さが持つ「実在感」が、かつてない価値を持ち始めている。

本稿では、デジタル技術が極まった現代だからこそ求められる音響デザインの意義を、ゲーム作品などの事例を通じて考察していきたい。

脳が求める「不自由な揺らぎ」の価値

現代の音声合成技術は、ディープラーニングなどの恩恵を受け、統計的な処理によって驚くほど流暢に言葉を紡ぎ出すことができるようになった。かつてのロボットのようなぶつ切りの不自然さは過去のものとなり、最新のAIは喜びや悲しみといった感情すらも、あたかも記号を配置するように自在に演出してみせる。そこで生成される音声はどこまでも清潔で、無駄がなく効率的だ。

対して生身の人間が発する声には、ほぼ必ず「身体的なハプニング」が混入する。言葉を発する直前の小さな吸気音、ふとした瞬間に漏れるため息、あるいは感情が昂ぶった際の微細な喉の震えや唾液の音。これらは、純粋な情報の伝達という観点からは除去されるべき無駄なノイズかもしれない。

しかし、聞き手の脳に対しては、それらこそが「生きている人間がいる」という強烈なシグナルとして機能する。音声学の世界では、周波数や振幅のわずかな揺らぎが生命感の源泉であるとされているが、AIが情報の正しさを追求して音声を平滑化すればするほど、生命活動の証しであるはずの「ざらついた手触り」は失われていくのである。

情報の記号化と、それを拒む「肉体の痕跡」

なぜ私たちは、こうした不完全なノイズにこれほどまでに心を揺さぶられ、実在を感じるのだろうか。フランスの思想家ロラン・バルトは、こうした音声の中に二つの層があると考えた。

一つは言葉の意味や文化的なコードを伝える層であり、もう一つは喉や肺、歯や舌といった肉体の動きが直接的に響いてくる層である。バルトは後者を「声のきめ」と呼び、これこそが単なる情報のやり取りを超えて、話し手の身体が聞き手に直接触れてくるような官能的な感覚を生むのだと説いた。

AI音声がどんなに洗練され、美しいメロディを奏でたとしても、そこには肺という臓器から溢れ出す生々しい吐息の響きは存在しない。精神分析の視点から見れば、私たちが他者に魅力を感じ、その存在を確信するのは、完璧なシステムからこぼれ落ちる「余計なもの」や「計算できない欠けた部分」があるからではないだろうか。完璧に制御された無菌状態の音声は、私たちの深い欲望を刺激することなく、ただ記号として脳を通り過ぎてしまう。

クリアな音よりも「耳元の吐息」を ―― 効率化に逆行して得た圧倒的な実在感

この肉体的なノイズを戦略的に音響設計に取り入れ、デジタル空間に圧倒的な実在感をもたらしたのが、イギリスのゲーム開発スタジオが手掛けた『Hellblade: Senua’s Sacrifice』である。本作は主人公が抱える幻聴を表現するために、立体的な音響効果を生むバイノーラル録音を用いているが、その制作プロセスはあえて現代的な効率化に逆行するものだった。

通常の収録では、雑音を極限まで排除した静かなスタジオで、クリアな音を録ることが最優先される。しかし本作の開発チームは、役者が耳型マイクの周囲を実際に動き回り、時に耳元で囁き、時に荒い息を吹きかけるという、生々しいディレクションを徹底した。

録音された音声には、役者の衣擦れの音や足音、不規則な呼吸音までもが濃密に刻み込まれた。これらの汚れとも言える成分が、プレイヤーの脳に「自分のすぐ近くに誰かがいる」という逃げ場のない確信を植え付け、恐怖や不安を単なるゲーム上の演出ではなく、自分自身の身体反応へと変質させたのである。これは単なる情報の提示ではなく、肉体の痕跡をデジタル空間に保存し、プレイヤーの生理現象と同期させるという、高度なディレクションの勝利であったと言える。

こうした”不完全さの美学”は、現在のエンターテインメント市場のあちこちで見受けられる現象だ。例えば『VRChat』（ソーシャルVRチャットプラットフォーム）やVTuberの配信において、視聴者が演者に対して強烈な親近感や「そこにいる感」を抱くのは、完璧に整えられた台詞よりも、ふとした瞬間の言い間違いや、マイクが拾ってしまった生活音、あるいは回線の乱れによる声の掠れといったハプニングの瞬間である。これらは「画面の向こう側に、自分と同じように生きている人間がいる」という動かぬ証拠となり、情報のやり取りを超えた親密さを醸成する。

また、リアリティを追求するドキュメンタリー風の映像作品や、あえてLO-FI（低音質）な質感を取り入れる音楽ジャンルにおいても、意図的な音の劣化や環境音の混入が、その場の空気感を伝える重要な装置として機能している。すべてが完璧に用意された高解像度すぎる音声は、受け手を受動的な消費者に留めてしまう。一方で、どこか欠落や余白のある音声は、聞き手の脳に「補完」という能動的な作業を促し、より深い没入を引き出す。

「身体的制約」をいかにデジタルに組み込むか

音声AIの技術は今後、さらなる精度で本人らしさを再現し、私たちの生活に溶け込んでいくだろう。しかし、その技術が普及し、誰もが手軽に完璧な音声を手に入れられるようになればなるほど、表現者やディレクターに求められるのは「技術的な正解」を出すことではなく、あえてAIに隙や揺らぎを作らせるディレクション技術ではないだろうか。

エンターテインメントの本質は、生命の余剰としての情報の過剰、すなわち密度にある。今後の音響制作においては、心拍や疲労といった身体的な制約から生じる不規則な揺らぎをいかにデジタルに組み込むか、あるいは完璧な音声からあえて質感を削ぎ落としてリアリティを生み出すかという、引き算の視点がますます重要になるはずだ。

計算不可能なエラーを排除せず、むしろ不自由さを表現の豊かな一部として受け入れること。デジタルの波がすべてを滑らかに塗りつぶそうとする時代において、声の「ざらつき」の中に宿る人間らしさを守り抜くこと。それこそが、仮想空間における私たちの実在を証明し、ユーザーの心に消えない爪痕を残す、最後の鍵となるに違いない。