イノベーションの風に吹かれて

山下技術開発事務所 (YAMASHITA Technology & Engineering Office, LLC)

オノマトペの歌「ぷかぷか」

今井 むつみ, 秋田 喜美 著「言語の本質-ことばはどう生まれ、進化したか」 (中公新書 2756) 新書 – 2023/5/24

「オレのあの娘はタバコが好きでいつもぷかぷか、ぷかぁ〜」私の十八番は西岡恭蔵の名曲「ぷかぷか」オノマトペの歌だ。

犬は本当は何と鳴くのだろうか。ワンワンもバウワウも本当の犬の鳴き声とは似ても似つかないアイコン化されたオノマトペだ。しかし、ワンワンと言われると犬が鳴いているあるいは犬そのものを思い浮かべることができる、確実な意味ベクトルが獲得できている。本当の鳴き声とは異なるアイコニックな表現はオノマトペの超越性、つまりイマココにはないものの意味を直接ではなく抽象化して表現することで表している。

言葉の持つ抽象化された意味とはなんだろう。英語のAbstractと日本との抽象化には決定的な違いがあると思う。どちらも意味を現実から引き離し還元主義的にパラメタライズした構成要素ではあるのだけれど、日本語の抽象化は具象を捨象してしまって表層を捉えたものであるのに対してAbstractionは現実をDrawoffしたうえでその全ての要素を表現できる還元主義的なパラメーター化を目指している。抽象化されたアイコンである言葉が記号接地(シンボルグラウンディング)するためには捨象された現実の感覚を拾い集め、ありうる組み合わせの中から選択していくプロセスが必要になっている。これはアテンションメカニズムにおけるトランスフォーマー類似性を拾い集める作業に非常に近い。

人が言葉を紡ぐ様子を本書では「言葉を使う時、脳はピンポイントで想起したい単語を一つだけ想起するわけではない。同じ概念領域に属する似た単語や似た音を持つ言葉が一斉に活性化され、活性化された単語たちの間で競争が起こり、生き残った言葉が最終的に意識に上がって想起される」と解説している。似通った意味ベクトルの中から確率的に一つの単語を選択しているというRNN以降のEncoder Decoderモデルの動作が人間の言葉の選択と非常に近いところが面白い。類似性や一緒に使われがちであるなどが確率の手がかりとなっているのだが、LLMのアテンションメカニズムは同様の処理をベクトルの内積による類似度の計算から求めているという点も興味深い共通点だ。本書において人類の言語習得において重要な位置付けをなしているのがAbduction推論で、規則性から事象を推論する(ある意味で非論理的で誤りを犯しやすい)能力である。トランスフォーマーのベクトル演算には類似計算以外の論理性はないように思えるが、そもそも誤りやすい能力(から発する文章)を学習しているのだからある程度の誤りは仕方ないのかもしれない。

手語などの発展経路において語の意味を要素に分割して構成化することで多様な表現を簡易に可能にする例が示されている。自然言語処理におけるトークナイゼーションが入力を要素ごとに分割しているのはこうした言語の構成を意味として獲得する第一歩だったのか。一方で人類は意味のわからない記号列を学習して言語は得られないことが示されているが自然言語処理における単語あるいはトークンはワンホットベクトルという意味を一切持たない純粋記号にすることで機械処理ができるようになっているのは対照的だ。本書においても音と意味の繋がりがない方が情報処理がしやすい、という指摘もある。

意味のマルチモダリティにおいて、音や口の形、ジェスチャーというような身体性のあるモードや環境音や言語音というようなより感覚的なモードの重層的な意味の重なりがある。大規模言語モデルによる意味の獲得において複数の言葉が類似性や近接性をきっかけにして学習を進めていることが理解できる。人類が大規模言語モデルと異なる点は人類は単一の環境における言語によって高度な能力を獲得できるが、LLMは複数の言語(多くの場合基準とした大量の英語とその他の比較的少量の言語)によってマルチモダリティを形成している点だと思う。その違いがLLMと人類の仮説形成における違いを表しているのではないだろうか。意味のマルチモダリティと対象的に単語が多義であることから、誤用が見られる。本書では紙を切る、電源を切る、議論を切るなどの多義語について「ある単語の意味を覚えると、その意味と違う意味でその単語が用いられる分を読んだ時、文の意味に合わせて単語の意味を考えるより知っている意味に合わせて誤って(自分勝手に)文の意味を考えてしまうのだ。」と述べている(オノマトペはその誤用を修正し、文の意味に合わせて語の意味を変化させることを習得する高い能力がある)。

言葉の全てが身体に繋がっているか、という課題について第三章では貴重な議論が交わされている。本書においてモダリティの一部としての身体性は経験的なものとして語られているが、以前「知性のアーキテクチャ」で扱ったアンディ・クラークの「Being There」などでは身体性は境界性=自分と自分の外の認識であると考えられてきた。人は数を数えるというような高度で複雑な作業に自分の指を折りながら、それを見ることで数を数えるという知恵を持っている。自分の動作の結果を一旦自分の外から視覚によって知覚しなおすことで複雑な作業を行って数の概念と視覚による知覚というマルチモダリティを獲得している。知性の身体性と言葉の関係は深く、ロボットアームとカメラによってそんな身体性を再現できるのか、今後の研究の進展が非常に興味深い。