
言語は難しい。言葉遣いだけでなく、慣用表現、語調、地域特有の傾向、そして常に変化する侮辱的な表現までも聞き分けるには、訓練された耳が必要だ。そうして初めて、真に流暢な人間になれるのだ。最高のアプリやGoogle翻訳でさえ、言語を完璧に理解できない理由の一つはここにある。同様に、一つの語源から生まれたこれらの単語が、どのようにして同じ意味を持つ無限の形態へと進化していくのかを理解するには、訓練された言語学者が必要だ。賢いコンピューターは、この問題を賢い言語学者と同じように解読できるのだろうか?この場合、答えはおそらくイエスだろう。
新たな機械学習アルゴリズムは、音声規則を用いて、変化する言語における最も可能性の高い音声変化を推測することができる。すべての単語は時間と場所によって変化するが、特定の母音と発音は他のものよりも大きく変化する。例えば、あなたは「tomato」と言うが、私は「tomahtoe」と言う。カナダ人は「aboot」と言うなどだ。バンクーバーにあるブリティッシュコロンビア大学のアレクサンドル・ブシャール=コテ氏とその同僚たちは、単語が過去にどのように発音されていたか、そしてどの音が最も変化する可能性が高いかを提案するシステムを開発した。そして、その結果を人間の専門家による分析と比較したところ、コンピューターの提案の85%が正しい単語から1文字以内の範囲に収まっていることがわかった。
研究チームは、フィリピンからハワイに至る太平洋に広がる637のオーストロネシア語族の言語を調査しました。例えば、「星」を意味する単語から始めます。フィジー語ではkalokalo 、台湾先住民族の言語であるパゼー語ではmintolです。ボルネオ語族のメラナウ語を話す人はbiten 、フィリピン方言のイナバクノン語を話す人はbitu'onと呼びます。これらすべての言語の語源となった語根はbituquenです。コンピューターはそれを正しく推論しました。
問題は、コンピューターが分析を行う前に、膨大な前処理作業が必要になることです。言語学者は、特定の言語の単語リストとその意味を入力し、言語の「生命の樹」とも言える系統樹、つまり各単語が互いにどのように関連しているかを示す系統樹を作成する必要があります。(これは、植物学者や生物学者が生命の関連を示すために用いる系統樹と、形態と機能の両方において類似しています。)しかし、実際に動作してみると、このアルゴリズムは効率的です。言語内の同根語(同じ語根を持つ単語)を認識し、推定される語根を導き出すことができます。
研究者たちは、まだより高度な研究が必要なことを認識しているものの、遺伝情報が生物学を変えてきたように、この研究が歴史言語学者にとって大きな恩恵となることを期待している。形態変化(ある物を見て、それがどのように変化し、他の物と比較するかを見ること)は、遺伝子を見るよりもはるかに単純である。このアルゴリズムも同様の方法で動作し、特別に訓練された耳を使うのではなく、単語や言語の語源を計算的に研究することができる。この論文は今週、米国科学アカデミー紀要(Proceedings of the National Academy of Sciences)に掲載される。