レディのように嘘をつく:チューリングテストの根底にある、性別に特有の奇妙なルーツ レディのように嘘をつく:チューリングテストの根底にある、性別に特有の奇妙なルーツ

レディのように嘘をつく:チューリングテストの根底にある、性別に特有の奇妙なルーツ

レディのように嘘をつく:チューリングテストの根底にある、性別に特有の奇妙なルーツ

1950年に数学のパイオニアであるアラン・チューリングが提唱した、機械知能の古くからある神聖なテスト、チューリングテストが合格したというニュースを耳にしたことがあるかもしれません。先週末に開催されたコンテストでは、13歳のウクライナの少年を装ったチャットボットが、審査員の3分の1を人間だと勘違いさせました。この結果を受け、コンテストを主催したレディング大学は「人工知能における歴史的なマイルストーン」の達成を発表しました。

これは完全な偽物で、学術的に言えばチューリングの墓に直接小便をかけるようなものだという話も聞いたことがあるかもしれない。チューリングは「機械は考えることができるか」という問いに、力強いイエスと答え、ある程度の人間のような認知能力を示すベンチマークを思い描いた。ところが、優勝したプログラム「ユージン・グーストマン」を作った研究者たちは、あからさまな策略に出た。これまでのあらゆるチャットボットと同様、ユージンは質問をはぐらかすだけで、質問を処理して真に適切な答えを返すことはしなかった。しかも、おそらく最も卑劣な策略を使ったのだ。この2段階の策略では、ユージンの片言の英語はネイティブスピーカーではないことで、全体的に間抜けなのは子供だから(13歳の皆さん、気を悪くしないでください)という言い訳ができた。研究者たちはチューリングテストに合格する代わりに、ゲームをしたのだ。彼らが最初というわけではない。クレバーボットは2011年に合格したと考える者もいた。しかし、現時点では、彼らが最も有名なのだ。

しかし、アラン・チューリングが最初に提案したテストがいかに奇想天外なものだったかは、おそらく皆さんご存知ないでしょう。不気味の谷現象と同様、チューリングテストは、歪曲され、科学的正典へと再解釈されたアイデアの種です。レディング大学は、この突飛な宣伝活動がAI研究における画期的なマイルストーンだと主張していますが、嘲笑されて当然です。しかし、彼らが冒涜しているテスト自体も、精査されるべきです。

「チューリングは、コンピュータが人間のふりをするテストを提案したことはありません」と、インディアナ大学で人間とコンピュータのインタラクションを研究するカール・マクドーマン准教授は述べています。「チューリングは、男性とコンピュータが女性のふりをして競い合う、模倣ゲームを提案しました。この競争では、コンピュータは女性ではなく13歳の少年のふりをしており、男性ではなく自分自身と競い合っていました。」

マクドーマンのこの分析は、些細な点にこだわっているわけではない。チューリングが1950年にマインド誌に掲載した画期的な論文「計算機械と知能」の2段落目に、まさにそのことが書かれている。彼はまず、男性と女性が、遠く離れた目に見えない質問者に、タイプライターで打った返答や仲介者を通して、自分たちが女性であると信じ込ませようとするシナリオを描写する。しかし、真の展開は、男性が機械に置き換えられた時に始まる。「このようなゲームをするとき、質問者は男性と女性の間でゲームをするときと同じくらい頻繁に誤った判断を下すだろうか?」とチューリングは問いかける。

『イミテーション・ゲーム』は、コンピューターに思考する人間を模倣するだけでなく、思考する人間の特定の性別を模倣するよう要求する。人間のような機械知能の創造に伴う巨大なハードルを回避し、数学者にとっての悪夢であるはずの、限界がなく定量化不可能なジェンダーアイデンティティの泥沼に真っ向から陥ってしまうのだ。

想像上の機械は、自分が出身だと偽っている国の具体的な社会規範やステレオタイプを理解する必要がある。また、偽の自分がいつ生まれたのかを判断しなければならないかもしれない。それは1950年、イギリスの女性に普通選挙権が認められてからわずか22年後のことだった。女性参政権運動の余波はまだ残っていた。では、機械はこの問題について、ある年齢の女性として、あるいは文化再編の戦いに勝利した後に生まれた学生として、どのように感じているふりをすべきだろうか?

コンピューターがこれを成し遂げられるかどうかは、非常に興味深く、汎用人工知能の謎が解けた後の遠い未来の、ある遠い時代の優れた研究課題のように思える。しかし、「イミテーション・ゲーム」はデジタル時代の幕開けに提起された演習であり、コンピューターという言葉が連想させるのは、連合軍の戦争遂行のために数字を精査する女性と、自分の髪の毛についておしゃべりできる機械の姿くらいだった。

髪の毛の例はチューリングの例であって、私のものではありません。これについては後で詳しく説明します。

ここまで読んで、なぜチューリングテストについて触れないのかと不思議に思われるかもしれません。チューリングテストは、チューリングが後に発表した「模倣ゲーム」を明確化し、改訂したバージョンに違いありません。そうであれば良いのですが。1954年に亡くなったチューリングは、画期的な思考実験から性別を排除していませんでした。チューリングテストは、学問的な集団的な親切心から生まれた行為であり、その名を冠した人物の死後に授けられました。そして、広く使われるようになると、将来の人工知能を評価する基準として、新たな意味と重要性を帯びるようになりました。コンピューターが人間の質問者を欺く瞬間こそ、機械の知覚が真に垣間見える最初の瞬間となるでしょう。SFの読解力によっては、それは祝うべきこと、あるいは戦争の理由となるでしょう。

その点で、チューリングテストは不気味の谷と共通点があります。不気味の谷仮説もまた非常に古い論文に基づいており、実験結果も提示されていません。また、数十年は到底実現不可能と思われる技術の特定の側面を推測しています。1970年のこの論文で、ロボット工学者の森政弘は、ロボットが人間に似てくるにつれてロボットに対する好意が着実に上昇し、その後突然急落するという曲線をグラフ上に想定しました。人間に似たこのレベルに達すると、被験者は恐怖とまではいかなくても不安を感じるでしょう。そして最終的に、グラフの谷は、人間を完全に模倣する能力がある程度達成された時に形成されます。そして、私たちはアンドロイドを単に好きというだけでなく、愛しているのです!

過剰なイタリック体は、1970年当時、不気味の谷は実際のロボットとのインタラクションを全く前提としていなかったという事実を強調するためのものです。それは思考実験でした。そして、今でもそれは大きな理由として挙げられます。完璧な偽物はまだ実現しておらず、関連する学術実験はロボットではなく静止画像やコンピューター生成のアバターに依存しているからです。また、森氏自身も、物思いにふけりながらこの理論を思いついてから44年もの間、自らの理論を検証しようとはしませんでした。(もしそれが厳しすぎると思われるなら、カール・マクドーマン氏と共訳した論文を読んでみてください。驚くほど短く、華麗な内容です。)その代わりに、彼は最終的に、ロボットがいかにして仏教徒として生まれるかについての著書を執筆しました。(繰り返しますが、私の言葉を鵜呑みにしないでください。)

しかし、森の論文が根拠に乏しく根拠のないものであるにもかかわらず、そしてロボットとの対面でのやり取りから様々な結果が得られ、それらは単一の曲線に当てはめるには複雑すぎるという事実にもかかわらず、不気味の谷は依然として多くの人々によって事実として扱われている。なぜそうではないのだろうか?論理的に聞こえる。チューリングテストのように、その論理とロボットに関わるその影響には詩的な感覚がある。しかし、映画『ポーラー・エクスプレス』の死体のような目をした漫画に対するあなたの意見にどう当てはまるにせよ、不気味の谷はロボット工学の分野に何の価値ももたらさない。ジャンクフードのような科学なのだ。

チューリングテストもまた、過度に単純化され、しばしば不幸な形で運用されている概念である。その最大の遺産はチャットボットと、忌々しいものを美化しようと試み、そして概して失敗に終わったコンテストである。しかし、不気味の谷とチューリングテストの違いは、そのビジョンにある。私たちが理解するチューリングテストは、そして先週末のイベントが証明したように、空虚な尺度である。しかし、チューリングはそれでも先見の明を持っていた。そして、奇妙で杜撰で、一見行き過ぎた『イミテーション・ゲーム』において、彼は人間と人工知能の本質について素晴らしい洞察を提供している。

自分の髪について話すことは、思ったよりも賢明です。

* * *

チューリングの『イミテーション・ゲーム』の最初のサンプル質問は、「X さんは髪の長さを教えていただけますか?」です。そして、人間の男性からの概念的な答えは次のようになります。「私の髪は縞模様で、一番長い毛束は約 9 インチです。」

この返信で何が起こっているか考えてみてください。相手は(おそらく)誰かの髪型を想像しているか、あるいは全くのゼロからイメージを作り上げているのでしょう。後ろが短いという単純な説明ではなく、具体的な髪型についても言及しています。

もし機械が同様の答えを出すことができれば、それは2つのうちのいずれかを意味します。

プログラマーたちはスクリプト化された返答を書くのが得意で、「髪」という単語を検出できたのは幸運だった。チャットボット以前の、よりシニカルでない可能性としては、コンピューターが画像にアクセスし、その物理的特徴だけでなく文化的背景も説明できるということがある。

性別を機械知能のテストの中核要素に据えることに、私はいまだに違和感を覚えます。現代の研究者なら、このような要素を軸にして猛烈に批判するような、的外れな要素を組み込むことにも思えます。しかし、チューリングが求めていたのは、データをリアルタイムで処理し、複数の種類の情報を統合する能力でした。知能とは、髪の長さや色といったものを理解するだけでなく、髪が何であるかを知ることも意味します。

イミテーション・ゲームは、人間の欺瞞能力と機械の欺瞞能力を比較する点で、標準的なチューリング・テストよりも優れたテスト方法論を備えています。一見すると、これは狂気の沙汰のように思えるかもしれません。このテストが、人間のように考えるコンピュータを生み出すことにつながるのであれば、コンピュータが特定の性別を装えるかどうかなど誰が気にするでしょうか。しかし、イミテーション・ゲームの優れている点は、それがコンテストであるという点です。人間のような計算能力を無制限に実演するのではなく、プログラマーに具体的な目標を設定します。そして、競争相手である人間も失敗する可能性のあるタスクをコンピュータに実行させます。一方、チューリング・テストでは、コンピュータと人間が実際に競争するわけではありません。人間は制御要素として含まれる場合がありますが、最も基本的なタスクである「人間であること」に失敗するとは誰も予想していません。

イミテーション・ゲームは、現代のチャットボット技術に対して依然として脆弱かもしれない。「出会い系」サイト上の無数の軽薄なプログラムが証明しているように、つまらないステレオタイプに頼ることは、人間を一時的に騙すための驚くほど効果的な戦略となり得る。チューリングの当初の提案に完璧なところは何もない。また、その古い歴史と、執筆以降のAIの発展を考えると、神聖視されるべきでもない。しかし、あらゆる問題や厄介な社会文化的複雑さにもかかわらず、イミテーション・ゲームをチューリング・テストに置き換えたことで、チューリングに恩恵を与えたとは思えない。生きた女性のふりをすることにおいて男性よりも優れていることは、AIにとって紛れもなく困難な勝利条件である。しかし、これは単に半文盲の人間の曖昧なチャットルームの習慣を真似るよりも、より限定された実験であり、より高度な機械認知能力を必要とするだろう。息もつかせぬ発表と当然の反発が繰り返されたこの最近のサイクルの後では、次に考えなしの自動応答の集まりがチューリングテストに合格したとしても、誰も気にする必要はない。

しかし、もし何かがイミテーション・ゲームで人間に勝ったらどうなるでしょうか?

それを書いているだけで鳥肌が立ちます。