NSA の機械はテロリストを認識できるか? NSA の機械はテロリストを認識できるか?

NSA の機械はテロリストを認識できるか?

NSA の機械はテロリストを認識できるか?

米国の国家安全保障局がパキスタンの潜在的テロリストを特定するために使用している機械学習アルゴリズムは、テロリストの兆候を見分けるのに十分なデータがないため、効果がない可能性があると、Ars Technica UK の調査は主張している。

The Interceptに流出した文書によると、NSAのプロジェクト「Skynet」は、パキスタンの携帯電話ネットワークトラフィックを利用して潜在的な脅威を特定・監視している。ビッグデータにおける多くの機械学習アルゴリズムと同様に、このプロジェクトは何百万もの値を入力として受け取り、特定のパターンを照合しようとする。これは2015年にThe Interceptによって明らかにされたが、Arsの調査では、このプログラムが実際にはどれほど効果がない可能性があるのか​​を詳細に検証している。

これは、今日のテクノロジー企業がオンラインで目にするほとんどのコンテンツを管理するのに利用している機械学習によく似ています。Facebookはニュースフィードのランキング付けに機械学習を利用しており、Googleは検索にも機械学習を使い始めています。

しかし、これらの技術が確実に機能するには、機械が最初に正しいパターンの膨大な例を学習させる必要があります。この場合、正しいパターンには、位置情報、携帯電話のハードウェアを頻繁に交換するといった行動、電話の着信のみで発信はしないといった行動が含まれる可能性があります。人権データ分析グループの研究ディレクター、パトリック・ボール氏は、Ars Technicaに対し、使用されているデータは曖昧すぎるため、信頼できる結果が得られないと語りました。

「まず、モデルの訓練とテストに使える『既知のテロリスト』はほとんどいない」とボール氏は述べた。「もし彼らがモデルの訓練とテストに使っているのと同じ記録を使っていたら、適合性の評価は全くのデタラメだ」

Skynet プロジェクトでは、わずか 7 人の既知のテロリストのデータを使用します。

ボール氏によると、Skynetプロジェクトでは、モデルのテストに、既知のテロリスト7名のデータと、携帯電話ユーザー10万人の無作為抽出データを使用しているという。NSAはアルゴリズムのテストとして、既知のテロリストのパターン7種類のうち6種類、次に通常のパターン全てを提示し、最後にノイズの中に隠れた7つ目のテロリストのパターンを見つけるようアルゴリズムに指示する。これらの計算は、各携帯電話ユーザーに関する80の変数に基づいて行われ、NSAのプレゼンテーションによると、NSAは5500万人のユーザー記録を保有している。これはパキスタン国民1億8000万人以上と比較すると、データが完全には揃っていないと言える。

「せいぜい不完全」という言葉も、出力結果を表すのにふさわしい表現です。NSAは、潜在的な一致の半分を見逃した場合、0.18%の誤報率を得ることができます。あるスライドには、「統計アルゴリズムは、半分を見逃しても構わないのであれば、非常に低い誤報率で運び屋を見つけることができる」と文字通り書かれています。5500万件の記録を検索した場合、約99,000件のヒットが誤検知となるでしょう。

しかし、これらの情報はすべて、2011年か2012年のスライドに基づいている可能性があります。これらのスライドがどのように修正されたのか、破棄されたのか、あるいは2011年当時のまま、ほとんど監視されずに現在も使用されているのかについては全く分かりません。スライドは虚偽である可能性もあります(おそらくそうではないでしょうが、可能性はあります)。NSAは現在、実際には5500万件をはるかに超える記録を保有している可能性があります。

また、NSAがこのデータを実際にどう活用しているのか、全く見当もつかないことも指摘しておくべきだろう。ドローン攻撃の報告書に盛り込まれている可能性もあるが、2004年以降パキスタンで米軍ドローン攻撃によって3,994人が殺害されたという驚くべき事実があるにもかかわらず、政府はすべての一致を脅威とみなしているわけではないようだ。

Facebook の写真にタグを付けたり、誰に広告を表示するかを決めたりするような場合、アルゴリズムにこれほどの権限を与えることは大した問題ではないが、人命に関わる場合には、これほど大きな誤差は致命的となる。

「これは間違いなく間違った科学だ」とボール氏は語った。