

人物の写真を撮るのは驚くほど難しい。照明の悪さからポーズの悪さまで、多くのミスが写真を台無しにしてしまう。しかし、タイミングの悪い瞬きほど、ポートレートの魅力を台無しにしてしまうものはない。そこでFacebook Researchは、AIを活用したツールを使って、閉じた目を開いた目に置き換える手法の開発に取り組んでいる。このツールは、単なる新しい目をコピー&ペーストする以上のものを目指している。
肖像画で閉じた目を開くというアイデア自体は目新しいものではないが、通常は別の写真から素材を直接抽出し、瞬きしている顔に移植する。例えば、AdobeのPhotoshop Elements(プロ向け画像編集ソフトウェアの簡易版)には、この目的に特化したモードが搭載されている。このモードを使うと、同じセッション(複数枚撮影した場合)で人物の目が開いている別の写真を選択するように促される。すると、AdobeのAI技術「Sensei」が、前の画像から抽出した目を瞬きしている写真にブレンドする。
これは、ちょっとした修正としては驚くほどうまく機能する機能です。特に、本格的なPhotoshopを使って新しい目のパーツを丁寧に貼り付けてブレンドするには、どれほどの手順を踏む必要があるかを考えると、なおさらです。しかし、特定の照明条件や影の方向など、細かい部分では必ずしも正確に再現できるとは限りません。

「影の理解は完全に直感的です」と、ダートマス大学のコンピュータサイエンス教授で写真鑑識の専門家であるハニー・ファリド氏は言う。「影を見れば光源がどこにあるか推測できます」。技術者が別の写真から目の写真をコピー&ペーストする際、影のわずかな変化などが必ずしも考慮されない場合があり、研究が示唆するように、最終的な画像はほぼ正しいように見えても、説明のつかない奇妙な印象を与えることがある。これはいわゆる「不気味の谷」現象であり、研究者たちはこれを回避しようと努めている。
Facebook Researchが最近発表した論文では、目を閉じた部分を置き換えるための異なる解決策が提案されています。これは、目が閉じている部分だけでなく、画像全体の文脈を用いて欠損データを構築できるディープニューラルネットワークに基づいています。Facebookはこのデータ補完に、汎用敵対的ネットワーク(GAN)と呼ばれる技術を用いています。これは、有名人が実際にはしていない発言や行動をしているように見せかける、最近流行している「ディープフェイク」動画の基礎技術と同じです。
彼らが使用したExemplar GANモデルは、同一人物の別の画像からデータを取得しますが、あくまで参考資料としてのみ使用し、被写体の外見や顔に見られる特徴などを学習します。その後、インペインティングと呼ばれるプロセスを用いて、まぶたを実際の目に置き換えるために必要な情報を生成します。このようなディープラーニングは、単純な1枚の画像ではなく、より多くの参照画像を必要とします。Facebookのインフラストラクチャは、通常、同一ユーザーの様々な照明状況における複数の異なる画像を分析できるため、非常に適していました。
Facebook の初期の成果は、不完全ではあるものの印象深いものだった。しかし研究者たちは、このプロセスを支えるアルゴリズムの最適なトレーニング方法を見つけ、髪の毛や眼鏡で目の一部が隠れている写真など、予測できない変数に対処するために、今も取り組んでいる。
それでも同社は、瞬きする被写体の写真を修正する以上の、この種のコンピューティングが有用だと考えている。将来的には、AIによって私たちのプロフィール写真がさらに魅力的になるかもしれない。写真以外にも、同社は音楽のスタイルを別のスタイルに変換する同様のAIツールの開発にも取り組んでいる。