
ソーシャルディスタンスが始まると、ビデオ通話は瞬く間に対人コミュニケーションの基本的な手段としての地位を確立しました。対面での会議とは異なりますが、相手の顔が見えるだけで、従来の音声のみの電話会議は絶望的に時代遅れに感じられました。しかし、数ヶ月にわたる距離の後に、ビデオ通話の目新しさは薄れ、煩わしい不具合が目立つようになりました。背景で吠える犬の声は以前ほど可愛くなく、ブレインストーミング中にマイクをミュートせずにパリパリの袋から食事をする人は、アベンジャーズがスーパーヴィランを収容している巨大刑務所に送られるべきです。
しかし現在、MicrosoftやGoogleなどの企業は、ビデオ通話中の煩わしい背景ノイズを除去するためのAIを活用した取り組みを強化しています。実際、GoogleはG Suiteの一部法人顧客向けにノイズキャンセリング機能の提供を開始したばかりで、今後数ヶ月でより多くのユーザーに展開される予定です。

今週、GoogleはVenture Beatに対し、導入を開始したノイズキャンセリング技術のデモを行いました。そのデモは実に印象的です。プレゼンターであるG Suiteプロダクトマネジメントディレクターのセルジュ・ラシャペラ氏は、手拍子、バッグの擦れる音、さらには金属製の六角レンチでガラスのコップを叩く音など、様々な音を並べて説明しました。ノイズキャンセリングをオンにすると、彼の声が少しこもったように聞こえますが、しばらくするとクリアになります。しかし、さらに重要なのは、邪魔な音がほぼ完全に消えることです。
ラチャペラはBlue Yetiマイクを使用しています。これはポッドキャスターやストリーマーにとってかなり一般的な機器ですが、この魔法のような効果を生み出しているのはハードウェアではありません。GoogleはクラウドベースのAIアルゴリズムを活用し、音声を分析して不要な雑音を取り除きながら、ユーザーの言葉だけを拾い上げます。
これは、ヘッドフォンで一般的に「ノイズキャンセリング」という言葉が使われる場合とは異なります。その場合、ヘッドフォンは音波を発生させ、耳に届くノイズを物理的に打ち消します。Googleの場合、そして同様のことを試みている他の企業の場合、ボットが音声を分析し、信号からノイズを除去してからヘッドフォンやスピーカーに送信します。
Googleは音声認識に精通しています。Googleアシスタントは長年にわたり音声を認識し、解析してきました。そして昨年、Googleは驚くほど正確な「Live Transcription」機能を発表しました。この機能は、会話をテキストでリアルタイムに再現します。Googleはこの技術を新しいAIに活用しました。ノイズキャンセリング機能では、計算処理はユーザーのデバイスではなくクラウドで行われるため、リソースを大量に消費するビデオ通話よりもローカルプロセッサへの負担を軽減できます。
この機能はユーザーにリリースされるとデフォルトでオンになります。つまり、ある日突然、背景音が消えていることに気づくかもしれません。フィルターなしの音声をご希望の場合は、設定でオフにすることができます。ただし、フィルターを通した方が良い場合もあるでしょう。例えば、歌声はフィルターを通過する可能性が高いですが、BGMは通過しない可能性があります。

ビデオ通話の音声をクリーンアップしようと取り組んでいるのはGoogleだけではありません。4月には、MicrosoftがTeamsのビデオチャット機能向けに同様の技術を発表しました。この技術も同様のコンセプトを採用しており、音声を分析し、会話として認識できない音をフィルタリングします。
Google の計画と同様に、Microsoft のノイズ抑制機能は今後数か月以内に導入される予定です。
他の多くのAI技術と同様に、両社は、システムが不要なノイズを識別する能力を時間の経過とともに向上させていくと期待しています。より広範なデータセットと、何をフィルタリングすべきか、何をフィルタリングすべきでないかを学ぶための時間が増えれば、最終的にはより効果的になるでしょう。これは良いことです。なぜなら、ポテトチップスをむさぼり食う同僚は、すぐに静かなスナックに切り替えるつもりはないでしょうから。