マスクで隠れている顔の部分をAIでどこまで正確に推定できるのか?精度を上げる鍵を握っていたのは「声」だった。
「マスクをしている顔画像とその人の音声を組み合わせることで、マスクのない顔画像を予測して出力する、そういったAIモデルの開発を行っている」(電気通信大学 清雄一教授)
マスクで隠れている部分をAIを活用して推測。電気通信大学の研究チームは従来の手法よりも精度を高めるため顔の形と関係しているとされる声の情報を加えた推測方法に挑戦した。
清教授は「性別・年齢・民族といったものは『顔の形』と『声』の両方に関わってくる。そのため、声から性別・年齢・民族、それを通して顔の形を推測することはある程度できる。さらに、声が低い方は顔の下の部分が長くなるといった傾向もある。結果として、音声データを使用しない従来モデルと比較して特に鼻や口周り、頬のあたりを精度よく推定できた」と説明する。
画像データのみを学習したAIによる従来の手法でも、、見えていなかった部分を補完し、違和感のない人物画像に仕上がっている。研究チームはそこに、約10万枚の顔画像に加え、約11万の音声データをAIに学習させたデータセットを使い新たな推定手法に取り組んだ。その結果、鼻の形や輪郭が、従来の手法に比べ実際の人物画像に近いように見える。
見た目だけでなく、画像の類似性を算出するテストでも従来の手法を数値で上回り、「顔認証システムの研究で“本人”と判定する値」を超えたという。
この研究結果は、「防犯カメラで映っているマスクで顔を隠しているような犯人がもし一言二言でも声を発したときに、その声を使ってマスクの下をより高い精度で明らかにする」といった活用が期待できるという。
研究では権利処理された外国人の画像と声のデータセットを使用しているため、日本人の顔の推定は少し苦手で、また顔が隠れすぎていると推定がうまくいかないことも。
国内で実際にこの技術を活用するためには肖像権などの問題をクリアしながら日本人のデータをどう集めるかが課題になってくると清教授は話す。
「画像と声の2つで予測したが、さらに体格・身長といった情報も組み合わせることでより精度を高める方向も考えている」
ダイヤモンド・オンライン編集委員の神庭亮介氏は「今後装置が軽量化されると、互いにマスクをつけて話している際に相手の表情を読み取れるようになるかもしれない。日本人は目元から表情を読み取るのが得意だが、欧米の人は口元が分からないと表情・感情を読み取りづらい、と言われているので、海外でもニーズがあるのではないか」と期待を示した。
だが日本で実際に活用できる精度にするためには、顔や声のデータの多様なサンプルを収集することが必要であり、そのハードルが高いという現実がある。
神庭氏は「新しい技術に対して、よくわからないから怖いと思うのは自然な感情。だからこそ、企業や政府が顔写真などのデータ提供をお願いする場合は『何の用途に使うのか?』 『その技術がどんな役に立つのか?』『最悪の場合にどんなリスクが生じ得るのか?』をきちんと伝えるべきだ。協力したい人はたくさんいるはずなので、丁寧な説明や意思確認を進めることが、遠回りのように見えても一番の近道だろう」と述べた。
(『ABEMAヒルズ』より)
■Pick Up
・「ABEMA NEWSチャンネル」がアジアで評価された理由
・ネットニュース界で話題「ABEMA NEWSチャンネル」番組制作の裏側