Эволюция индустрии Face ID: инсайты от онлайн-программы “Master of computer vision”
Онлайн-магистратура “Master of computer vision” в рамках приемной кампании провела вебинар «Распознавание лиц. Как работает и как ломается?» с участием бизнес-партнера программы — компании Huawei. Его участники узнали об основных принципах работы алгоритмов Face ID и особенностях технологий распознавания лиц относительно других моделей глубинного обучения, а также об уловках, которые вводят в заблуждение системы искусственного интеллекта.
Индустриальный вебинар проводил Степан Комков, Senior Algorithm Engineer in Intelligent Image and Video Processing Lab of Moscow Research Center of Huawei. По итогам вебинара академический руководитель программы “Master of computer vision” Андрей Савченко, профессор кафедры информационных систем и технологий НИУ ВШЭ в Нижнем Новгороде, ответил на вопросы об алгоритмах Face ID.
— Андрей, расскажите о рассматриваемых на семинаре задачах машинного восприятия изображений лиц?
— Методы распознавания лиц по фото и видео исследуются уже более полувека. С 90-х годов проводятся конкурсы лучших как коммерческих, так и открытых систем верификации и идентификации лиц. Задача верификации состоит в определении того, содержат ли две фотографии лица одного и того же человека или двух разных людей. Именно она решается, например, при разблокировке смартфона по видео лица. В то же время задача идентификации отвечает на вопрос, кто из заданного списка людей изображен на фото. Решение этой задачи помогает создавать системы видеонаблюдения, осуществлять биометрические платежи (FacePay) и т.п.
— Какие методы применяются для решения этих задач?
— Для решения обеих задач применяются схожие методы, в которых каждой фотографии лица или видеокадру ставится в соответствие некоторый дескриптор — последовательность чисел, схожих для фотографий одного и того же человека, но существенно различающийся для фото разных лиц. Традиционно в распознавании лиц применялись специальным образом подобранные исследователями дескрипторы, например геометрические характеристики, вычисленные по достаточно большому числу ключевых точек лица.
— Насколько они были точны и когда был преодолен разрыв между человеческим и машинным распознаванием лиц?
— Такие дескрипторы оказывались крайне неустойчивыми: они существенно менялись в зависимости от ракурса, при этом точность существенно снижалась при варьирующемся освещении, появлении очков, головных уборов, бороды, усов и т.п. Поэтому с точки зрения преодоления разрыва в качестве распознавания лиц человеком и машиной мы можем вести отсчет с 2014 года, когда в статье “Closing the Gap to Human-Level Performance in Face Verification” была представлена нейронная сеть FaceNet. Сеть обучалась с помощью специально собранного, поделенного на классы набора данных (порядка 4,5 млн фотографий более чем 4 тыс. людей). Предполагалось, что полученный на выходе предпоследнего слоя сети вектор признаков репрезентативен и может быть использован в качестве дескриптора для верификации и идентификации других людей, не представленных в обучающем множестве. В результате ее качество, хоть и существенно превысило традиционные аналоги, было несовершенно. Спустя год был представлен новый процесс обучения сети FaceNet, давший мощный толчок для роста индустрии. Исследование ввело в систему верификации лиц парадигму Metric Learning.
— Почему статья о FaceNet спровоцировала бум индустрии?
— Представленная в статье модель достигла невиданной прежде точности верификации — 99,63% — на традиционном бенчмарке LFW (Labeled Faces in the Wild). В результате статья о FaceNet была процитирована более 13 тыс. раз и вошла в топ-10 самых популярных материалов в области компьютерного зрения. Авторы придумали особую функцию потерь: при обучении с помощью нее сети оптимизируется не просто точность классификации лиц из обучающего набора данных, а именно то, что нужно, — дескриптор лиц, извлекаемый с помощью этой сети так, чтобы расстояния между векторами признаков для различных фото конкретного человека были меньше, чем расстояния от его векторов признаков до векторов признаков любых других людей.
С помощью этой работы исследователи компьютерного зрения осознали, что можно не просто использовать более мощные наборы данных и более глубокие нейросетевые модели, а искать математические способы формулировки задач. Конечно, наличие на этапе обучения больших данных тоже позволяет повысить качество модели. Например, в 2015 году закрытый набор фотографий лиц, использованный для обучения FaceNet, содержал более 200 млн изображений 8 млн персон. В последние годы сопоставимые по объему датасеты уже представлены в открытом доступе. Например, в 2021 году Университет Тихуаны совместно с Имперским колледжем Лондона выложили набор данных WebFace260M из 260 млн фотографий 4 млн людей. Обученные на нем с помощью развития идей FaceNet, в частности функций потерь ArcFace, нейросетевые модели оказываются не хуже коммерческих аналогов известных корпораций.
— Какие проблемы и задачи стоят перед индустрией Face ID и исследователями вашей программы сегодня?
— Одна из важных задач, которую мы решаем, связана с повышением вычислительной эффективности распознавания лиц. Здесь могут встретиться две различные проблемы. Во-первых, если число распознаваемых людей велико, то для вычисления расстояний между дескрипторами входного видеокадра и всеми их фотографиями может потребоваться много времени, поэтому придется либо отказаться от принятия решений в реальном времени, либо разрабатывать специализированные быстродействующие алгоритмы, такие как приближенный поиск ближайшего соседа или последовательный анализ дескрипторов. Во-вторых, время вычисления дескриптора для каждого видеокадра может быть тоже весьма велико, особенно при работе на малопроизводительных мобильных устройствах, поэтому возникает задача разработки специализированных мобильных дескрипторов, адаптированных к архитектуре конкретного устройства.
Конечно, есть и другие задачи, решаемые сейчас исследователями. Например, чрезвычайно актуальной является задача антиспуфинга — противодействия обману систем Face ID с помощью специально заготовленных фотографий или видеозаписей другого человека, а также применения масок или особого макияжа.
— Как обмануть Face ID?
— Сделать это непросто, но возможно. В ходе семинара Степан Комков как раз рассказал о своей разработке AdvHat. Это специальный вид адверсариальных атак на нейронные сети, в результате которых получаемый дескриптор существенно отличается от дескриптора лиц того же человека. В частности, докладчиком было предложено применение специального стикера, наклеиваемого спереди головного убора, в результате чего лучшие на момент публикации статьи нейросетевые модели были совершенно сбиты с толку и распознавали совсем другого человека. Конечно, всегда можно разработать специальный фильтр для борьбы с такими атаками, но предусмотреть все возможные атаки в типовой системе видеонаблюдения нельзя просто из-за ограничений по времени принятия решений в реальном времени.
— Как дизайн программы “Master of computer vision” отвечает вызовам индустрии компьютерного зрения?
— Программа “Master of computer vision” разработана учеными Высшей школы экономики и ведущими экспертами Huawei, SBER Lab, Intel, AIRI, Xperience.ai, участвующими в передовых исследованиях в области компьютерного зрения. Образовательная концепция магистратуры “Master of computer vision” объединяет актуальные исследования в области искусственного интеллекта, анализа данных и машинного обучения, включая глубинное обучение, а также современные практики в сфере компьютерного зрения: методы обработки, анализа и синтеза изображений и видео. Цель магистратуры — подготовить специалистов, которые смогут работать в любых проектах, связанных с распознаванием объектов, разработкой систем видеонаблюдения, созданием 3D-реконструкций и фотофильтров, мобильных приложений для распознавания предметов на фото и видео, внедрением CV на всех типах производства в промышленности, ритейле, медицине, банкинге и пр. Выпускники программы претендуют на позиции Computer Vision Software Engineer, Perception Engineer, 3D Perception / Computer Vision Algorithm Engineer, Computer Vision Testing Engineer, Computer Vision Scientist, Data Scientist, Machine Learning Engineer. Интерактивные практические занятия на программе дают возможность сконцентрироваться на решении бизнес-задач от заметных игроков рынка и быстро расти в профессии, строя карьеру еще во время учебы.
Интервью: Екатерина Зиньковская, Дирекция по онлайн-обучению