Поиск изображения человеческого лица по фотороботу в большой базе данных Текст научной статьи по специальности «Компьютерные и информационные науки»
Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Федотов Николай Гаврилович, Петренко Александр Григорьевич, Рой Алексей Владимирович, Фионов Никита Сергеевич
Предложен подход к решению задачи поиска человеческих лиц в базе данных на основе стохастической геометрии и функционального анализа. Ключевым элементом этого подхода является применение нового класса конструктивных признаков распознавания триплетных признаков . Рассмотрены этапы поиска изображений в базе данных, вытекающие из анализа физиологических принципов восприятия и распознавания совместно с теорией триплетных признаков .
Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Федотов Николай Гаврилович, Петренко Александр Григорьевич, Рой Алексей Владимирович, Фионов Никита Сергеевич
Текст научной работы на тему «Поиск изображения человеческого лица по фотороботу в большой базе данных»
H. Г. Федотов, А. Г. Петренко, А. В. Рой, Н. С. Фионов
ПОИСК ИЗОБРАЖЕНИЯ ЧЕЛОВЕЧЕСКОГО ЛИЦА ПО ФОТОРОБОТУ В БОЛЬШОЙ БАЗЕ ДАННЫХ
Аннотация. Предложен подход к решению задачи поиска человеческих лиц в базе данных на основе стохастической геометрии и функционального анализа. Ключевым элементом этого подхода является применение нового класса конструктивных признаков распознавания - триплетных признаков. Рассмотрены этапы поиска изображений в базе данных, вытекающие из анализа физиологических принципов восприятия и распознавания совместно с теорией триплетных признаков.
Ключевые слова: распознавание лиц, база данных изображений, биометрический поиск, трейс-преобразование, стохастическая геометрия, триплетный признак.
Abstract. The authors present a new approach based on stochastic geometry and functional analysis to solve the problems of human face image retrieval from a database. A key element of this approach is the use of a new class of constructive features of recognition called triple features. An analysis of physiological principles of perception and recognition in conjunction with the theory of triple features determines a retrieval algorithm described in this paper.
Key words: face recognition, image database, biometric search, trace transform, stochastic geometry, triple feature.
Статья посвящена поиску изображений человеческих лиц в базе данных по эскизу или фотороботу. В данной работе предлагается подход к решению задачи поиска человеческих лиц на основе стохастической геометрии и функционального анализа. Ключевым элементом этого подхода является новое геометрическое трейс-преобразование изображений, введенное одним из авторов в [1]. Трейс-преобразование связано со сканированием изображений по сложным траекториям. Оно является ключевым элементом формирования конструктивных признаков распознавания нового класса - триплетных признаков, характерной особенностью которых является их структура в виде композиции трех функционалов [2]. Благодаря такой структуре возможно формирование большого числа (тысяч) признаков, причем в режиме автоматической компьютерной генерации. Опора на большое количество признаков ведет к повышению гибкости и надежности поиска.
Согласно психофизической теории восприятия и распознавания при восприятии изображения человеческого лица перемещение глаза носит стохастический характер с фиксацией на областях наибольшей информативности, в качестве которых выступают анатомические особенности лица. Детальная обработка не всего изображения, а преимущественно наиболее информативных областей, существенно увеличивает надежность поиска в базе данных, поскольку при этом реализуется принцип постепенного исключения избыточности.
I. Физиологические основы восприятия и распознавания человеческого лица
В 1930-е гг. на основе изучения зрительного аппарата человека и животных было установлено, что регулярный обзор пространства в природе не
осуществляется, и траектория движения глаз при осмотре объекта носит случайный характер.
Впоследствии экспериментальные исследования А. Л. Ярбуса по изучению механизмов выбора точек фиксации взгляда показали, что человек в процессе осмотра изображений фиксирует взгляд главным образом на наиболее информативных областях.
Выбор таких областей изображений для фиксации взгляда и детального анализа с помощью механизмов фовеального зрения зависит от множества факторов, взаимодействующих между собой.
Комплексный подход к изучению механизмов осмотра изображений, основанный на взаимодействии психофизического эксперимента и математического моделирования, описан в работе [3] научной школы НИИ нейрокибернетики им. А. Б. Когана Южного федерального университета. Наиболее информативные области, выделенные по результатам экспериментов с использованием современной системы регистрации и анализа движений глаз, оказались во многом сходны с результатами А. Л. Ярбуса.
Детальная обработка наиболее информативных областей (области глаз, носа, рта, контура лица) может значительно снизить вычислительные затраты, а удачное признаковое описание таких областей увеличит эффективность поиска и идентификации [4].
Специфика восприятия изображений лиц зрительным анализатором человека состоит также в том, что в процессе узнавания мозг выступает как активная распознающая система (с проверкой правильности решений). Этапами распознавания при этом могут быть: выделение признаков, предварительный анализ, выдвижение гипотезы, проверка гипотезы - сличение изображений с эталоном, взятым из памяти. В связи с этим принцип активного распознавания должен закладываться на этапе проектирования систем компьютерного видения изображений человеческих лиц [5].
2. Триплетные признаки
Для описания каждого портретного изображения строится набор переменных - множество триплетных признаков.
Пусть F(х, у) - функция изображения на плоскости (х, у). Определим на плоскости сканирующую прямую l(ф, р, t), которая задается нормальными координатами ф и р:
х • cos ф + у • sin ф = р ,
параметр t задает точку на прямой. Определим функцию двух аргументов g (ф, р) = T( F n l(ф, р, t)) как результат действия функционала T при фиксированных значениях переменных ф и р .
При проектировании распознающих систем используют дискретный вариант трейс-преобразования. Параметры сканирующей прямой образуют два дискретных множества Q = (ф, ф2. фи >, Г = (р^, р2. рт >.
В результате действия функционала T получаем матрицу, элементами которой являются значения tj = T(F n l(ф j, рг-, t)). Детерминированное сканирование позволяет однозначно определить каждый элемент матрицы. Дан-
ная матрица называется трейс-матрицей. Она является результатом трейс-преобразования, или трейс-трансформантой.
В дискретном варианте вычислений трейс-трансформанта представляет собой матрицу, элементами которой tj являются, например, значения яркости изображения F при пересечении со сканирующей линией l(ф, р). Параметры сканирующей линии фj, рг- определяют позицию этого элемента
в матрице. Последующее вычисление признака заключается в последовательной обработке столбцов матрицы с помощью функционала Р, который называется диаметральным функционалом.
К полученному после применения Р-функционала набору чисел, представляющему собой 2п-периодическую кривую, нужно применить круговой функционал Ф, чтобы получить число-признак.
Таким образом, триплетный признак вычисляется как последовательная композиция трех функционалов: П(F) = Ф о Р о T (F п Ь(ф>, р, t)), где каждый функционал ( Ф, Р и Т) действует на функции одной переменной ( ф, р и t ) соответственно.
Варьируя свойства функционалов, входящих в триплетный признак, можно получить признаки с заданными свойствами. В частности, при определенном выборе функционалов можно получить признаки, инвариантные по отношению к группе движений и линейных деформаций распознаваемых изображений. Это повышает надежность поиска изображений в базе данных, так как система идентификации должна устойчиво функционировать в условиях линейных преобразований изображения и ограниченных ракурсных трансформаций объекта идентификации.
Кроме того, благодаря источнику триплетных признаков - трейс-преобразованию - в этих признаках отражаются свойства окрестностей точек пересечения сканирующей линией, что также говорит о перспективности выбора триплетных признаков для задачи поиска в базе данных изображений.
Таким образом, анализ физиологических принципов восприятия и распознавания совместно с теорией триплетных признаков приводит к идее поиска изображений в базе данных в несколько этапов, одним из которых является обучение. В данной работе поиск в базе данных изображений лиц производится по фотороботу, представленному в виде бинарного изображения.
3. Предварительная обработка изображений
Поскольку черно-белое изображение фоторобота сравнивается с изображением лиц из базы данных, необходима предварительная обработка изображений с целью приведения их к бинарному виду. Исходные цветные фотографические портреты приводятся специальной процедурой к полутоновым изображениям. Затем полутоновое изображение преобразуется в монохроматическое путем нелинейной пороговой фильтрации.
На этапе сегментации происходит выделение (разбиение изображения) наиболее информативных областей: глаза, нос, рот, овал лица и др. (рис. 1). В данном случае применен оригинальный метод, основанный на рекурсивной функции заливки заданным цветом произвольной замкнутой области изображения.
При сегментации портретного изображения с учетом физиологии человеческого лица происходит анализ окрестности заданных координат. Если пиксель в окрестности не является фоном, то координаты стартовой точки меняются и процедура вызывает себя с новыми измененными координатами. Это будет происходить до тех пор, пока не будут зафиксирована вся замкнутая область.
Рис. 1. Сегментация изображения из базы данных: выделение высоты лба
4. Этап обучения
В режиме обучения путем генерации триплетных признаков каждого портретного изображения, хранящегося в базе данных, строится набор поисковых триплетных признаков. Вычисления осуществляются по всем областям наибольшей информативности. Признаки, значения которых попадают в не-пересекающиеся или частично пересекающиеся интервалы обучающей совокупности, отбираются для поиска. Остальные, малоинформативные признаки, исключаются из рассмотрения, их влияние при принятии решения невелико.
Этапы вычисления триплетного признака схематично показаны на рис. 2.
Сканирование Трейс-преобразование ® периодическая Признак
Рис. 2. Вычисление триплетного признака
Иногда для распознавания изображения достаточно только лишь одного трейс-преобразования, осуществляемого с помощью Т-функционалов. Однако при распознавании человеческих лиц в большинстве случаев одного трейс-преобразования недостаточно. Поэтому для всех изображений лиц целесообразно производить структурный анализ биометрических элементов портретного изображения (расположение глаз, носа, овала лица, определение контуров подбородка, усов). И уже для каждого элемента в отдельности выполнять процесс сканирования и вычисления триплетных признаков.
Например, важным этапом анализа человеческих лиц является различение лиц в зависимости от величины открытых глазных щелей.
На рис. 3 приведены примеры такой классификации, а также соответствующие трейс-преобразования, полученные с помощью наиболее различающих функционалов.
Из рис. 3 видна чувствительность различных Т-функционалов и соответствующих трейс-матриц к сегментированной области глаз. Однако согласно алгоритму распознавания решающим критерием при распознавании изображений является триплетный признак. Т-функционал, формирующий трейс-преобразование, является лишь фрагментом триплетного признака. Дальнейшая свертка информации осуществляется путем постолбцовой обработки трейс-матрицы с помощью диаметрального функционала. Итогом будет 2п-периодическая кривая. Изучая ее поведение, можно продолжить отбирать самые информативные поисковые признаки, а также оценить влияние Р-функционалов на всю процедуру распознавания, используемую при поиске изображений в базе данных.
После обработки 2п-периодической кривой круговым функционалом получаем триплетный признак изображения.
Видимая на глаз чувствительность Т-функционалов лишь облегчает работу по формированию набора информативных признаков в процессе обучения. На практике, даже если между трейс-трансформантами нет заметных различий для разных исходных изображений, различия между этими изображениями все же можно выявить, если заранее знать, что геометрически они существуют. Чтобы достичь этой цели, необходимо целенаправленное формирование триплетных признаков для самой главной области наибольшей информативности.
Например, для глаз может быть характерна либо вытянутость по горизонтали, либо круглая форма. Следовательно, нужно сформировать триплет-ные признаки, оценивающие различие форм: эллипсовидной и круглой. При округлой форме число нулевых элементов в каждом из столбцов трейс-матрицы будет примерно одинаково. Это происходит потому, что значение длин отрезков, высекаемых на различных сканирующих прямых, примерно одинаково. Для вычисляемого объекта наибольшее число ненулевых элементов расположено в том столбце, который соответствует направлению сканирования, совпадающему с направлением вытянутости.
5. Оценка информативности признакового пространства
Для оценки информативности пространства признаков используется подход, основу которого составляет гипотеза компактности [6]. Из нее следует, что для хорошего распознавания образов желательно, чтобы расстояния между своими точками каждого образа были малыми, а расстояния до точек других образов по возможности большими.
На рис. 4 приведены 3 исходных портретных изображения, предварительная обработка, сегментация и результаты вычислений триплетных признаков. Для данного примера в качестве трейс-преобразования Ti было выбрано число сегментов, получаемых при пересечении прямой и образа. Также были взяты один диаметральный функционал P1 - сумма всех элементов р-го столбца трейс-матрицы; и три круговых функционала: Ф1 - площадь, образующаяся функцией на отрезке [0; 2п], Ф 2 - среднее значение и Ф 3 - дисперсия функции.
открытых глазных щепен
Дпнна высекаемых отрезков
Число пересечений ск аннрующ ей линии с фигурой
М ак симапьная дпнна высекаемых отрезков
Рис. 3. Сравнение изображений лиц с разными величинами открытых глазных щелей по результатам применения Т-функционалов
Известия высших учебных заведений. Поволжский регион
Исходный вид изображений
Приведение к бинарному виду
Пример сегментации (область глаз в качестве области наибольшей информативности)