INPE-14439-TDI/1134 RECONHECIMENTO DE FACES USANDO REDES NEURAIS E BIOMETRIA Douglas Rodrigues Oliveira Dissertação de Mestrado do Curso de Pós-Graduação em Computação Aplicada, orientada pelo Dr. Lamartine Nogueira Frutuoso Guimarães, aprovada em 30 de setembro de 2003. INPE São José dos Campos 2006
166
Embed
RECONHECIMENTO DE FACES USANDO REDES NEURAIS E …mtc-m16b.sid.inpe.br/col/sid.inpe.br/jeferson/2003/12.03.09.36/doc/... · 2.1 - Funcionamento básico de um elemento de processamento
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
INPE-14439-TDI/1134
RECONHECIMENTO DE FACES USANDO REDES NEURAIS E
BIOMETRIA
Douglas Rodrigues Oliveira
Dissertação de Mestrado do Curso de Pós-Graduação em Computação Aplicada, orientada pelo Dr. Lamartine Nogueira Frutuoso Guimarães, aprovada em 30 de
setembro de 2003.
INPE São José dos Campos
2006
681.3.019 Oliveira, D. R. Reconhecimento de faces usando redes neurais e biometria/
D. R. Oliveira. – São José dos Campos: Instituto Nacional de Pesquisas Espaciais (INPE), 2003.
Aprovado pela Banca Examinadora em cumprimento a requisito exigido para a obtenção do Título de Mestre em Computação Aplicada
Dr. José Demisio Simões da Silva Presidente Dr. Lamartine Nogueira Frutuoso Guimarães Orientador Dra. Sandra Aparecida Sandri Membro da Banca Dr. Walmir Matos Caminhas Membro da Banca
Convidado Candidato: Douglas Rodrigues Oliveira
São José dos Campos, 30 de setembro de 2003.
“Ninguém é igual a ninguém. Todo ser humano é um estranho ímpar”.
Carlos Drummond de Andrade
A meus pais, VICENTE DE PAULO OLIVEIRA e
MARIA DAS GRAÇAS RODRIGUES OLIVEIRA.
AGRADECIMENTOS
Inicialmente, agradeço ao meu orientador Dr. Lamartine pelo empenho, incentivo, compreensão e pelas críticas dispensadas na orientação deste trabalho, mesmo quando outras atividades profissionais e de cunho pessoal lhe exigiam intensa dedicação.
Agradeço aos meus colegas de república, Felipe, Mic e Joubert pelo companheirismo nas dificuldades do dia a dia. Também gostaria de lembrar os colegas conquistados no Laboratório da CAP e em São José dos Campos, Maurício, Fernanda, Élcio, Ana Paula, Fabrício, Talita, Adytia, Aritana, Juliana, Jaciara, Patrícia e todos os que de alguma forma foram fonte de inspiração, apoio e incentivo.
Especialmente, agradeço aos amigos Maurício e Élcio pelos inúmeros
favores e por toda amizade demonstrada por eles e pelas suas respectivas famílias durante o período em que residi em São José dos Campos.
Ao chefe da área de Sistemas Industriais da Açominas S.A., Mário Hermes
de Rezende, pelo incentivo dado para a conclusão desta dissertação e por ter sido extremamente tolerante com a minha necessária dedicação à escrita deste trabalho. Aos colegas de empresa Marlon Gouvea e Eduardo Vieira que deram contribuições importantes para escrita desta dissertação.
Ao Instituto Nacional de Pesquisas Espaciais e à CAP, pelo apoio, consideração e empenho em prover seus alunos com as condições necessárias para o desenvolvimento da pesquisa científica. Especialmente gostaria de citar: Dr. Haroldo e Dr. Demísio que por tantas vezes me receberam e buscaram os órgãos de financiamento para obtenção de bolsas para os alunos da CAP.
Minha profunda gratidão a Rafaella, cujo carinho, compreensão e auxílio,
buscando referências bibliográficas na área de Fonoaudiologia, também foram de grande valia para este trabalho.
Finalmente, agradeço à minha mãe e a meus irmãos, pelo amor e incentivo,
e ao meu pai, que sempre me apoiou em todas as etapas e decisões que tomei em relação a este mestrado.
RESUMO
O reconhecimento de faces é uma das ações mais corriqueiras no dia a dia de um ser vivo inteligente. Esta atividade executada com tanta naturalidade por organismos vivos, tem despertado o interesse de pesquisadores que trabalham com Visão Computacional e Inteligência Artificial. Esta dissertação tem por objetivo pesquisar a viabilidade de um sistema híbrido aplicado ao reconhecimento facial, mesclando características dos métodos geométricos para o reconhecimento de faces, aos métodos de inteligência computacional. Para a extração das métricas de componentes e regiões da face, usadas no método geométrico, foram feitos estudos sobre a anatomia da face humana usados em ortodontia, fonoaudiologia e reconstituição maxilo-facial. Estes estudos visaram a determinação de pontos de referência existentes na face e suas relações de interdependência para construir uma representação para as faces a serem analisadas. As medidas dos componentes e regiões faciais foram usadas na construção de vetores numéricos que identificam as faces de forma singular. Estes vetores de características métricas foram usados para treinar redes neurais, encarregadas de realizar o reconhecimento. Foram usadas, nos testes de reconhecimento, 37 imagens frontais de faces humanas de homens e mulheres adultos. Medidas de desempenho são utilizadas sob diversas condições (presença de ruído e imagens não vistas na etapa de treinamento), para ilustrar a viabilidade do sistema híbrido proposto, bem como a eficiência das métricas usadas para representar as faces.
FACE RECOGNITION USING NEURAL NETWORKS AND BIOMETRY
ABSTRACT
The recognition of faces is one of the simplest actions on a daily basis of an intelligent and living being. This activity performed so naturally by living organisms has been attracting the interest of researchers who work with Computer Vision and Artificial Intelligence. This dissertation has as the objective to study the feasibility of a system based on Neural Network and Biometry applied to face recognition, mixing characteristics of geometric methods for face recognition to computer intelligence methods. For the extraction of measurements of components and regions of the face, used in geometric method studies were developed of the anatomy of the human face used in orthodontist work, phonoaudiology and maxillary facial reconstitution. These studies seek to determine the existing reference points on faces and its interdependent relation to construct a representation of the faces to be analyzed. The components’ measurements and facial regions were used to construct numerical vectors, which identity the faces in a singular way. These vectors of characteristics were used for training neural networks, which are in charge of performing the recognition. 37 frontal face images of adult men and women were used. Performance measurements are used under various conditions (presence of noise and images not-seen during the training phase) in order to illustrate the feasibility of the proposed hybrid system as well as the efficiency of the metrics used to represent the faces.
2.2. Redes multicamadas não- lineares ............................................................... 42 2.2.1. O processo de aprendizado ......................................................................... 44
2.3. Implementando um reconhecedor neural .................................................. 47 2.3.1. Etapa de descrição ...................................................................................... 48 2.3.2. Etapa de reconhecimento ............................................................................ 50
5.1. Testes realizados na rede da etapa de Reconhecimento .......................... 104
5.2. Testes da rede de associação a padrões conhecidos ................................. 128
5.3. Discussão sobre os testes realizados .......................................................... 133 5.3.1. As Métricas Usadas para Representação Facial ....................................... 134 5.3.2. Método conexionis ta Não- Linear Usado .................................................. 137
5.4. Resultados Obtidos ..................................................................................... 139 5.4.1. Comparação entre índices de reconhecimento ......................................... 140
5.5. Aplicabilidade do Trabalho ....................................................................... 141
CAPÍTULO 6 - CONCLUSÕES E PERSPECTIVAS PARA TRABALHOS FUTUROS ........................................................................................ 143
Perspectivas para trabalhos futuros ..................................................................... 148
4.17 - Esquema de funcionamento do sistema de reconhec imento facial. ..................... 96
4.18 - Relações métricas que mais variaram. ................................................................. 97
4.19 - Relações métricas que menos variaram. ............................................................... 98
5.1 - Curva de aprendizado usando relações métricas do Grupo1. ............................... 105
5.2 - Curva de aprendizado usando relações métricas do Grupo2. ............................... 107
5.3 - Curva de aprendizagem das métricas do Grupo5. ................................................ 111
5.4 - Curva de aprendizagem para padrões com baixa interferência de cabelo,
cavanhaque e barba (Grupo5.1). ...................................................................... 117
5.5 - Curva de aprendizagem das métricas do Grupo5.2. ............................................. 121
5.6 - Curva de aprendizagem das métricas do Grupo5.3. ............................................ 126
5.7 - Curva de aprendizagem dos 8 padrões da Classe 3. ............................................. 129
5.8 - Dificuldades de determinação do primeiro terço da face. ................................... 135
5.9 - Dificuldade de localização da região mentoniana, usada na determinação da altura
da face e do 3º terço facial. .................................................................................. 136
A1 – Iniciando novo projeto de rede neural..................................................................157 A.2 – Projeto XOR com as respectivas janelas de configuração...................................158 A.3 – Conteúdo do arquivo XOR.cf..............................................................................159 A.4 – Conteúdo do arquivo XOR.data..........................................................................160 A.5 – Conteúdo do arquivo XOR.data..........................................................................161 A.6 – Arquitetura da rede criada...................................................................................162 A.7 – Janela de parâmetros de treinamento da rede......................................................162 A.8 – Gráfico de evolução do erro médio quadrático....................................................163
LISTA DE TABELAS
Pág.
4-1 - Classificação facial segundo o índice facial apresentado..................................... 86
4-2 - Métricas das 22 faces do corpo de funcionários da açominas s.a ........................ 88
4-3 - Métricas das 15 faces do banco de faces da universidade de yale. ....................... 89
4-4a - Relações normalizadas dos 22 funcionários da açominas s.a. ............................ 94
4-4b - Relações normalizadas da 15 faces da universidade de yale. ............................. 95
5-1 - Distribuição das faces dentro das 5 classes. ....................................................... 102
5-2 - Relações métricas usadas para representar as faces. ......................................... 103
5-3 - Grupos de relações métricas usados no treinamento. ......................................... 104
5-4 - Resposta da rede aos padrões usados no treinamento (usando o grupo1) ......... 106
5-5 - Resposta da rede a padrões totalmente desconhecidos (usando o grupo1) ........ 106
5-6 - Comparação entre o acréscimo de 1 relação específica no vetor de identificação
(grupo2 x grupo3 x grupo4). ............................................................................... 108
5-7 - Resposta da rede aos padrões usados no treinamento (usando o grupo5) ......... 112
5-8 - Resposta da rede a padrões totalmente desconhecidos (usando o grupo5) ........ 113
5-9 - Resposta da rede a padrões conhecidos acrescidos de ruído (usando o grupo5)115
5-10 - Resposta da rede aos padrões usados no treinamento (usando o grupo5.1) .... 118
5-11 - Resposta da rede a padrões totalmente desconhecidos (usando o grupo5.1). .. 119
5-12 - Resposta da rede a padrões conhecidos acrescidos de ruído (usando o grupo5.1).
5-21 - Resultados obtidos para as outras 4 classes (etapa 2 de reconhecimento)....... 132
21
CAPÍTULO 1
INTRODUÇÃO
O reconhecimento de faces é uma das ações mais corriqueiras no dia a dia de um ser vivo
inteligente. Esta atividade executada com tanta naturalidade por organismos vivos, tem
despertado o interesse de pesquisadores que trabalham com Visão Computacional e
Inteligência Artificial.
O intuito desses pesquisadores é construir sistemas artificiais que sejam aptos a realizar o
reconhecimento de faces humanas a fim de empregar esta capacidade nas mais diversas
atividades, como por exemplo: sistemas de vigilância, controles de acesso, definições
automáticas de perfis, entre outras. Pesquisas também vêm sendo desenvolvidas por
cientistas da computação no campo de reconhecimento de expressões faciais, para o
emprego em interfaces homem x máquina. Sistemas capazes de interpretar expressões de
raiva, tristeza ou alegria de seus usuários teriam grande aplicabilidade nos estudos de
interação Homem x Computador (Tian et al., 2001).
Devido à grande variedade existente de rostos humanos é muito difícil realizar um
casamento perfeito de padrões para o efetivo reconhecimento de um rosto, seguindo a
metodologia clássica usada em reconhecimento de padrões. Dificuldades como as
transformações a que um rosto pode estar sujeito, (óculos, maquiagem, barba, bigode, etc.)
interferem na confiabilidade das respostas dadas. A solução (Manjunath et al., 1992) para o
problema de reconhecimento de rostos pode englobar desde uma correlação simples de um
modelo facial versus o rosto em questão, até sofisticados sistemas baseados em
características.
A fim de solucionar esses problemas, o processo de Visão Computacional se divide em
etapas distintas, conforme ilustrado nas figuras 1.1 e 1.2 (Marr, 1982).
22
FIGURA 1.1 - Etapas iniciais do processo de Visão Computacional, obtendo como resultado parcial uma imagem contendo o objeto de interesse do sistema. FONTE: Oliveira (1997), p. 1.
No esquema mostrado na Figura 1.1, a aquisição da imagem pode ser feita usando-se um
scanner ou uma câmera. A imagem adquirida pode ser submetida a um pré-processamento,
através de técnicas de Processamento Digital de Imagens, (Fu et al., 1987) (Gonzalez e
Wintz, 1992) com a finalidade de filtrar ruídos, ajustar níveis de iluminação, entre outros
detalhes. A etapa de segmentação visa localizar os objetos e pontos relevantes presentes na
imagem, selecionando-se estas regiões de interesse. A partir da aquisição destas regiões,
passa-se a trabalhar de forma comum aos problemas clássicos de reconhecimento de
padrões, como mostra a Figura1.2.
FIGURA 1.2 - Etapas finais do processo de Visão Computacional. FONTE: Oliveira (1997), p. 2.
Após a etapa de segmentação tem-se a imagem do objeto, necessitando-se então da
determinação dos critérios para sua descrição de forma representativa. É preciso definir
quais as métricas e as relações entre elas, para que seja possível identificar o objeto.
Finda a etapa de descrição, o objeto é codificado em um vetor numérico denominado de
padrão ou vetor de características. Estes padrões, representando o objeto em questão, são
Imagem
Imagem
Aquisição Pré-processamento Segmentação
Objeto
Descrição Reconhecimento
Objeto
Padrão
Resposta
23
analisados um a um por um algoritmo de reconhecimento, que os separará em grupos
seguindo um determinado critério especial, definido na fase de descrição.
A última etapa do processo responde se o objeto em questão – um rosto humano por
exemplo – foi reconhecido ou não pelo sistema, e ainda qual a sua classificação em relação
aos objetos de mesma natureza.
1.1. A Detecção de Faces
Segundo (Sung et al., 1994), o reconhecimento de faces está diretamente relacionado à
detecção de tais objetos dentro das imagens apresentadas como entrada de um sistema
reconhecedor. Uma primeira etapa para um reconhecedor automático de faces é portanto a
detecção da presença de um rosto na imagem e, a partir daí, a comparação de tal rosto com
os modelos conhecidos pelo sistema.
Do ponto de vista acadêmico, a detecção de rostos é interessante devido ao desafio
representado por essa classe de objetos naturalmente estruturados, mas ligeiramente
deformáveis. Há muitas outras classes de objetos e fenômenos no mundo real que
compartilham de características similares às do rosto, como por exemplo as diferentes
grafias manuais e impressas da letra “A“, anomalias de um tumor em uma imagem MRI
(Interpretação por Ressonância Magnética) e defeitos de materiais em uma linha de
produção industrial.
Portanto, avanços obtidos em estudos de detecção de rostos podem ser aplicados em outras
atividades afins.
Segundo (Ben-Yacoub et al., 1999) a confiabilidade e o tempo de resposta de um sistema
de detecção de rostos influencia diretamente no desempenho e emprego desse sistema.
Pode-se definir a detecção de rostos, de acordo com (Sung et al., 1994), como a
determinação da existência ou não de um rosto na imagem e uma vez encontrado este
24
objeto, sua localização deve ser apontada através de um enquadramento ou retornando as
suas coordenadas dentro da imagem.
Sung et al. (1994) afirma ainda que a detecção de rostos é dificultada por três principais
razões enumeradas a seguir.
A primeira dessas razões afirma que embora a maioria dos rostos apresente estruturas
semelhantes, com as mesmas características faciais básicas (olhos, boca, nariz,
sobrancelhas, etc) e dispostas aproximadamente nas mesmas configurações de espaço, pode
haver um grande número de componentes não rígidos e texturas diferentes entre as faces.
Estes elementos de variabilidade são resultantes das diferenças básicas entre os rostos
humanos – pessoas podem apresentar o nariz mais adunco que outras, lábios mais ou menos
carnudos, olhos mais ou menos “puxados” etc. Outros fatores relevantes são as
flexibilizações causadas no rosto pelas expressões faciais.
O segundo ponto que dificulta a detecção de faces está relacionado com a presença de
adornos, como óculos ou bigodes, os quais podem estar presentes ou totalmente ausentes
em uma face. Estes adornos podem, quando presentes, ocultar características faciais básicas
importantes à detecção do rosto através do surgimento de sombras ou reflexos.
A terceira dificuldade na detecção de faces é a não previsibilidade das condições da
imagem em ambientes sem restrições de iluminação, cores e objetos de fundo. Devido ao
fato das faces apresentarem estruturas tridimensionais, a mudança na distribuição de fontes
de luz pode criar ou esconder sombras na face, resultando em uma variabilidade maior que
as manipuláveis em imagens bidimensionais.
Para tratar os problemas relacionados às dificuldades de detecção de faces, basicamente
existem três abordagens principais: (1) o uso da correlação das imagens capturadas com
modelos pré-existentes, (2) modelos deformáveis e (3) imagens espaciais invariantes.
25
Na correlação entre imagens e modelos fixos trabalha-se com o “casamento de filtros”
(matched filters). Nessa abordagem, registra-se a diferença medida entre um modelo
padrão fixo e a parte avaliada da imagem candidata naquele instante. O resultado da
convolução é a diferença entre o fragmento avaliado e o padrão. Quanto menor essa
diferença, maior a probabilidade da imagem candidata corresponder ao padrão procurado.
A suposição adotada por essa abordagem é de que o grau de elementos não rígidos de sub-
características da face (olhos, nariz, boca entre outros) seja pequeno o suficiente, a ponto de
ser descrito de forma adequada por poucos modelos fixos. Num estágio posterior, a técnica
infere a presença de faces analisando as inter-relações entre as sub-características
encontradas.
A abordagem de modelos deformáveis é similar, em princípio, à abordagem clássica de
correlação de modelos, exceto pelo fato de se comparar formas com componentes não-
rígidos. Esta abordagem (Yuille et al., 1992) faz uso de curvas e superfícies parametrizadas
para modelar os elementos não rígidos da face além de sub-características como olhos,
nariz e lábios. De acordo com (Sung et al., 1994) as curvas parametrizadas e superfícies são
fixadas elasticamente em um modelo global, permitindo uma menor variação posicional
entre as características faciais. O processo de combinação tenta alinhar o modelo com uma
ou mais partes da imagem pré-processada, como por exemplo os picos, vales ou bordas.
As premissas adotadas pela abordagem de imagens invariantes assumem que embora as
faces possam apresentar grandes variações na aparência, devido a diferentes razões, há
algumas relações espaciais comuns nestas imagens, possivelmente únicas para todos os
padrões de face. Um esquema baseado nesta abordagem observa um conjunto de brilhos
invariantes existentes entre as diferentes partes da face (Sinha, , 1994). Também nota-se
que enquanto a iluminação e outras mudanças podem alterar significativamente o nível de
brilho em diferentes partes da face, a estrutura ordinal local de distribuição de brilho
permanece praticamente sem modificações. Por exemplo, a região dos olhos de uma face
26
está quase sempre mais escura que a região das bochechas e da testa, exceto sob certas
condições particulares de iluminação.
Para a localização de uma face usando essa abordagem são avaliadas as partes claras e
escuras do modelo em comparação com a imagem candidata. Se todos os pares de regiões
claras e escuras entre os objetos comparados, bem como suas inter-relações coincidirem,
caracteriza-se então a presença de um rosto na imagem.
Esta dissertação de mestrado irá partir da premissa que há uma face na imagem estudada e
esta face está em posição bem definida dentro da imagem, evitando-se assim a etapa de
detecção. Entretanto, muitos dos conceitos e técnicas usadas para a detecção de uma face
dentro de uma imagem serão de grande importância para este trabalho, como será visto
mais à frente.
Para maiores detalhes sobre metodologias e abordagens para a detecção de rostos em
imagens seguem as referências (Lien et al., 2000), (Ben-Yacoub et al., 1999), (Han et al.,
1997), (Rowley et al., 1995), (Sung et al., 1994).
1.2. O Reconhecimento de Faces
O reconhecimento de faces é uma particularização (Oliveira, 1997) do problema geral de
reconhecimento de padrões. Portanto, pode ser ilustrado por um diagrama como o mostrado
na Figura 1.3.
FIGURA 1.3 - Etapas do problema de reconhecimento automático de faces.
FONTE: Oliveira (1997).
Face
Padrão
Reconhecimento Identificação Categorização
Descrição Reconhecimento
Resposta
27
Em geral a entrada do módulo de descrição é uma imagem de face na escala esperada,
tendo seus tons de cinza normalizados de acordo com um intervalo definido. Deste modo,
tem-se uma imagem de face contida em uma matriz de dimensões m x n, contendo os
valores de tons de cinza em cada pixel. Usando essa representação da face, forma-se um
vetor v de comprimento L definido como sendo L = mn. Tal vetor v contém os valores dos
pixels da imagem.
Uma coleção de faces, onde cada uma delas é representada por meio de um vetor, formará
o conjunto de faces que deverá ser reconhecido pelo sistema. A esse conjunto, dá-se o
nome de conjunto de treinamento, sendo aqui representado por TΦ . Dessa forma, para se
identificar N faces diferentes, o conjunto TΦ de vetores v deve ser o seguinte:
{ }NT vvvv ,...,,, 321=Φ (1.1)
O sistema de reconhecimento deverá passar por uma etapa de treinamento, usando o
conjunto TΦ . Um outro conjunto T'Φ deve ser definido, contendo representações de faces
conhecidas e desconhecidas para o sistema. Tal conjunto será usado na etapa de validação
do sistema de reconhecimento, que responderá sobre as novas faces apresentadas.
{ }NT vvvvvvv ...,,,,,, '33
'22
'11
' =Φ (1.2)
O tipo de resposta esperada do sistema de reconhecimento pode variar de acordo com a
aplicação. Pode-se verificar se a pessoa, cuja face v1’ se encontra no conjuto T'Φ , é
reconhecida pelo sistema (Oliveira, 1997). Pode-se listar dentro das imagens pertencentes
ao conjunto de treinamento as que mais se assemelham com a imagem apresentada. É
possível ainda retornar o nome associado à face representada pelo vetor v1’, indicar o seu
sexo, sua raça ou expressão facial.
28
Portanto, segundo (Oliveira, 1997) pode-se dividir as possíveis respostas do sistema de
reconhecimento automático em três tipos: o reconhecimento propriamente dito, a
identificação e a categorização de faces.
O reconhecimento consiste em confirmar se uma imagem de face é conhecida pelo sistema.
Não é necessário realizar a ligação da face a um nome e sim atribuir- lhe uma classificação:
conhecida ou desconhecida.
A identificação deve realizar o reconhecimento e associar uma identidade à face
apresentada.
Já a categorização, compreende as tarefas de identificação de sexo, raça ou estado
emocional da imagem apresentada. Ela pode também ser aplicada na definição de qual o
tipo facial a face se encaixa, segundo um padrão de estética adotado.
Nesta dissertação de mestrado serão abordadas as atividades de reconhecimento e
identificação de faces, como está descrito nos capítulos 4 e 5.
O próximo tópico trata de uma das metodologias aplicadas ao reconhecimento facial usadas
nesta dissertação.
1.3. Métodos Geométricos para Reconhecimento Facial
A primeira tentativa reportada de automatização do reconhecimento de faces, conforme
(Oliveira, 1997), foi realizado por W. Bledsoe na década de 60. Inicialmente, em (Chan e
Bledsoe, 1965) e mais tarde em (Bledsoe, 1966), onde é descrito um sistema semi-
automático de reconhecimento de faces. Bledsoe usou marcações feitas à mão em
fotografias indicando cantos dos olhos, boca e queixo. Após a extração dessas
características o vetor de medidas era submetido a um algoritmo de classificação numérica.
Um dos objetivos deste trabalho é substituir o uso desse algoritmo de classificação
numérica por uma ferramenta inteligente, aqui representada pelas redes neurais. O uso de
29
métodos inteligentes visa tornar o sistema de reconhecimento capaz de absorver pequenas
variações ocorridas no momento da coleta de medidas faciais. Espera-se portanto que o
sistema aqui proposto seja mais robusto a falhas e responda de forma mais confiável, pois
estarão sendo combinadas as vantagens dos métodos geométricos (robustez a variação de
iluminação e escala por exemplo) e as características das redes neurais (não linearidade,
mapeamento de entrada e saída, adaptabilidade, tolerância a falhas, capacidade de
generalização, entre outras). Uma tentativa de padronizar as características que deveriam
ser extraídas de uma imagem de face para seu reconhecimento, foi realizada por uma
equipe dos Laboratórios Bell e apresentada em (Goldstein et al., 1971). Porém, o vetor de
características definido por eles para identificar uma face era baseado em parâmetros como
por exemplo tamanho dos lábios e das orelhas, além de outras características não
geométricas e bastante subjetivas como a tonalidade do cabelo.
Ainda na década de 70, (Kanade, 1973) automatizou completamente a etapa de descrição
facial. Usando um robusto detector de características (construído a partir de módulos
simples usados dentro de uma estratégia “backtracking”), um vetor de 16 características
geométricas foi extraído de uma imagem de face binarizada. Análises de variações dentro
de uma mesma classe e entre classes diferentes de informações revelaram que alguns
parâmetros eram menos eficientes que outros, reduzindo assim a dimensionalidade do
vetor. Tal método chegou a atingir 75% de acerto no reconhecimento facial em uma base de
dados formada por 20 faces diferentes. Foram usadas duas imagens por pessoa, sendo a
primeira imagem a referência inicial e a segunda usada para teste. Já na década de 90, o
trabalho de (Kanade, 1973) foi revisto por (Brunelli e Poggio, 1991).
Brunelli e Poggio (1991) usaram o trabalho de Kanade como base para suas pesquisas. Os
procedimentos computacionais usados por eles não seguiram todo o rigor do trabalho de
Kanade, mas a base de dados usada por Brunelli e Poggio foi mais abrangente em termos
de diversidade de faces, pois o banco de faces era composto por 47 pessoas.
30
Foram usadas quatro instâncias para representar cada pessoa. As características usadas para
representar a face levavam em conta a simetria existente na face humana. O vetor era
composto por 35 medidas referentes aos olhos, sobrancelhas, nariz, boca, queixo e formato
da face.
Os diferentes métodos geométricos chegaram a atingir taxas de acerto de 90% para um
conjunto fixo e não muito grande de faces, segundo o levantamento realizado por (Oliveira,
1997). Entretanto, em muitos casos não era avaliada a capacidade do sistema de identificar
imagens ainda não vistas de faces conhecidas, pois as imagens empregadas na avaliação do
sistema eram as mesmas utilizadas na etapa de construção.
Os trabalhos do grupo de Vicki Bruce (Bruce et al., 1993), (Burton et al., 1993) e (Bruce e
Humphreys, 1994) tratam dos fundamentos psicológicos de utilizar uma abordagem
geométrica para o reconhecimento facial. Após rever a literatura sobre reconhecimento de
objetos e de faces, Bruce sugere diferenças básicas entre o processo humano de
reconhecimento de faces e o reconhecimento de objetos em geral. Afirma-se que a
identificação de objetos é baseada em suas partes e fortemente fundamentada na análise de
arestas, enquanto o reconhecimento de faces parece ser resultado de uma análise mais
global das formas e fundamentado em informações de textura (Bruce e Humphreys, 1994).
A partir de experiências, afirma-se em Bruce e Humphreys(1994) que as codificações feitas
pelo ser humano, relativas a objetos e faces, são processadas em áreas diferentes e de
maneiras diferentes no córtex cerebral. Estas descobertas levaram às abordagens baseadas
em características que trabalham com estruturas existentes no córtex visual. A abordagem
baseada em características pode fazer uso de "Wavelets" , em especial as "“Wavelets de
Gabor” para a extração dessas características e ainda usa uma arquitetura de grafos (grafos
topológicos, grafos elásticos, etc) para a representação da face, como pode ser visto em
(Manjunath, 1992), (Wiskott et al., 1996) dentro de aplicações voltadas para o
reconhecimento de faces e em (Lyons et al, 1998), (Lyons et al, 2000) no reconhecimento
de expressões faciais.
31
Esta dissertação também tem por objetivo principal explorar as métricas faciais tomando
por base os estudos anatômicos relacionados com a odontologia, reconstituição maxilo-
facial e fonoaudiologia, visando o reconhecimento de faces humanas. Os trabalhos
estudados até então para a confecção desta dissertação apresentam medidas características
da face, tomadas a partir de pontos faciais muitas vezes subjetivos, não havendo uma
padronização de quais são realmente as medidas relevantes para o discernimento de rostos.
Não se estabelece também ligações de tais medidas com sexo e raça do modelo.
Procura-se também neste trabalho, analisar a viabilidade de uma abordagemque faça uso de
uma metodologia antiga, como é o caso dos métodos geométricos, combinado a novas
tendências como as redes neurais artificiais.
1.4. Objetivos desta Dissertação
Conforme já mencionado no sub-tópico 1.1, esta dissertação irá partir da premissa que há
uma face na imagem estudada e esta face está em posição bem definida dentro da imagem,
evitando-se assim a etapa de detecção.
O objetivo principal desta dissertação é demonstrar a viabilidade de um sistema de
reconhecimento facial, usando uma rede neural multicamadas, tendo como entrada um
vetor composto pelas relações métricas entre componentes e regiões da face. Tais relações
métricas são obtidas com base no estudo da anatomia facial, usando as mesmas referências
e pontos chaves utilizados em ortodontia, fonoaudiologia e reconstituição maxilo-facial.
Os alvos de estudo deste trabalho podem ser listados como se segue:
• Verificar as dificuldades existentes na extração de características faciais
relevantes à tarefa de reconhecimento, buscando-se uma forma de orientar ou
alertar para a escolha correta das métricas mais aptas para esta tarefa.
32
• Explorar as métricas faciais tomando por base os estudos anatômicos relacionados
com a odontologia e fonoaudiologia, visando o reconhecimento de faces humanas.
• Verificar a viabilidade de substituir, em um sistema de reconhecimento facial, o
uso de algoritmos de classificação numérica por uma ferramenta inteligente, aqui
representada pelas redes neurais, buscando um sistema mais robusto a variações
causadas por expressões faciais diferentes ou mesmo causadas por ruídos durante
a etapa de coleta de dados.
• Analisar a viabilidade de uma abordagem que mescle uma metodologia antiga,
como os métodos geométricos, a novas tendências como as redes neurais
artificiais.
1.5. Aplicações
Embora o reconhecimento de rostos familiares, ou a identificação de semelhanças entre
fisionomias faciais, seja uma tarefa realizada pelos seres vivos inteligentes com certa
tranqüilidade e exatidão, o processo para a realização dessa tarefa ainda não é
completamente compreendido.
Estudos foram realizados descobrindo-se que partes do cérebro são usadas no
reconhecimento de faces. Porém, tais estudos não respondem como essas faces são
representadas internamente dentro de um cérebro. Não respondem também a questões
relativas a que partes da face são essenciais para o seu reconhecimento; qual o motivo para
haver tanta confusão por parte dos ocidentais em diferenciar faces de orientais; que
características e padrões exatos atribuem uma estética agradável a um rosto.
Apenas responder a estes questionamentos já seria uma boa aplicação para um estudo sobre
faces humanas e reconhecimento facial. Porém, há outros motivos para se realizar pesquisas
sobre o reconhecimento de faces e sobre as características relacionadas ao rosto humano.
33
O uso de sistemas de reconhecimento facial aplicado ao controle de acessos, ou na busca de
pessoas suspeitas em um grupo, é de grande aplicabilidade por se tratar de uma forma
menos invasiva, comparando-se a métodos como o scan de retina ou verificação de
impressões digitais. Mesmo que tais sistemas de reconhecimento baseados em faces não
sejam absolutamente infalíveis, até o momento, sempre é possível solicitar o auxílio
humano para validar a decisão ou classificação no reconhecimento de um rosto. Tal
situação seria inviável para um exame de retina.
A iteração homem X máquina também seria privilegiada por sistemas que reconhecessem
faces. Poder-se-ia definir perfis de usuários apenas identificando sua face. Atitudes
diferentes poderiam ser tomadas para determinados usuários, tendo em vista uma estimativa
de sua idade, expressão facial de raiva ou dor, ou ainda sabendo seu sexo.
A seguir será descrito como está organizada esta dissertação.
1.6. Organização
Esta dissertação está dividida em 6 partes, da seguinte forma.
O Capítulo 2 apresenta uma explanação sobre redes neurais e sobre seu uso na tarefa de
reconhecimento facial. É mostrada uma implementação realizada por (Oliveira, 1994)
usando redes neurais artificiais não lineares, com extração implícita de características úteis
ao reconhecimento facial.
No Capítulo 3 introduz-se os conceitos de morfologia facial, usados para a determinação
dos pontos chaves localizados na face. Tais referências são empregadas na criação dos
vetores caraterísticos de cada face. Neste capítulo são mostrados em detalhes a arquitetura
óssea da face, características referentes a pontos específicos do esqueleto facial,
interferência do esqueleto facial com a forma apresentada pelo rosto, além da forma de
obtenção das métricas usadas neste trabalho.
34
O Capítulo 4 descreve a metodologia utilizada para a extração das características da face, as
métricas obtidas através desta metodologia, bem como a estrutura e funcionamento
interligado das redes neurais usadas para o reconhecimento facial.
No Capítulo 5 são apresentados os resultados e a metodologia usada nos testes, incluindo os
parâmetros da rede e ruídos inseridos nos padrões de entrada para a realização dos testes.
Finalmente, são apresentadas as conclusões e perspectivas para trabalhos futuros.
35
CAPÍTULO 2
MÉTODOS CONEXIONISTAS NÃO LINEARES
As expressões faciais são os mais poderosos, naturais e imediatos meios para os seres
humanos comunicarem suas emoções e intenções. Freqüentemente as emoções são
expressas pela face antes mesmo de serem verbalizadas (Tian et al, 2001). Muitos trabalho
(Lien et al., 2000), (Tian et al., 2000a), (Bartlett et al., 1999), (Cohn et al., 1999), (Donato
et al., 1999), (Fukui e Yamaguchi, 1998), (Black e Yacoob, 1995), têm sido desenvolvidos
buscando construir sistemas computacionais capazes de compreender e usar esta forma
natural de comunicação.
Embora as expressões faciais sejam úteis e de grande interesse para a área de interação
homem x máquina, sob o ponto de vista do reconhecimento facial, elas formam um grande
obstáculo. Juntamente com as variações de iluminação, posição da face, escala, tamanho e
orientação da cabeça, as expressões faciais tornam extremamente complexa a tarefa do
reconhecimento facial. Graças a estas particularidades, uma mesma face pode ser
considerada completamente diferente para um sistema automático de reconhecimento.
Como uma tentativa de contornar, ou pelo menos minimizar, estas influências são usadas
neste trabalho as redes neurais artificiais, buscando usar sua capacidade de generalização,
dentre outras habilidades, para efetuar um reconhecimento facial eficiente.
O presente Capítulo faz uma descrição sobre os métodos conexionistas, especificamente
sobre redes neurais artificiais, descrevendo seus componentes, exemplificando possíveis
arquiteturas e também descrevendo o funcionamento de uma rede multicamadas. Também é
descrita aqui uma implementação realizada por (Oliveira, 1994) de um reconhecedor neural
de faces.
36
2.1. Redes Neurais Artificiais
(Oliveira, 1997) afirma que a partir da década de 80, os modelos conexionistas passaram a
ser uma ferramenta comum para a solução de problemas em diversos campos, sendo
principalmente representados pelas redes neurais artificiais não- lineares.
Este sub-tópico apresentará a descrição básica do funcionamento de uma rede neural,
mostrando vantagens e desvantagens do uso de métodos generalistas. Apresentará também
um modelo neural usado por (Oliveira, 1994) na solução do problema de reconhecimento
automático de faces.
2.1.1. Introdução
As Redes Neurais Artificiais representam uma tecnologia que possui raízes em muitas
disciplinas: neurociência, matemática, estatística, física, ciência da computação e
engenharia. (Haykin, 20011)
Uma rede neural artificial é um modelo computacional capaz de, entre outras funções,
armazenar, classificar padrões, realizar interpolação de funções não- lineares e apresentar
soluções heurísticas para problemas de otimização. Isso é conseguido através de um
processo denominado aprendizado. O aprendizado pode ser representado pela Figura 2.1,
onde o ambiente fornece alguma informação para um elemento de aprendizagem.
FIGURA 2.1 – Modelo simples de aprendizagem de máquina. FONTE: Haykin (2001), p. 61.
Ambiente
Elemento de aprendizagem
Base de conhecimento
Elemento de desempenho
37
O elemento de aprendizagem utiliza, então, esta informação para aperfeiçoar a base de
conhecimento, e finalmente o elemento de desempenho utiliza a base de conhecimento para
executar a sua tarefa. Normalmente, a informação que o ambiente fornece para a máquina é
imperfeita, resultando que o elemento de desempenho não sabe previamente como
preencher os detalhes ausentes ou ignorar os detalhes que não são importantes. Portanto, a
máquina opera inicialmente por suposição e depois recebe alimentação do elemento de
desempenho. O mecanismo de realimentação permite que a máquina avalie suas hipóteses e
as revise, se necessário (Haykin, 2001).
A aprendizagem de máquina envolve dois tipos bastante diferentes de processamento de
informação: o indutivo e o dedutivo. No processamento de informação indutivo, padrões
gerais e regras são determinados a partir dos dados brutos e da experiência. Por outro lado,
no processamento de informação dedutivo são utilizadas regras gerais para determinar fatos
específicos. A aprendizagem baseada em similaridade utiliza indução, enquanto que a
prova de um teorema é uma dedução baseada em axiomas conhecidos e em outros teoremas
existentes. A aprendizagem baseada em explanação utiliza tanto a indução quanto a
dedução (Haykin, 2001).
2.1.2. Definições
A operação realizada por uma rede neural é feita através de uma associação de elementos
de processamento e conexões. O elemento básico de um processamento de uma rede neural
é chamado de neurônio, ou nodo. A Figura 2.2 (Haykin, 2001) mostra o diagrama básico do
funcionamento de um neurônio artificial.
38
FIGURA 2.2 - Modelo não linear de um neurônio artificial. FONTE: Adaptado de Haykin (2001), p. 36.
Um neurônio é uma unidade de processamento de informação que é fundamental para a
operação de uma rede neural. Na Figura 2.2 pode-se identificar três elementos básicos do
modelo neuronal (Haykin, 2001):
1) Um conjunto de sinapses ou elos de conexão, cada uma caracterizada por um
peso ou força própria. Especificamente, um sinal xj na entrada da sinapse j
conectada ao neurônio k é multiplicado pelo peso sináptico Wkj. É importante
notar a maneira como são escritos os índices do peso sináptico Wkj. O primeiro
índice se refere ao neurônio em questão e o segundo se refere ao terminal de
entrada da sinapse à qual o peso se refere. Ao contrário de uma sinapse do
cérebro, o peso sináptico de um neurônio artificial pode estar em um intervalo que
inclui valores negativos bem como positivos (Haykin, 2001).
Junção aditiva
Saída yk
( ).ϕ
Wk1
Wkm
.
.
.
Sinais de entrada .
.
.
Wk2
x1
x2
xm
Σ
Bias bk
Pesos sinápticos
Função de ativação
39
2) Um somador para somar os sinais de entrada, ponderados pelas respectivas
sinapses do neurônio; as operações descritas aqui constituem um combinador
linear (Haykin, 2001).
3) Uma função de ativação para restringir a amplitude da saída de um neurônio. A
função de ativação é também referida como função restritiva já que restringe
(limita) o intervalo permissível de amplitude do sinal de saída a um valor finito.
Tipicamente, o intervalo normalizado da amplitude da saída de um neurônio é
escrito como o intervalo unitário fechado [0, 1] ou alternativamente [-1, 1]
(Haykin, 2001).
O modelo neural da Figura 2.2 também inclui um bias aplicado externamente, representado
por bk. O bias bk tem o efeito de aumentar ou diminuir a entrada líquida da função de
ativação, dependendo se ele é positivo ou negativo, respectivamente.
Em termos matemáticos, podemos descrever um neurônio k escrevendo o seguinte par de
equações:
∑ ==
m
j jk jk xwu1 (2.1)
e
( )kkk buy += ϕ (2.2)
onde x1, x2, ..., xm são os sinais de entrada; wk1, wk2, ..., wkm são os pesos sinápticos do
neurônio k; uk é a saída do combinador linear devido aos sinais de entrada; bk é o bias;
( ).ϕ é a função de ativação; e yk é o sinal de saída do neurônio. O uso do bias bk tem o efeito
de aplicar uma transformação afim à saída uk do combinador linear no modelo da Figura
2.2, como mostrado por:
40
kkk buv += (2.3)
O sinal de entrada de um dado neurônio vem de um outro nodo da rede ou de fontes
externas. Esse sinal viaja através das conexões que alimentam os neurônios. Estes
neurônios (Oliveira, 1997) trabalham em paralelo, podendo ser configurados sob a forma de
diferentes arquiteturas.
Os neurônios estão quase sempre dispostos em camadas ou níveis, e a força de cada uma
das conexões que os interliga é expressa por um valor numérico chamado peso.
O “conhecimento” é adquirido pela rede a partir do seu ambiente, através de um processo
de aprendizagem (Haykin, 20011). O processo de aprendizagem nada mais é do que o
ajuste dos pesos sinápticos da rede, de forma ordenada durante a etapa de treinamento, até
que a rede esteja devidamente treinada.
O número de nodos e níveis da rede, além do modo como estes elementos estão dispostos e
conectados, determinam a topologia da rede neural. A definição da topologia de rede a ser
adotada deve estar diretamente ligada à natureza do problema a ser resolvido. Há várias
topologias de redes, cada qual com suas particularidades e aplicações. Alguns tipos destas
topologias são mostrados na Figura 2.3.
41
FIGURA 2.3 – Exemplo de topologias básicas de redes neurais: (a) rede neural feedforward de 1 camada; (b) rede neural feedforward de várias camadas; (c) nodo simples com retro-alimentação; (d) rede recorrente de camada simples; (e) rede recorrente de múltiplas camadas FONTE: adaptado de Lin, C.T. (1996), p. 211.
Outro ponto a ser definido, em se tratando de redes neurais, é o algoritmo a ser usado para
corrigir os pesos das conexões sinápticas. A esse algoritmo dá-se o nome de algoritmo de
treinamento. Assim, a cada rede neural é associada uma estrutura topológica pré-definida
além de um conjunto de técnicas usadas para o treinamento dessa rede. Na fase de
treinamento, os pesos são ajustados de forma a fazer com que a rede aprenda uma dada
tarefa.
Além das arquiteturas mostradas na Figura 2.2, podem ser citadas ainda as redes ANFIS
(Adaptative-Network-based-Fuzzy-Inference), ART (Adaptative Resonance Theory), redes
morfológicas, entre outras. Maiores detalhes sobre arquiteturas e critérios de treinamento de
redes neurais, além de um histórico evolutivo, podem ser encontradas em (Carpenter e
Pesquisadores com conhecimento em redes neurais artificiais não-lineares começaram a
estudar a possibilidade de aplicação das redes multicamadas não- lineares no tratamento de
faces (Oliveira, 1997). Em (Cottrell e Munro, 1988), afirma-se que assinalar imagens de
faces com diferentes expressões da mesma pessoa é um problema de separação não- linear.
Haykin, 2001As redes multicamadas possuem características importantes como capacidade
de classificação eficiente de padrões, sendo também robustas a entradas ruidosas ou
incompletas. Outra importante característica deste tipo de rede é sua boa generalização,
sendo capaz de realizar separações não- lineares no conjunto de dados.
Em Haykin (2001), diz-se que uma rede generaliza bem quando há um mapeamento de
entrada-saída computado de forma correta (ou aproximadamente correta) para dados de
teste não utilizados na criação ou treinamento da rede. O treinamento de uma rede
multicamadas é feito de forma supervisionada, geralmente por um algoritmo conhecido
como algoritmo de retropropagação do erro (error backpropagation). Este algoritmo é
baseado na regra de aprendizagem por correção do erro. Ao receber uma entrada, a rede é
instruída sobre como deve responder, e a diferença entre a resposta desejada e a obtida é
repassada à rede, servindo como regra de ajuste dos pesos.
A estrutura de uma rede multicamadas lembra a de um grafo bipartido, dirigido e com
pesos. As conexões ligam cada nodo de uma camada a todos os nodos da camada
imediatamente superior a ele, podendo-se ainda deixar alguns nodos sem conexão
caracterizando uma rede parcialmente conectada. As camadas são de três tipos, como pode
ser visto na Figura 2.3.
43
FIGURA 2.3 - Camadas de uma rede neural artificial multicamadas.
Camada de entrada : recebe os dados de entrada. Os nodos nesta camada não realizam
processamento local, pois apenas propagam os dados para os nodos da próxima camada.
Existe apenas uma única camada de entrada em uma rede multicamadas.
Camada de saída : contém a resposta da rede. Após a entrada ser propagada e processada,
os valores de ativação dos nodos desta camada representam a resposta da rede. Assim como
a camada de entrada, a camada de saída é sempre única.
Camada oculta: são as camadas situadas entre as camadas de entrada e de saída. Podem
existir várias camadas ocultas. Em Haykin (2001), afirma-se que para determinados
problemas, como aproximação de funções, é útil o uso de duas camadas ocultas. A primeira
camada oculta se encarrega da extração de características locais enquanto a segunda
camada extrai as características globais. Dessa forma, usando-se duas camadas, o processo
de aproximação (ajuste da curva) se torna mais gerenciável.
Os tamanhos das camadas de entrada e saída são estabelecidos de acordo com as
características do problema a ser tratado. Já o número de nodos das camadas ocultas é
determinado por experiência, dependendo da complexidade do problema (Oliveira, 1997).
Camada de
entrada
Camada
de Saída.
Camada oculta.
44
2.2.1. O processo de aprendizado
A propriedade que é de importância primordial para uma rede neural é a sua habilidade de
aprender a partir de seu ambiente e de melhorar o seu desempenho através de
aprendizagem. A melhoria do desempenho ocorre com o tempo de acordo com alguma
medida preestabelecida. Uma rede neural aprende acerca do seu ambiente através de um
processo interativo de ajustes aplicados a seus pesos sinápticos e níveis de bias. Idealmente,
a rede se torna mais instruída sobre o seu ambiente após cada iteração do processo de
aprendizagem (Haykin, 2001).
Há atividades demais associadas à noção de “aprendizagem” para justificar a sua definição
de forma precisa (Haykin, 2001). Uma definição de aprendizagem segundo o contexto de
redes neurais, adaptada de Mendel e McClarem (1970) é feita a seguir:
“Aprendizagem é um processo pelo qual os parâmetros livres de uma rede neural são
adaptados através de um processo de estimulação pelo ambiente no qual a rede está
inserida. O tipo de aprendizagem é determinado pela maneira pela qual a modificação dos
parâmetros ocorre.”
A definição do processo de aprendizagem implica nos seguintes eventos (Haykin, 2001):
1) A rede neural é estimulada por um ambiente;
2) A rede neural sofre modificações nos seus parâmetros livres como resultado desta estimulação;
3) A rede neural responde de uma maneira nova ao ambiente, devido às modificações ocorridas na sua estrutura interna.
Um conjunto bem estabelecido de regras bem-definidas para a solução de um problema de
aprendizagem é denominado um algoritmo de aprendizagem. Não há um algoritmo único
para o projeto de redes neurais. Basicamente, os algoritmos de aprendizagem diferem entre
si pela forma como é definido o ajuste de um peso sináptico de um neurônio.
45
Em Haykin (2001) são descritas 5 regras de aprendizagem (aprendizado por correção de
erro, aprendizagem baseada em memória, aprendizagem hebbiana, aprendizagem
competitiva e aprendizagem de Boltzmann) básicas para o projeto de redes neurais. Cada
uma das regras citadas tem aplicação mais eficaz em uma determinada tarefa.
Um outro fator a ser considerado é a maneira pela qual uma rede neural, constituída de um
conjunto de neurônios interligados, se relaciona com o seu ambiente. Haykin (2001) explica
dois paradigmas de aprendizado: aprendizado supervisionado e aprendizado não-
supervisionado. A escolha de um ou outro método tem ligação direta à natureza do
problema que se deseja resolver.
Em alguns casos (como heteroassociação, classificação de padrões, reconhecimento de
padrões entre outros) usa-se o paradigma de aprendizagem supervisionada (ou
aprendizagem com um professor). Conceitualmente pode-se considerar o “professor” como
sendo um elemento com um conhecimento sobre o ambiente, sendo este conhecimento
representado por um conjunto de exemplos de entrada-saída. Entretanto o ambiente é
desconhecido pela rede neural de interesse. Portanto, no primeiro passo o professor e a rede
neural são expostos a um vetor de treinamento (i.e., exemplo) retirado do ambiente. Em
virtude do conhecimento prévio apresentado pelo “professor”, ele é capaz de fornecer à
rede uma resposta desejada para aquele vetor de treinamento. Na verdade, a resposta
desejada representa a ação ótima a ser realizada pela rede neural. Os parâmetros da rede são
ajustados sob a influência combinada do vetor de treinamento e do sinal de erro. O sinal de
erro é definido como a diferença entre a resposta desejada e a resposta real da rede. Este
ajuste é realizado passo a passo, iterativamente, com o objetivo de fazer a rede neural
emular o professor (Haykin, 2001). Desta forma, o conhecimento do ambiente disponível
ao professor é transferido para a rede neural através de treinamento, da forma mais
completa possível. Quando esta condição é alcançada, pode-se então dispensar o
“professor” e deixar a rede neural lidar com o ambiente inteiramente por si mesma.
46
Já em outras situações (extração de características e autoassociação por exemplo) opta-se
pelo uso do aprendizado não-supervisionado. Na aprendizagem não-supervisionada ou
auto-organizada, não há um professor externo ou um crítico para supervisionar o processo
de aprendizado. Em vez disso, são fornecidas condições para realizar uma medida
independente da tarefa da qualidade de representação que a rede deve aprender, e os
parâmetros livres da rede são otimizados em relação a esta medida. Uma vez que a rede
tenha se ajustado às regularidades estatísticas dos dados de entrada, ela desenvolve a
habilidade de formar representações internas para codificar as características da entrada e,
desse modo, de criar automaticamente novas classes (Becker, 1991).
Maiores detalhes sobre os tipos de aprendizado, paradigmas, aplicações bem como
comparativos de desempenho, podem ser encontrados em (Haykin, 2001), (Randall e
Jatinder, 2000) e (Lin e Lee, 1996).
Esta dissertação fará uso do algoritmo de retropropagação do erro para realizar o
treinamento das redes neurais multicamadas, empregadas no reconhecimento facial. Este
algoritmo é baseado na regra de aprendizagem por correção do erro.
Basicamente, a aprendizagem por retropropagação do erro consiste de dois passos através
das diferentes camadas da rede: um passo para frente, a propagação, e um passo para trás, a
retropropagação. No passo para frente, um padrão de atividade (vetor de entrada) é
aplicado aos nós sensoriais da rede e seu efeito se propaga através da mesma. Durante o
passo de propagação, os pesos sinápticos da rede são todos fixos. Durante o passo para trás,
por outro lado, os pesos sinápticos são todos ajustados de acordo com uma regra de
correção de erro. Especificamente, a resposta real da rede é subtraída de uma resposta
desejada (alvo) para produzir um sinal de erro (Haykin, 2001). O objetivo do treinamento é
minimizar o erro médio quadrático entre a saída da rede e a resposta desejada (Zurada,
1992). Este sinal de erro é então propagado para trás através da rede, na direção oposta a
das conexões sinápticas. Os pesos sinápticos são ajustados para fazer com que a resposta
47
real da rede se mova para mais perto da resposta desejada, em um sentido estatístico
(Haykin, 2001).
O processo de aprendizagem realizado com o algoritmo é chamado de aprendizagem por
retropropagação. O próximo tópico ilustra uma implementação possível para um
reconhecedor neural de faces usando uma rede multicamadas treinada por retropropagação.
2.3. Implementando um Reconhecedor Neural
Uma imagem de face é um vetor if de P pixels, sendo que cada um destes pixels pode
apresentar um valor de tom de cinza entre 0 e t . Assim, cada imagem pode ser considerada
um vetor geométrico ifr
, em um espaço P-dimensional Pε , que compreende todas as Pt
imagens representáveis com t tons de cinza.
Como as faces são objetos semelhantes, com olhos, boca e nariz nas mesmas posições
relativas, afirma-se que a distribuição espacial de tons de cinza das imagens de faces faz
com que os vetores ifr
estejam concentrados em um sub-espaço muito menor que
Pε (Turk e Petland, 1991). Portanto, para se representar uma face, a fase de descrição
desta face deve implementar uma redução na dimensionalidade dos vetores ifr
, para uma
distribuição mais concentrada e eficiente.
Após a fase de descrição, cada imagem é codificada em um padrão iP de dimensões muito
menores que as dimensões das imagens originais. Esses padrões podem então ser
processados por um algoritmo de classificação ou agrupamento, que compreende a etapa de
reconhecimento.
Considerando-se então uma rede multicamada não- linear que, de posse de uma imagem if ,
consiga agir de maneira análoga a um compressor de dados. Isto pode ser feito treinando
48
uma rede de três níveis para repetir a imagem de entrada na camada de saída, passando por
uma camada oculta com um número de nodos consideravelmente menor que o número de
pixels da imagem. Se esta rede for capaz de reproduzir imagens de face com um desvio
pequeno, as informações contidas na camada oculta podem ser consideradas como uma
representação reduzida da face. Esta estrutura para compactação foi implementada por
(Oliveira, 1994) e obteve bons resultados comparados aos métodos tradicionais (Oliveira,
1997).
2.3.1. Etapa de Descrição
Uma rede como a mostrada na Figura 2.4 (Oliveira, 1997) treinada com o algoritmo de
retropropagação do erro é capaz de realizar a compactação citada, e pode ser usada para
implementar a etapa de descrição do processo de reconhecimento de faces.
FIGURA 2.4 - Topologia de rede multicamada para extração de características. Apesar de não mostrado na figura para melhor visualização, cada nodo é totalmente conectado com os nodos da camada seguinte. FONTE: Oliveira (1997), p. 29.
Imagem de entrada
Imagem de saída
49
Seja TΦ um conjunto de faces usadas para o treinamento da rede. O conjunto TΦ contém
imagens de face if de N pessoas diferentes, com i variando de 1 ao número total de
pessoas: N.
Para que os dados sejam tratados corretamente pela rede, é preciso que os valores
numéricos em TΦ sejam codificados de modo a não apresentarem uma ordem de grandeza
muito diferente da encontrada nas funções de ativação e dos pesos da rede. Esta modelagem
inicial é um processo que depende da topologia e do tipo de treinamento escolhido para a
rede, e não obedece a um procedimento específico.
No caso específico da aplicação proposta por (Oliveira, 1994), os padrões if apresentam
valores de tons de cinza entre 0 e t, onde t é usualmente igual a 127 ou 255. Sugere-se que
os valores de tons de cinza sejam mapeados de acordo com a imagem da função de ativação
utilizada, tornando os valores de ativação de todos os nodos da rede compreendidos em
uma mesma faixa.
A função sigmoidal escolhida para a rede implementada em (Oliveira, 1994) é mostrada na
equação 2.4, e portanto os tons de cinza originais – de 0 a 127 – foram mapeados em
valores entre 0 e 1. As imagens de face if possuíam dimensões de 64x64, portanto a rede
de compressão tinha 4.096 nodos na camada de saída e de entrada. Após vários testes, a
camada oculta foi fixada em 330 nodos. Os resultados obtidos na compressão podem se
encontrados com detalhes em (Oliveira, 1994).
( )θϕ −−+= ve
v1
1)( (2.4)
50
2.3.2. Etapa de Reconhecimento
A etapa de compactação das imagens de faces presentes no conjunto TΦ , funciona como
um extrator de características relevantes destas faces. Tais características ficaram
codificadas nos pesos da rede. De posse desta rede treinada (Oliveira, 1997) para realizar
compactação de imagens, ou seja, capaz de extrair as características aptas à diferenciação
entre as facesparte-se para a construção de uma rede para reconhecimento de padrões.
Assim, utiliza-se a informação codificada na camada oculta da rede de compressão como
entrada para um classificador.
Esse classificador é uma rede não linear de três camadas, assim como a utilizada para a
extração de características. Apesar disso, existem algumas mudanças na topologia:
• Camada de entrada possui um número de nodos igual ao número utilizado na
camada oculta da rede de extração de características.
• A camada de saída possui N nodos iο , onde i varia de 1 a N e onde N é o número
de pessoas distintas de TΦ .
• A camada oculta deve possuir um número de nodos necessário para a
convergência do treinamento, sendo N-1 uma sugestão para o número inicial de
nodos.
A rede de reconhecimento recebe como entrada os valores de ativação dos nodos da
camada oculta da rede de extração de características, cujos pesos já se encontram fixos após
o treinamento. Treina-se então a rede de reconhecimento através do algoritmo de
retropropagação para realizar a classificação dos padrões.
Cada nodo de saída iο é assinalado a uma pessoa cuja imagem está em TΦ . Assim, ao
receber uma imagem de teste fi, um dos nodos de saída iο deve responder com um valor de
51
ativação sensivelmente maior que os restantes. Quanto mais próximo de 1 for esse valor,
maior a probabilidade de que a pessoa da imagem de teste fi seja a mesma representada na
saída iο , onde i é o nodo com maior resposta.
Após o treinamento da rede de reconhecimento, pode-se construir uma rede única para
realizar a identificação das pessoas em TΦ . Para isso, mantêm-se fixos os pesos entre as
camadas de entrada e oculta da rede de descrição, e concatena-se à camada oculta a rede
treinada para o reconhecimento.
Uma abordagem similar foi proposta em (Bouattour et al., 1992), onde se descreve uma
rede cujos pesos das camadas ocultas são inicializados de modo a filtrar as informações de
entrada. Assim, ao invés da inicialização randômica, a rede implementa filtros conhecidos,
fazendo com que a fase de descrição seja mais robusta e menos sensível a diferenças na
iluminação.
2.4. Conclusões
A implementação do reconhecedor neural de faces mostrada no tópico anterior, usa uma
rede neural para realizar uma decodificação de um conjunto de valores compreendidos
entre 0 e 127, que representam a face da foto, em uma nova representação mais compacta.
Essa nova representação é composta pelos pesos sinápticos da rede neural, obtidos na etapa
de compressão de dados.
Fatores como variações de iluminação influenciam os pixels da imagem (valores
compreendidos entre 0 e 127 que representam a face). Porém, a rede neural, com sua
capacidade de generalização, consegue associar uma ent rada ruidosa (não exatamente igual
à entrada vista na etapa de treinamento) à respectiva saída desejada.
Outra variação que pode interferir no reconhecimento facial é a distância entre a câmera e a
face fotografada. Pode haver distorções na quantidade de pixels que representam um
52
determinado componente facial. Assim, um olho que antes era representado por 9 pixels
dispostos bidimensionalmente 3x3 sob uma determinada distância, pode vir a ser
representado por 4 pixels dispostos 2x2 se a face se aproxima da câmera.
A implementação descrita anteriormente transfere para a rede neural a tarefa de definir e
estruturar a representação da face. Perde-se dessa forma, a noção da importância ou não de
determinado componente ou região específica da face na tarefa de reconhecimento. Na
estrutura mostrada, tem-se uma visão global da face e a partir daí busca-se a representação
mais próxima da face analisada, comparando-se o resultado obtido pela rede com aqueles
conseguidos durante o treinamento.
O sistema híbrido inteligente aplicado ao reconhecimento facial proposto nesta dissertação,
visa mensurar o grau de participação de componentes e regiões da face na tarefa de
reconhecimento facial. O sistema híbrido tem como entrada as relações métricas de
componentes e regiões faciais. Cada conjunto de relações métricas representa uma face.
Dessa forma, busca-se um controle mais refinado de quais os componentes e regiões
realmente contribuem para o sucesso ou insucesso do reconhecimento.
O uso das relações métricas de componentes faciais também visa minimizar a interferência
da variação de distâncias entre câmera e face, bem como variações de iluminação.
53
CAPÍTULO 3
MORFOLOGIA DA FACE HUMANA
As medidas e relações métricas que são usadas nesse trabalho foram pesquisadas de forma
a se encontrar respaldo técnico e embasamento anatômico na obtenção de resultados e
conclusões. Dessa forma, torna-se necessário um conhecimento mínimo da anatomia
estrutural dos componentes faciais para o entendimento do problema e conseqüente
desenvolvimento da dissertação.
As considerações anatômicas expostas a seguir são de extrema importância para o
desenvolvimento desse trabalho, uma vez que elas interferem diretamente na formação
estética da face e podem ser decisivas na diferenciação entre rostos de pessoas distintas.
3.1. Introdução
Segundo (Graziani, 1986), a face tem a forma de uma pirâmide triangular com a base para
baixo que se adapta e articula com a superfície inferior do crânio. É formada por partes
ósseas e partes moles, onde as partes ósseas constituem um arcabouço – o esqueleto facial –
com a função de sustentar as partes moles que a ele se adaptam, formando as várias regiões
superficiais e profundas do rosto. Para se conhecer a face humana é necessário que se avalie
o seu esqueleto e suas partes moles.
Algumas partes do esqueleto facial e pontos importantes de referência craniométrica podem
ser analisadas sem a necessidade de uma radiografia (Graziani, 1986). São estas medidas e
referências, perceptíveis a olho nu, que interessam nesta dissertação, visto que não será
aplicada nenhuma técnica “invasiva” para obtenção das medidas faciais. Serão tomadas
somente as fotos frontais dos modelos a uma distância aproximadamente constante e sob
uma iluminação regular.
54
O esqueleto facial é a estrutura óssea de sustentação da face, formada por um conjunto de
catorze ossos. Esse conjunto é geralmente chamado “maciço facial”. Os ossos que o
compõem estão divididos em seis pares (maxilares superiores, nasais, lacrimais malares,
palatinos e cornetos) e dois ímpares (vômer e mandíbula).
O conjunto é dividido em duas partes, uma superior fixa e outra inferior móvel. A parte
inferior é constituída por um único osso, o maxilar inferior ou mandíbula. A parte superior
compreende todos os demais ossos, os quais se articulam entre si formando uma só peça
que em anatomia se denomina maxilar superior ou maxila.
Os tecidos moles revestem o esqueleto facial. As partes moles são constituídas pela pele,
tecido celular subcutâneo, camadas musculares correspondentes às diversas regiões da face,
vasos e nervos além das glândulas salivares. Uma membrana epitelial reveste internamente
as cavidades formadas entre os ossos (cavidade nasal, cavidade bucal) e as cavidades
existentes no interior dos ossos (seios da face).
Para a conveniênc ia do seu estudo anatômico, a face é dividida arbitrariamente em um
determinado número de regiões. Nos estudos relativos à prótese facial, também
aproveitáveis nos estudos desse trabalho, convém a divisão adotada por Harry Shapiro
mostrada na Figura 3.1 (Graziani, 1986):
1. regiões orbitária (ou palpebral);
2. infra-orbitária;
3. zigomática;
4. nasal;
5. bucal;
6. mentoniana;
7. bucinadora;
8. parotídeo-masseterina;
9. auricular;
10. temporal.
55
FIGURA 3.1 - Regiões da face. FONTE: (Graziani, 1986), p. 6.
Dos tecidos moles que recobrem o esqueleto facial, a pele é um dos mais importantes,
sob o enfoque de prótese restauradora e também sendo um importante tópico para os
estudos aqui realizados. Sob a pele estão situados os músculos da expressão facial, que
são relevantes na diferenciação entre pessoas, através de uma foto frontal. Estes
músculos ainda são úteis em aplicações que objetivem reconhecer expressões faciais.
A Morfologia Facial pode ser melhor estudada quando subdividida em 3 partes:
1) arquitetura do esqueleto facial;
2) antropometria;
3) estética facial.
Nos próximos tópicos a seguir estarão sendo detalhadas cada uma destas partes.
56
3.2. Arquitetura do Esqueleto Facial
O conjunto de quatorze ossos que formam o arcabouço da face constitui uma unidade
funcional, cujos elementos componentes não estão colocados casualmente uns ao lado
dos outros. Eles são dependentes de leis particulares internas e têm uma importante
conexão estrutural. Os ossos do esqueleto facial têm sua arquitetura adaptada às
exigências funcionais: as zonas sobre as quais atuam as maiores forças de pressão e
tração são justamente as mais reforçadas, sob o ponto de vista mecânico (Graziani,
1986).
Fatores como tipo de alimentação, hábitos alimentares e culturais das pessoas e ainda
fatores vinculados à etnia, podem ter influência no desenvolvimento exagerado ou
atrofia de estruturas do esqueleto facial, interferindo por sua vez na forma estética
apresentada pela face. O reforço estrutural, decorrente de tais fatores, pode ocorrer de
duas maneiras: pelo espessamento das lâminas compactas ou pelo espessamento e
condensação das trabéculas esponjosas que formam o esqueleto facial.
No conjunto esqueleto-facial podem ser observados elementos arquitetônicos dispostos
de forma a resistir à ação de poderosos músculos, sendo capazes de suportar as forças
exercidas durante a mastigação (Graziani, 1986). Tais estruturas podem ser
suficientemente desenvolvidas a ponto de caracterizar uma face de forma a diferenciá- la
de outra.
Podem ser verificadas importantes diferenças entre a arquitetura do maxilar superior e a
da mandíbula. Tais particularidades serão descritas a seguir.
Maxilar superior ou Maxila:
O maxilar superior, aqui considerando também os ossos do conjunto facial que se
agregam a ele, se articula com o conjunto crânio-facial por meio de uma série de
sinartroses dotadas de grande eficiência mecânica. Estas sinartroses permitem à maxila
resistir às forças exercidas pela a ação dos músculos mastigadores, além de distribuir
estas forças (Graziani, 1986). O exercício exagerado desses músculos, bem como a
57
ausência de estímulos, pode causar respectivamente hipertrofias ou atrofias que
influenciam no desenho facial. A observação do comportamento dessas estruturas pode
ser um importante diferencial para o discernimento entre pessoas e raças distintas.
Um exemplo de características ligadas a raças ou padrões comportamentais é o arco
supra-orbitário (estrutura 4 da Figura 3.2) super desenvolvidos em algumas raças
primitivas. Segundo (Graziani, 1986), o arco supra-orbitário, é constituído pela arcada
orbitária do frontal. Ele une cada pilar canino (estrutura 1 da Figura 3.2) com o pilar
zigomático (estrutura 2 da Figura 3.2) do respectivo lado. A borda supra-orbitária sofre
o contrachoque das forças da pressão mastigatória. O reforço de tecido compacto do
arco superciliar é uma conseqüência disso, explicando-se o maior desenvolvimento
desse arco em algumas raças humanas primitivas e nos antropóides, (torus supraorbitais)
cuja alimentação exigia maior pressão mastigatória.
FIGURA 3.2 - Arquitetura do esqueleto facial. 1: Pilar canino. 2: Pilar zigomático. 3:
Esses tipos de face são definidos através da criação de 2 linhas de referência na face,
delimitando-a em 3 regiões mostradas na Figura 3.9. A primeira das linhas deve passar
pela raiz do nariz e a segunda pela base do nariz.
Dividida dessa forma, a face passa a ter a parte superior, acima da linha traçada na raiz
do nariz, sendo chamada de cerebral, compreendendo o frontal ao nível dos lóbulos
anteriores do cérebro. O segmento médio, chamado de respiratório é constituído pela
zona do nariz e cavidades sinusais. O seguimento inferior é chamado de digestivo,
69
sendo compreendido pela região da boca, maxilares e arcadas dentárias. Os quatro tipos
de face podem ser vistos na Figura 3.9.
FIGURA 3.9 - Tipos morfológicos segundo a classificação de Claud Sigaud. FONTE: Graziani (1986), p. 13.
O tipo cerebral caracteriza-se pela predominância do segmento superior. A face
apresenta a forma de uma pirâmide invertida, resultando no maior volume do crânio,
sendo que seus contornos estão inscritos em um triângulo de cúspide inferior. É o
indivíduo de face oval alongada, a fronte larga e elevada. Sua maxila, seios maxilares,
boca e mandíbula são de pequenas dimensões.
O tipo respiratório caracteriza-se pela predominância do segmento médio. Nariz, fossas
nasais e cavidades sinusais volumosas, zigomas salientes. Espaço inter-ocular
aumentado, a fronte baixa e estreita. O seu segmento inferior também apresenta altura e
largura reduzidas.
No tipo digestivo a predominância é do segmento inferior. Boca grande, lábios grossos,
dentes largos, mandíbula larga, gônios salientes. Muitas vezes, apresenta prognatismo
70
mandibular. A fronte é estreita e baixa, os olhos quase sempre pequenos e as pálpebras
geralmente infiltradas por tecido adiposo. O segmento médio é de reduzidas proporções.
A face apresenta a forma de um cone truncado ou de um trapézio.
O tipo muscular apresenta os três segmentos iguais, caracterizando-se pela igualdade
das zonas cerebral, respiratória e digestiva. A face tem a forma retangular. É retangular
também a inserção frontal dos cabelos. Possui os limites laterais da fronte no mesmo
plano dos zigomas e da região masseterina. Os olhos, boca e nariz são de dimensões
medianas.
Raramente encontram-se esses tipos faciais sob a sua forma pura, existindo entre eles as
formas de transição (tipos mistos) quase sempre difíceis de serem distinguidos.
Outras classificações faciais são encontradas nos estudos da fonoaudiologia.
Analisando-se os tipos faciais é possível associar a eles certas patologias relacionadas a
distúrbios da fala e distúrbios respiratórios, que por sua vez vêm a interferir na estética
do rosto.
Os tipos de face, segundo a classificação usada em fonoaudiologia, são os seguintes
(DE Felício, 1999):
• Dólico-facial: possuem a musculatura elevadora da mandíbula mais delgada,
quando comparada aos outros dois tipos faciais, sendo a inserção do masseter
próxima ao ângulo da mandíbula e de forma oblíqua. Esse tipo facial apresenta
tendência de crescimento facial no sentido vertical, sendo comum a verificação
de má-oclusão caracterizada por mordida aberta esquelética.
• Bráqui- facial: características inversas às apresentadas pelo dólico-facial, isto é,
sua musculatura elevadora da mandíbula é espessa e sua inserção no corpo da
mandíbula é ampla. A tendência do crescimento da mandíbula é no sentido
horizontal (anti-horário), sendo comum a presença de sobre-mordida.
• Meso-facial: estágio intermediário entre os outros dois tipos de face.
71
3.4.2. Estruturas e Referências Faciais
Segundo Chiche e Pinault, (1996), os artistas desenham dentro de uma estrutura
mensurável geral que é quadrada, retangular ou circular. Esta fórmula é posteriormente
refinada com estruturas internas e pontos de referência imaginários, de modo a
relacionar as partes entre si e a estrutura básica.
Na estética facial, as cirurgias plásticas de reconstrução de partes duras (ósseas) ou
moles (cartilagens, músculos entre outros) do rosto em decorrência de acidentes, má-
formação ou ainda para correção de patologias, devem sempre observar a inter-relação e
harmonia com todas as estruturas que compõem este rosto.
Graziani, (1986) afirma que em presença de uma deformidade maxilofacial, o
especialista deverá estabelecer um padrão de normalidade de acordo com a raça e o tipo
do paciente.
Existem estruturas referencias específicas que são usadas pelos profissionais de estética
para se orientarem no trabalho de reconstrução ou correção facial. Estas mesmas
estruturas e inter-relações são usadas neste trabalho para a tarefa de reconhecimento
dentre pessoas diferentes. Como exemplo de algumas dessas referências, podemos citar:
linhas de referência horizontais, linhas de referência verticais, linha mediana da face,
terços da face entre outros.
A seguir, serão descritos os procedimentos e estratégias para se realizar uma análise
facial.
3.4.3. Análise Facial
O ponto mais importante em uma análise formal da estética facial é a utilização de um
padrão clínico (Suguino et. al, 1996). O modelo é instruído a sentar-se na posição ereta,
olhando para frente na linha do horizonte ou diretamente para um espelho na parede à
sua frente. Esta posição, chamada de posição natural da cabeça, é a que o paciente se
conduz em seu dia-a-dia.
72
A posição natural da cabeça, relação cêntrica (posição mais superior do côndilo), e
postura labial relaxada, devem ser observadas a fim de que os dados possam ser
coletados adequadamente (Suguino et. al, 1996).
Esta é a posição de referência, mostrada na Figura 3.10, que será utilizada nessa
dissertação para que se possa obter dados faciais-esqueléticos confiáveis a fim de
reforçar a segurança e qualidade dos resultados.
FIGURA 3.10 – Posição natural da cabeça. A linha vertical verdadeira é perpendicular ao solo. A horizontal verdadeira é paralela ao solo e definida a partir da pupila dos olhos. FONTE: Suguino et al (1996), p. 87.
Na visão frontal, a face deve ser examinada com os seguintes propósitos (Suguino et. al,
1996):
• Avaliação da simetria bilateral, conforme mostrado na Figura 3.11.A;
• Avaliação das proporções de tamanho da linha mediana até as estruturas
laterais (Figura 3.11.B);
• E avaliação da proporcionalidade vertical (Figura 3.11.C).
73
(A) (B) (C) FIGURA 3.11 – Tópicos a serem avaliados na visão frontal. (A) Análise facial vista
frontal: simetria; (B) Análise facial vista frontal: dimensões laterais; (C) Análise facial vista lateral: proporcionalmente vertical. FONTE: Suguino et al (1996), p. 92.
Inicialmente observa-se a simetria direita e esquerda, traçando-se uma linha vertical
verdadeira (glabela - ponta de nariz e lábios), cruzando perpendicularmente à linha da
visão (horizontal verdadeira) dividindo a face em duas partes como mostrado na Figura
3.12.A (Viazis, 1996).
(A) (B) (C) FIGURA 3.12 – Divisão da face em duas partes. (A) Análise facial vista frontal: linha
vertical verdadeira = simetria; (B) (C) Assimetria aceitável FONTE: Suguino et al (1996), p. 92.
74
Certamente não há face perfeitamente simétrica, contudo a ausência de algumas
assimetrias é necessária para uma boa estética facial (Epker e Fish, 1986).
Essa “assimetria normal”, a qual resulta de uma pequena diferença de tamanho entre os
dois lados de um rosto humano ilustrada na Figura.3.12.B e C, pode ser utilizada para
caracterizar indivíduos diferentes, da mesma forma como é usado para personalizar
exames clínicos ortodônticos.
O balanço geral da face (proporcionalidade vertical) é determinado a seguir, baseado no
equilíbrio dos terços superior, médio e inferior da face, aproximadamente iguais em
altura vertical.
1) Terço Superior da Face – (Linha do Cabelo até as Sobrancelhas)
O terço superior da face é definido como sendo a porção entre a linha da raiz do cabelo
e a linha das sobrancelhas. É altamente variável dependendo do estilo do cabelo, o que o
torna uma medida não tão confiável (Suguino et al., 1996). Contudo, pode-se observar
anormalidades na configuração geral e simetria da calvária, especificamente de áreas
temporal, frontal e sobrancelhas. As anormalidades nestas áreas são freqüentemente
associadas com várias síndromes craniofaciais. Estas áreas usualmente são normais em
deformidades dentofaciais (Epker e Fish, 1986).
2) Terço Médio da Face – Sobrancelhas a Subnasal
O terço médio é definido como a faixa compreendida entre a linha das sobrancelhas e a
base do nariz (linha subnasal) (Suguino et al., 1996), (DE Almeida et al., 1999).
Nesta região, avaliam-se os olhos, as órbitas, o nariz, as bochechas e as orelhas. São
determinadas as medidas das distâncias intercantal e interpupilar. Segundo (Suguino et
al., 1996), o valor médio destas medidas não sofre grandes variações de um indivíduo
para outro, embora pessoas de raça negra freqüentemente apresentem valores maiores
para a distância intercantal e interpupilar. Estes valores são estabelecidos por volta dos 6
a 8 anos de idade e não mudam significantemente após esta época (Epker e Fish, 1986).
75
Juntamente à horizontal verdadeira, a face principal pode ser dividida em três terços:
largura ocular direita, largura nasal e largura ocular esquerda conforme mostra a Figura
3.13.A (Suguino et al., 1996).
A face como um todo, de um olho a outro, em relação à horizontal verdadeira, também
pode ser dividida em terços iguais: largura facial direita, largura da boca e largura facial
esquerda mostrado na Figura 3.13.B (Suguino et al., 1996).
(A) (B) FIGURA 3.13 – Divisões verticais da face.
(A) Largura ocular direita, largura nasal, largura ocular esquerda; (B) Largura facial direita, largura da boca, largura facial esquerda. FONTE: Suguino et al (1996), p. 93.
Na avaliação das bochechas, é observado a eminência malar, borda infraorbital e áreas
paranasais. Finalmente, as orelhas são observadas. A simetria, nível e projeção são
importantes (Suguino et al., 1996).
3) Terço Inferior da Face - Subnasal ao Mento
O terço inferior é definido como a faixa compreendida entre a linha subnasal e o mento
(Suguino et al., 1996), (DE Almeida et al., 1999).
76
O comprimento vertical normal do terço inferior da face é aproximadamente igual ao do
terço médio da face quando existe uma boa estética. Além disso, a proporção da
distância vertical do subnasal ao estômio do lábio superior, e deste ao tecido mole do
mento é em torno de 1:2.
A proporção da distância vertical do subnasal à margem cutânea do vermelhão do lábio
inferior e deste ao tecido mole do mento é de 1:1, como ilustrado na Figura 3.14. Estas
medidas devem ser realizadas com a musculatura facial em repouso.
FIGURA 3.14 - Proporção 1:1 da distância vertical do subnasal à margem cutânea do vermelhão do lábio inferior e deste ao tecido mole do mento. FONTE: Suguino et al (1996), p. 92.
Um outro ponto importante para o exame da face é a avaliação da linha média. A linha
média dentária deveria ser coincidente entre si e com a linha média facial.
O mento é avaliado quanto à sua simetria, relações verticais e morfologia ou forma. A
forma é comparada com o resto da face. Muito freqüentemente o mento é mais
pronunciado do que o resto da face.
Por fim, os ângulos mandibulares são avaliados com atenção para a assimetria e
volume, podendo ser deficientes, normal ou excessivo (Suguino et al., 1996).
Desta forma, completa-se a avaliação estética frontal.
77
CAPÍTULO 4
METODOLOGIA APLICADA
A metodologia usada nesta dissertação visa ressaltar a importância e aplicabilidade das
medidas geométricas da face humana na tarefa de distinção entre diferentes rostos. As
medidas faciais extraídas e usadas aqui seguem padrões anatômicos utilizados em outras
ciências (ortodontia, fonoaudiologia e reconstituição facial) que tratam da beleza
estética, simetrias e anomalias da face humana.
Procura-se, durante todo o trabalho, observar as relações existentes entre a morfologia
do rosto, a raça, o sexo e as anomalias.
Nos próximos tópicos serão descritas as etapas seguidas neste trabalho para executar o
reconhecimento facial.
4.1. Introdução
Como foi visto no Capítulo 1, os métodos geométricos começaram a ser usados no
discernimento de faces na década de 60, chegando a atingir índices de acerto da ordem
de 90%. O interesse por esse método decaiu devido a sua vulnerabilidade, apresentada
na época, em tratar situações adversas como as rotações da imagem, baixa robustez no
tratamento de entradas com ruídos, além da dificuldade de se padronizar quais medidas
e relações eram realmente capazes de realizar a tarefa de reconhecimento facial.
A seguir, descreve-se uma metodologia usada para construir um sistema com base em
redes neurais artificiais e estudos relacionados à biometria capaz de realizar o
reconhecimento de faces. Este sistema proposto combina as vantagens dos métodos
geométricos (robustez a variação de iluminação e escala por exemplo) e as
características das redes neurais (não linearidade, mapeamento de entrada e saída,
adaptabilidade, tolerância à falhas, capacidade de generalização, entre outras).
78
O sistema aqui descrito estuda quais são as métricas relevantes para o reconhecimento
facial, levando em consideração padrões anatômicos faciais ligados ao sexo, raça e
simetria. Descrevem-se também limitações ambientais, heurísticas e o uso de
inteligência computacional, através do uso de redes neurais artificiais, a fim de
aumentar a robustez do sistema, tornando possível a sua aplicação a uma situação real
de reconhecimento de faces.
4.2. Descrição das Etapas
O sistema aqui descrito, parte da premissa que sempre haverá um rosto presente na foto
avaliada. Considera também que a posição desse rosto é bem conhecida. Portanto a
primeira premissa, relacionada à detecção da presença de um rosto na imagem se
encontra satisfeita.
Com relação à aquisição de imagens de faces, foi criado um banco de fotos, contendo
22 faces de funcionários da Açominas S.A. e 15 fotos de faces do banco de imagens
disponibilizadas pela Universidade de Yale. Todas as fotos são de faces em posição
frontal.
As imagens foram coletadas sem grandes variações na iluminação da cena e também
buscando não variar muito a distância entre a pessoa fotografada e a câmera. Entre as
pessoas fotografadas há homens e mulheres adultos de diferentes etnias para garantir
uma coerência do banco de imagens com o mundo real.
Conforme descrito no Capítulo 3, sub-item 3.4.3 referente à análise facial, o modelo é
instruído a sentar-se na posição ereta, olhando para frente na linha do horizonte,
permanecendo com sua expressão facial neutra. Esta posição, chamada de posição
natural da cabeça, é aquela na qual a pessoa normalmente se encontra em seu dia-a-dia.
Após a aquisição das imagens que serão usadas na etapa de extração de características,
inicia-se a fase de tratamento das fotos, com o objetivo de realçar as características de
interesse para o reconhecimento facial. Foram usados filtros construídos com base nas
técnicas de processamento digital de imagens. Esses filtros podem ser aplicados sobre
79
as fotos para melhorar a identificação de arestas e saliências na face, além de
possibilitar o isolamento de texturas que não interessam ou que atrapalhem a coleta das
métricas faciais. A Figura 4.1 mostra um dos filtros implementados sendo aplicado a
uma foto.
FIGURA 4.1 - Tratamento de imagens buscando realçar características de interesse.
A próxima fase, após o tratamento das imagens, é a coleta das métricas faciais. A coleta
das métricas segue as orientações fornecidas no Capítulo 3 desta dissertação, referente a
“Morfologia da Face”. As métricas usadas estão baseadas em pontos de referência
faciais e medidas lineares úteis à ortodontia e reconstituição maxilofacial. São usadas
também características do tecido mole da face visando a distinção de tipos faciais
diferentes como os mostrados nas figuras 3.7, 3.8 e 3.9 do Capítulo 3 .
As 13 medidas coletadas foram as seguintes:
• 1º terço da face (T1);
• 2º terço da face (T2);
• 3º terço da face (T3);
• altura do olho direito (ODY);
• largura do olho direito (ODX);
• altura do olho esquerdo (OEY);
• largura do olho esquerdo (OEX);
• altura do nariz (NY);
80
• largura do nariz (NX);
• altura da boca (BY);
• largura da boca (BX);
• altura da face (FY);
• largura da face (FX).
Estas medidas foram determinadas de forma manual, usando-se o ambiente de coleta de
métricas faciais. Tal ambiente permite que seja posicionada uma linha de referência
sobre a face, variando suas coordenadas X (em caso de coleta de distâncias horizontais)
e Y (em caso de distâncias verticais), de forma a definir a variação de pixels entre o
início e o fim da área ou componente facial medido.
O funcionamento do ambiente de coleta é bem simples. Uma vez que a imagem se
encontra na janela de coleta, pressiona-se o botão de coleta de métricas. Surge neste
momento uma solicitação para o posicionamento da linha que aparece sobre a imagem,
no ponto inicial da região ou componente da face que se deseja medir. A movimentação
da linha é feita através das teclas de setas do teclado ou através dos botões de rolagem
presentes no formulário.
Uma vez posicionada a linha no ponto de início da medida desejada, pressiona-se
novamente o botão de coleta de métricas. O valor da coordenada inicial é então
armazenado e solicita-se que se posicione a linha no ponto final da região de interesse.
Após o posicionamento, pressiona-se o botão de coleta e o valor da coordenada final é
armazenado. De posse dos valores das coordenadas inicial e final de interesse é feita
uma subtração simples e se obtém o valor em pixels da região medida.
A seguir descreve-se como foi determinada cada uma das regiões de interesse na face.
A face humana foi subdividida horizontalmente em 3 regiões chamadas terços faciais. O
primeiro terço (T1) corresponde à distância vertical compreendida entre a linha da raiz
do cabelo e a linha das sobrancelhas como é mostrado na Figura 4.2.
81
FIGURA 4.2 - Coleta da medida do primeiro terço da face.
O segundo terço (T2) da face é a distância vertical compreendida entre a linha das
sobrancelhas e a linha sub-nasal como mostrado na Figura 4.3.
FIGURA 4.3 - Coleta da medida do segundo terço da face.
Finalmente, o terceiro terço (T3) da face é a distância compreendida entre a linha sub-
nasal e a linha mentoniana, (linha tangente ao queixo) como mostrado na Figura 4.4.
FIGURA 4.4 - Coleta da medida do terceiro terço da face.
82
As medidas referentes aos olhos foram tomadas da seguinte forma:
Largura do olho direito (ODX): é a distância horizontal compreendida entre o canto
externo do olho direito e a lateral externa (ou asa) do nariz, como mostrado na Figura
4.5. Evitou-se tomar a distância entre os cantos externos e internos do olho como sendo
a largura ocular, para contornar problemas relativos a rotações da cabeça no momento
da foto. Tais rotações podem ocultar o canto interno do olho.
A medida da largura ocular não é igual para os dois olhos, devido a pequenas variações
de posicionamento que podem ocorrer no momento da foto, ou mesmo por motivos de
assimetria facial. Pequenas diferenças são normais não só comparando-se os olhos, mas
também quando se avalia o lado direito da face em relação ao esquerdo (assimetria
normal da face).
FIGURA 4.5 - Coleta da medida da largura do olho.
Altura do olho direito (ODY): foi definida aqui como a medida vertical compreendida
entre a linha horizontal que passa pela parte visível superior da íris e a linha horizontal
que passa pela parte inferior visível da íris, como mostra a Figura 4.6:
83
FIGURA 4.6 - Coleta da medida da altura do olho.
As métricas referentes ao nariz foram obtidas da seguinte forma:
Largura nasal (NX): é a distância horizontal compreendida entre as partes externas das
narinas, conforme mostrado na Figura 4.7.
FIGURA 4.7 - Coleta da medida da largura do nariz.
Altura do nariz (NY): é a distância vertical compreendida entre a raiz do nariz (linha que
tangencia a parte superior visível da íris) e a linha sub-nasal, mostrado na Figura 4.8.
84
FIGURA 4.8 - Coleta da medida da altura do nariz.
As métricas referentes à boca foram coletadas com se segue:
Largura da boca (BX): é a medida da distância horizontal compreendida entre os cantos
da boca, mostrado na Figura 4.9.
FIGURA 4.9 - Coleta da medida da largura da boca.
Altura da boca (BY): é a medida da distância vertical compreendida entre as linhas
horizontais tangentes ao lábio superior e inferior, como mostrado na Figura 4.10.
85
FIGURA 4.10 - Coleta da medida da altura da boca.
São necessárias ainda as medidas da largura da face (FX), que é representada pela
distância entre os dois zigios, como mostra a Figura 4.11 e a altura da face (FY), que é
definida aqui como a distância násio-mentoniana mostrada na Figura 4.12.
FIGURA 4.11 - Coleta da medida da largura da face
FIGURA 4.12 - Coleta da medida da altura da face.
86
De posse dessas métricas, realiza-se uma classificação prévia do tipo de face com o qual
se está trabalhando. As faces são então classificadas em 5 classes:
• hipereuriprosópico;
• euriprosópico;
• mesoprosópico;
• leptoprosópico;
• hiperleptoprosópico.
A distribuição das faces dentro das 5 classes é feita avaliando-se o índice facial
apresentado pelas faces analisadas. O índice facial é a relação existente entre a altura
facial (distância násio-gnátio ou násio-mentoniana) dividida pela largura facial
(distância bizigomática – distância entre os zígios da face) e multiplicada por 100.
De acordo com esse índice, tem-se a classificação das faces em baixas
Após a normalização das 10 relações métricas das faces usadas como padrões de
entrada para a rede neural, o próximo passo foi definir a estrutura de rede que
efetivamente fará o papel de reconhecimento das faces.
Para tanto, definiu-se que haveria 2 etapas para o reconhecimento dos rostos como
descrito anteriormente. A primeira etapa caracteriza-se pela sinalização de que a face
apresentada é conhecida ou não. A segunda etapa está relacionada com a associação da
entrada apresentada à rede, com uma das pessoas conhecidas pela rede ativa naquele
momento.
Cada uma das 5 classes de faces, determinadas pelos índices faciais, possui uma rede
especializada em afirmar se o padrão de entrada é conhecido ou não. Se a face
apresentada na entrada da rede é sinalizada como "não conhecida" por todas as 5 redes
da primeira etapa de reconhecimento, a face é imediatamente rechaçada, não chegando a
ser apresentada para nenhuma das 5 redes seguintes. Estas 5 redes da segunda etapa
associam as faces na entrada a padrões aprendidos durante o treinamento. Quando a face
é sinalizada como "conhecida", por mais de uma das 5 redes, ela também é rechaçada.
Caso uma e apenas uma, das 5 redes da etapa de reconhecimento sinalize positivamente,
afirmando que o padrão de entrada é conhecido por ela, as métricas específicas dessa
face são fornecidas como entrada para a segunda rede da classe que manifestou
“conhecê-la”. Essa rede irá então associar a entrada a um de seus padrões conhecidos. A
96
Figura 4.17 abaixo mostra o esquema de funcionamento do sistema de reconhecimento
facial aqui proposto.
FIGURA 4.17 - Esquema de funcionamento do sistema de reconhecimento facial.
Como pode ser visto, através do esquema de funcionamento do sistema de
reconhecimento, as relações métricas usadas como entrada da rede na etapa 1, podem
não ser as mesmas usadas na etapa 2. Isto acontece, porque algumas das relações entre
as métricas faciais, se mostraram mais propícias ao reconhecimento, na primeira etapa,
em comparação à associação das entradas aos padrões aprendidos pela rede, na segunda
etapa.
Foram usados vetores de 5 posições para as redes da camada de reconhecimento e
vetores de 7 posições para as redes da camada de associação. Chegou-se a esse número
de relações métricas, usadas como entradas, após a realização de vários testes usando as
37 faces do banco de imagens desta dissertação e avaliando os gráficos de relações entre
as métricas.
Métricas Faciais
Classe1
Classe3
Classe2
Classe4
Classe5
Saída do sistema de reconhecimento
facial
Redes da etapa de reconhecimento
Redes da etapa de associação das entradas conhecidas aos padrões da
respectiva classe selecionada
Entrada para a camada de rede de
reconhecimento
Entrada para a camada de rede de associação
97
As medidas que apresentaram maiores discrepâncias entre as faces, ou seja, aquelas que
diferenciam bem uma face da outra, foram usadas nas redes da etapa 1. A Figura 4.18
mostra as medidas que mais variaram e a Figura 4.19 mostra as medidas que menos
variaram.
Métricas com Maior Variação
0,0000
0,2000
0,4000
0,6000
0,8000
1,0000
1,2000
1003
65
1005
25
1005
39
1016
04
1047
43
1071
47
1078
79
1264
6
3047
68
8864
3
9123
80
1001
60
1002
70
1003
70
1005
60
1006
36
1047
30
1047
90
3960
9
4650
6
5045
4
9127
15
Identificação das Faces
Val
ore
s n
orm
aliz
ado
s
Ox/OyNx/Ny
Bx/ByNx/Fx
FIGURA 4.18 – Relações métricas que mais variaram.
98
FIGURA 4.19 – Relações métricas que menos variaram.
A rede neural da camada de reconhecimento é uma rede multicamadas "feedforward"
com 5 entradas, 4 neurônios na camada oculta e 1 neurônio na camada de saída. Além
das 4 relações que mais variaram, mostradas na Figura 4.18, usou-se entre outras, a
relação FY/FX pois ela também se mostrou muito útil para o discernimento entre faces
por se tratar da altura e largura da própria face.
Para a rede da segunda camada foi usada uma rede multicamadas "feedforward" com 7
entradas, 6 neurônios na camada oculta e 4 neurônios na camada de saída. O algoritmo
usado para o treinamento em ambas as redes foi o algoritmo de retropropagação do
erro, implementado internamente no simulador neural T-LEARN.
O Anexo I traz maiores informações sobre o funcionamento e recursos apresentados
pelo T-LEARN.
As medidas usadas nesta etapa foram na sua maioria, as apresentadas na Figura 4.19 e
ainda a relação BX/BY, que se mostrou bastante apta para realizar diferenciação entre
Métricas com menor Variação
0,0000
0,2000
0,4000
0,6000
0,8000
1,0000
1,2000
1003
65
1005
25
1005
39
1016
04
1047
43
1071
47
1078
79
1264
6
3047
68
8864
3
9123
80
1001
60
1002
70
1003
70
1005
60
1006
36
1047
30
1047
90
3960
9
4650
6
5045
4
9127
15
Identificação das Faces
Val
ore
s n
orm
aliz
ado
s
T2/T3
Fy/Fx
T2/Fy
T3/Fy
T2/Fx
T3/Fx
99
diferentes faces. BX/BY trata da relação entre a largura e a altura da boca do modelo,
que pode variar significativamente de pessoa para pessoa.
O próximo capítulo descreve os testes realizados com o sistema de reconhecimento
facial aqui proposto.
100
101
CAPÍTULO 5
TESTES REALIZADOS
Os testes descritos neste capítulo foram elaborados com o intuito de demonstrar a
viabilidade do uso do sistema híbrido inteligente aqui proposto, no reconhecimento de
faces frontais.
Durante os testes foram usadas faces frontais de homens e mulheres adultos, totalizando
um conjunto de 37 padrões divididos em 2 grupos. Um primeiro grupo de 22 faces foi
utilizado, sendo subdividido em 5 classes, de acordo com o índice facial obtido na
etapa de extração das métricas faciais.
Estas faces, em suas respectivas classes, foram usadas para treinar as redes neurais da
etapa de reconhecimento e também da etapa de associação. As 15 faces do segundo
grupo foram usadas para verificar a capacidade da rede em rejeitar faces totalmente
desconhecidas.
Os passos para a execução dos testes seguiram as etapas descritas no tópico 4.2 dessa
dissertação.
As 22 faces usadas no treinamento ficaram distribuídas dentro das 5 classes
especificadas, como mostra a Tabela 5.1.
102
TABELA 5.1 - Distribuição das faces dentro das 5 classes.
Código
Classe 1 FACE BAIXA
Classe 2
FACE LARGA
Classe 3
FACE MÉDIA
Classe 4
FACE ALTA
Classe 5
FACE ESTREITA 100365 x 100525 x 100539 x 101604 x 104743 X 107147 x 107879 x 12646 X 304768 x 88643 x 912380 x 100160 x 100270 x 100370 x 100560 x 100636 x 104730 x 104790 x 39609 x 46506 x 50454 x 912715 x Total de
Faces por Classe 1 2 8 6 5
As relações métricas usadas como componentes dos vetores de identificação das faces
nos testes são mostradas na Tabela 5.2.
103
Convencionou-se aqui, ao se referir às relações entre largura e altura dos olhos, boca e
nariz, chamá-las de relações entre componentes locais da face. As relações entre os
terços faciais, altura e largura da face são chamadas de relações entre componentes
globais da face.
TABELA 5.2 – Relações métricas usadas para representar as faces.
ODX / ODY
Relações entre medidas de componentes locais. NX / NY
BX / BY
Relação entre medida de componente local e global. NX / FX
FY / FX
T2 / FY
Relações entre medidas de componentes globais. T3 / FY
T2 / FX
T3 / FX
T2 / T3
As relações métricas da Tabela 5.2 foram agrupadas, formando vetores capaz de
representar individualmente cada face. Algumas combinações de componentes locais e
globais se mostraram mais eficientes que outras na tarefa de representar a face de forma
ímpar, evitando confusões ao sinalizar se um rosto é conhecido ou não. Essa capacidade
fica visível ao se avaliar o número de iterações necessárias para se treinar a rede, como
poderá ser visto nos testes realizados no próximo tópico.
As relações métricas usadas como componentes dos vetores de identificação das faces
também estão descritas na Tabela 5.2.
Os testes nas redes da etapa 1 e 2 ocorreram em separado. Foram realizados testes
inserindo erros na aquisição das medidas, aqui representados por acréscimo de pixels
nas medidas horizontais e verticais da métricas puras, visando verificar a tolerância das
redes à entradas com medidas distorcidas. Também foram feitos testes usando faces
que não estiveram presentes na etapa de treinamento para a validação do sistema, como
será visto nos tópicos seguintes.
104
5.1. Testes Realizados na Rede da Etapa de Reconhecimento
Durante os testes, procurou-se verificar quais as relações métricas que melhor se
adaptam à tarefa de sinalizar a "familiaridade" ou "não-familiaridade" de uma face
humana. Para tanto foram avaliadas 8 combinações de métricas faciais compondo o
padrão de entrada da rede.
A avaliação de quais as relações métricas mais propícias ao reconhecimento facial foi
realizada usando o conjunto de faces da Classe 3, contendo 8 faces sinalizadas como
"conhecidas" e ainda outras 6 faces tomadas aleatoriamente entre as demais classes
representando padrões "não conhecidos".
A escolha da Classe 3 para a realização dos testes foi devido ao seu maior número de
padrões, de acordo com a classificação feita pelo índice facial.
Os 8 conjuntos de relações métricas que compõem os padrões de entrada da rede da
etapa 1 são mostradas na Tabela 5.3.
TABELA 5.3 – Grupos de relações métricas usados no treinamento.
Grupo1: OX/OY NX/NY BX/BY
Grupo2: OX/OY NX/NY BX/BY FY/FX
Grupo3: OX/OY NX/NY BX/BY T2/T3
Grupo4: OX/OY NX/NY BX/BY NX/FX
Grupo5: OX/OY NX/NY BX/BY NX/FX FY/FX
Grupo5.1: OX/OY NX/NY BX/BY NX/FX T2/FX
Grupo5.2: T3/FX T2/FX T3/FY T2/FY FY/FX
Grupo5.3: BX/BY NX/FX T3/FY T2/FY FY/FX
Inicialmente, foram tomadas 3 relações métricas dentre àquelas que apresentaram maior
variação de face para face durante a análise gráfica da Figura 4.16. As 3 medidas usadas
a princípio foram OX/OY (relação entre a largura e a altura do olho direito), NX/NY
(relação entre a largura e a altura do nariz), BX/BY (relação entre a largura e a altura da
105
boca). Acredita-se, com base na análise gráfica, que usando estas relações métricas , a
tarefa de discernimento se torne mais fácil.
A seguir serão descritos os testes realizados com cada um dos grupos mostrados na
Tabela 5.3.
Grupo1
Usando as 3 métricas do Grupo1 foi possível treinar a rede neural da etapa 1, fazendo
com que a rede aprendesse a sinalizar os 8 padrões pertencentes à Classe 3 como sendo
"conhecidos" e os 6 padrões das outras classes como "não conhecidos".
A curva de aprendizado é mostrada na Figura 5.1.
FIGURA 5.1 – Curva de aprendizado usando relações métricas do Grupo1.
Para analisar a robustez das relações métricas presentes no Grupo1, foram coletadas as
mesmas medidas das 15 faces do banco de imagens da Universidade de Yale. As
medidas destes 15 padrões não foram apresentados à rede nem como exemplos de
padrões "conhecidos" nem como exemplo de padrões "não conhecidos".
As Tabelas 5.4 e 5.5 abaixo mostram os resultados do treinamento em relação aos
padrões vistos durante o aprendizado e aqueles não vistos.
106
TABELA 5-4 – Resposta da rede aos padrões usados no treinamento (usando o Grupo1).
A Tabela 5.5 possui a mesma estrutura e interpretação definidas para a Tabela 5.4.
Avaliando-se a coluna "Status", percebe-se que a rede não consegue sinalizar
corretamente para os 15 padrões que não estavam presentes na etapa de treinamento.
Usando o vetor formado pelos componentes do Grupo1, a rede se mostrou capaz de
aprender corretamente os 14 padrões vistos no treinamento, sinalizando corretamente
para cada um deles. Porém a rede não possui informações em quantidade e qualidade
suficientes para sinalizar que todos os 15 padrões não presentes na etapa de aprendizado
são faces "não conhecidas".
Grupo2
A próxima bateria de testes foi realizada usando o Grupo2. Este grupo possui um
diferencial: a relação entre a altura e a largura da face (FY / FX) que não estava presente
no grupo anterior.
Usando a estrutura da rede e os parâmetros citados no início deste capítulo, a rede não
converge até a iteração de número 1.000.000, como mostra a Figura 5.2a. Após algumas
tentativas, alterando-se o parâmetro da taxa de aprendizado de 0.07 para 0.12, a rede
converge rapidamente como mostrado na Figura 5.2b.
(A) (B)
FIGURA 5.2 – Curva de aprendizado usando relações métricas do Grupo2.
A rede, com este novo vetor de identificação, aprende os 14 padrões apresentados na
etapa de treinamento e erra apenas 5 faces das 15 que não estavam presentes na etapa de
treinamento.
108
Apesar da necessidade da mudança da taxa de aprendizagem para evitar a estagnação da
rede na etapa de aprendizado, fica claro que o aumento de mais uma informação no
conjunto de relações que representam a face, dá maior capacidade de discernimento à
rede.
Grupo3 e Grupo4
Os testes usando o Grupo3 e o Grupo4 visam avaliar o potencial das outras duas
relações usadas, em comparação com a relação FY/FX (altura facial / largura facial)
pertencente ao Grupo2. O resultado da comparação entre FY / FX (altura facial / largura
facial), T2 / T3 (2º terço da face / 3º terço da face ) e NX / FX (largura do nariz / largura
da face) está mostrado na Tabela 5.6.
TABELA 5.6 – Comparação entre o acréscimo de 1 relação específica no vetor de identificação (grupo2 x grupo3 x grupo4).
Tópicos avaliados FY/FX T2/T3 NX/FX Converge com erro médio quadrático menor que 0.02? Sim Sim Sim
Aprende os 14 padrões apresentados no treinamento? Sim Sim Sim Nº de erros (15 faces não presentes no treinamento). 5 4 1 Nº de iterações necessárias para atingir erro mínimo. 235186 492854 921321
Através dos resultados mostrados na Tabela 5.6, nota-se a maior eficiência do Grupo4,
contendo a relação NX/FX, em diferenciar corretamente os padrões que não estavam
presentes no treinamento. Isso mostra que o Grupo4 possui maior capacidade de
generalização do que os apresentados pelos Grupos 2 e 3.
Os parâmetros usados no treinamento da rede, foram alterados apenas quando usou-se o
Grupo2, a fim de evitar a estagnação da rede na etapa de aprendizado. Os demais grupos
foram treinados usando os mesmos parâmetros padrão, descritos a seguir.
Percebe-se durante a comparação dos Grupos 2, 3 e 4 que determinadas relações
métricas têm a capacidade de tornar a rede mais apta para a tarefa de diferenciar entre
padrões faciais "conhecidos” e "não conhecidos". Isto pode ser visto através da
substituição da relação T2/T3 pela relação NX/FX. Só com a mudança dos parâmetros,
109
o número de erros cometidos na avaliação das faces não presentes no treinamento foi
reduzido de 4 erros para apenas 1.
Usando a rede treinada com o Grupo4, que apresentou o melhor índice de acerto até o
momento, foram feitas algumas experiências variando-se o número de neurônios
buscando uma melhor resposta em relação às faces não presentes na etapa de
aprendizagem. Durante tais testes, ao aumentar o número de neurônios da camada
escondida de 5 para 6 neurônios, o número de padrões identificados de forma errada
subiu de 1 para 2. E ao subtrairmos 1 neurônio, o número de erros sobe de 1 para 11
erros em 15 padrões apresentados.
Portanto, a estrutura proposta a seguir fica sendo, para esta dissertação, a mais adequada
para o reconhecimento. Outros testes também foram realizados com a rede recebendo
outros padrões de entrada. Porém o número de acertos mais significativos foram
atingidos com a estrutura descrita a seguir.
A arquitetura final das redes da etapa 1, responsáveis por sinalizar se o padrão
apresentado é conhecido ou não é a seguinte:
o Número total de neurônios: 5; o Arquitetura: rede multicamadas de 5 entradas, 4 neurônios ocultos, 1 neurônio
de saída; o Alimentação da rede: "feedforward"; o Algoritmo de aprendizado: "Retropropagação do erro".
Os parâmetros usados no treinamento foram:
o Taxa de aprendizado usada no treinamento: 0.07; o Momentum: 0.8; o Erro Médio Quadrático: inferior a 0.02; o Semente inicial para os pesos: 5 .
Vale ressaltar que o número de neurônios usados na camada oculta pode variar em caso
de aumento do número de padrões a serem aprendidos em cada classe. Assim, os 4
neurônios que para este caso são suficientes para realizar a tarefa de sinalizar se um
determinado padrão é "conhecido" ou "não conhecido", podem ser insuficientes para
110
realizar a mesma tarefa, se a classe avaliada contiver mais de 8 padrões aprendidos
como "conhecidos" e 6 como "não conhecidos".
Para as redes da etapa 2, responsáveis pela associação do padrão sinalizado como
“conhecido” ao um padrão mais “parecido” da classe ativa, foi definido, após a
realização de vários testes, a configuração ótima que se segue:
o Número total de neurônios: 10; o Arquitetura: rede multicamadas de 7 entradas, 6 neurônios ocultos, 4 neurônios
de saída; o Alimentação da rede: "feedforward"; o Algoritmo de aprendizado: "Retropropagação do erro".
Os parâmetros usados no treinamento foram:
o Taxa de aprendizado usada no treinamento: 0.07; o Momentum: 0.8; o Erro Médio Quadrático: inferior a 0.02; o Semente inicial para os pesos: 5.
Cada uma das 5 redes independentes dessa etapa possui 4 neurônios de saída. Esta
estrutura possibilita a cada uma dessas redes, mapear 16 padrões de face seguindo a
codificação binária (0000, 0001, 0010, etc) associada a cada padrão. A capacidade total
de mapeamento da estrutura de rede apresentada é de 80 faces, sendo 16 faces em cada
uma das 5 classes.
Em casos onde o número de padrões a serem reconhecidos ultrapasse 16 faces, será
necessário um número maior de neurônios de saída além de um aumento também no
número de neurônios da camada oculta.
Para o próximo teste, usando o Grupo5, foi acrescentada mais uma informação ao
padrão de entrada da rede. Usou-se o Grupo4 como base, para verificar se apenas a
inclusão de uma nova informação seria suficiente para se obter um ganho significativo
no índice de acerto da rede.
Grupo5
111
Avaliando o conjunto de métricas pertencentes ao Grupo5, percebe-se, através da Figura
5.3, que a aprendizagem da rede é muito rápida.
FIGURA 5.3 - Curva de aprendizagem das métricas do Grupo5.
A rede convergiu em 480544 iterações, apresentando um erro médio quadrático de
0.020349. Os 14 padrões foram aprendidos com sucesso pela rede, como mostra a
Tabela 5.7 a seguir.
112
TABELA 5.7 - Resposta da rede aos padrões usados no treinamento (usando o Grupo5).
Confundiu 1 face, associando as métricas de entrada à face errada Não mapeou a entrada a nenhuma face
20 0 12 20 16 8 T2; T3; Fy; Nx; Bx; Fx 1 Não mapeou a entrada a nenhuma face
A média de acertos atingida pela rede, avaliando os padrões da Classe 3, foi de 97,73%.
132
A coluna "Medidas afetadas", a exemplo do que ocorre nos testes da etapa 1, mostra
quais as medidas que serão contaminadas com o número de pixels descritos na coluna
"Ruído". A coluna "Nº de erros em 8 padrões", informa o número de equívocos
cometidos pela rede ao classificar os 8 padrões da Classe3 contaminados com os ruídos.
Por fim, a coluna "Descrição do erro" mostra qual o equívoco cometido pela rede na
tarefa de associação (associação errada entre a face avaliada e uma das faces aprendidas
ou a não associação da face avaliada a nenhuma das faces aprendidas).
Os 8 padrões da Classe 3 foram apresentados a cada inserção de um novo conjunto de
ruídos.
A Tabela 5.21 mostra os resultados obtidos para todas as 5 classes, seguindo o mesmo
padrão de testes com ruídos descritos na Tabela 5.20.
TABELA 5.21 - Resultados obtidos para as outras 4 classes (etapa 2 de reconhecimento).
Classe Nº padrões por Classe
Nº de erros Nº padrões submetidos à
rede
% média de acertos
1 1 0 22 100
2 2 0 44 100
3 8 4 176 97,73
4 6 0 132 100
5 5 1 110 99,10
A primeira coluna da Tabela 5.21 informa qual a Classe avaliada. A coluna “Nº Padrões
por Classe” informa quantas faces foram enquadradas em cada Classe específica, de
acordo com o índice facial. A coluna "Nº de erros" informa quantos erros ocorreram ao
se introduzir os 22 tipos de erros na etapa de aquisição das métricas faciais dos 14
padrões avaliados. Esta coluna informa o número de erros observados em relação ao
número total de padrões submetidos à rede para a dada Classe. Na coluna “Nº de
padrões submetidos à rede” tem-se o total de padrões apresentados à rede em cada
133
Classe na etapa de aquisição das métricas, após a contaminação com os 22 tipos de erros
já mencionados. Dessa forma, a Classe 1 que continha 1 padrão, após a contaminação
com 22 tipos de erros passou a ter 22 padrões apresentados à sua rede específica (22 = 1
padrão * 22 tipos de erros avaliados), seguindo-se o mesmo raciocínio para as demais
classes. Por fim a coluna "% média de acerto" informa o índice de acerto para cada
Classe individualmente, avaliando os erros em relação ao total de padrões apresentados
para a Classe específica.
Não foram feitas outras combinações referentes às métricas usadas para representar as
faces nesta segunda etapa, pois os resultados até aqui alcançados já mostram que é
possível realizar o reconhecimento de faces usando-se as relações métricas definidas
neste trabalho.
A avaliação de outros conjuntos de relações nas 2 etapas é proposta como possível
trabalho futuro, juntamente com outros testes no capítulo final desta dissertação.
O próximo tópico é dedicado aos comentários a respeito dos testes realizados.
5.3. Discussão Sobre os Testes Realizados
O foco desta dissertação foi a utilização de métricas faciais para o reconhecimento de
faces. Buscou-se mostrar a viabilidade do uso dessas medidas para reconhecer um rosto.
Os estudos vistos durante o desenvolvimento desta dissertação sobre reconhecimento
facial usam poucos recursos geométricos para a tarefa de reconhecimento, por acreditar
que as medidas de componentes faciais, por si só, são incapazes de efetuar o
discernimento eficiente entre faces distintas.
Os resultados atingidos, apresentados nos tópicos 5.1 e 5.2 desta dissertação, mostram
que uma vez escolhidas as métricas faciais e relações proporcionais adequadas e
usando-se a capacidade de generalização das redes neurais, é possível a diferenciação
entre rostos "conhecidos" e "não conhecidos", através de um sistema que combine
características geométricas de representação facial e características presentes em redes
134
neurais artificiais, como o proposto por este trabalho. Tal sistema também se mostra
apto para mapear uma face apresentada na entrada da rede, na face mais semelhante
aprendida na fase de treinamento.
Desta forma, o sistema aqui proposto pode certamente ser usado como ferramenta de
reconhecimento ou como apoio a outros sistemas baseados em metodologias diferentes
como álgebra linear, modelos deformáveis e filtros baseados em wavelets, a fim de se
atingir um bom índice de acerto no reconhecimento facial.
No próximo tópico serão descritos alguns comentários sobre detalhes do uso das
métricas faciais no reconhecimento facial.
5.3.1. As Métricas Usadas para Representação Facial
A imagem contendo uma face é a informação básica que deve ser trabalhada por um
sistema de reconhecimento automático de faces. As representações mais usuais em
sistemas desse tipo são feitas através de matriz de pixels (informações de iluminação),
modelos tridimensionais ou até mesmo por uma mistura das duas formas (Oliveira,
1997).
A partir da imagem de entrada devem ser extraídas características para a representação
do rosto de forma manipulável pelo sistema de reconhecimento. A extração dessas
características pode ser feita de 2 formas: implícita ou explícita (Oliveira, 1997).
A extração implícita é utilizada por todos os métodos que fazem uso de algoritmos de
categorização implícitos ou que usem propriedades da imagem para gerar
representações sem se basear em informações locais de componentes.
Já a extração explícita compreende os métodos que partem de características
previamente estabelecidas, tais como medidas entre pontos-chaves utilizados pelos
métodos geométricos. A extração explícita de características foi o método adotado por
esta dissertação, buscando o embasamento na anatomia facial para a determinação das
relações métricas que representam individualmente cada face.
135
Através da extração explícita de características visou-se determinar quais dos
componentes e áreas da face eram realmente importantes para o discernimento facial.
Os componentes dos vetores, usados para representar a face durante as 2 etapas de
reconhecimento, foram escolhidos levando-se em consideração as dificuldades
encontradas em se mensurar tais regiões. Algumas áreas e componentes da face se
mostraram muito suscetíveis a variações do tipo: corte de cabelo ou presença de barba,
bigode e cavanhaque.
Foi observado que determinados cortes de cabelo impediam a determinação correta do
1º terço facial, pois a franja obstruía a determinação da linha da raiz do cabelo, como
mostrado na Figura 5.8.A. A determinação do 1º terço da face também se mostrou
imprecisa em casos onde o modelo é calvo, ilustrado na Figura 5.8.B.
(A) (B)
FIGURA 5.8 - Dificuldades de determinação do primeiro terço da face. (A) Linha da raiz do cabelo é ocultada pela franja. (B) Encontra-se a dificuldade de determinar o ponto de início da linha da raiz do cabelo.
Outro problema encontrado foi a determinação da linha tangente à região
mentoniana, usada na determinação do 3º terço e da altura facial. Neste caso, ilustrado
na Figura 5.9, a dificuldade é causada pelo uso de barba ou cavanhaque que cobre e
prolonga o queixo, impedindo-se a determinação da linha tangente a esta região.
136
FIGURA 5.9 - Dificuldade de localização da região mentoniana, usada na determinação da altura da face e do 3º terço facial.
Através destas observações, optou-se por não utilizar as medidas extraídas do 1º terço
da face. Para o caso da altura facial, assumiu-se que a linha deveria ser tangente ao final
da face. Caso houvesse a presença de barba ou cavanhaque, a linha seria tangente ao
final desse adorno. Não foi possível descartar esta região pois ela é usada na
determinação da altura facial, sendo uma das medidas necessárias à determinação do
índice facial.
Determinadas métricas apresentaram maior adaptabilidade que outras, quando avaliado
o seu desempenho nas 2 etapas que compõem o reconhecimento facial aqui descrito.
A principal estratégia usada neste trabalho foi a classificação de faces com formatos
variados em grupos com características básicas semelhantes, através da determinação do
índice facial. Dessa forma, não foram feitas comparações entre faces totalmente
diferentes ("faces baixas" comparadas a "faces estreitas" por exemplo) usando os
componentes apropriados para a tarefa de ajuste fino, como algumas das relações
métricas usadas nesta dissertação (ODX/ODY, NX/NY, NX/FX, entre outras).
As redes não convergiam em testes realizados antes dessa classificação pois um
conjunto de características próprias de uma face sofria interferência do conjunto de
características do outro tipo de face. Os ajustes feitos nos pesos da rede, para atender ao
reconhecimento de faces de uma dada classe, não eram os mesmos ajustes necessários
para o reconhecimento de outra classe distinta. Por isso a rede não aprendia os padrões.
Isso mostra que em certas situações, os detalhes ou certas particularidades dos
componentes faciais são um diferencial importante na tarefa de discernimento entre uma
137
face "conhecida" e o "não conhecida". Porém uma pré-seleção de grupos de faces com
características gerais similares deve ser feita antes do treinamento para um melhor
aprendizado.
A seguir serão feitas algumas observações sobre a rede neural usada no sistema de
reconhecimento facial.
5.3.2. Método Conexionista Não-Linear Usado
Segundo (Haykin, 2001) o poder de generalização de uma rede neural está diretamente
relacionado com a sua estrutura maciçamente paralela e distribuída. A generalização se
refere ao fato da rede produzir saídas adequadas para entradas que não estavam
presentes durante o treinamento. É a chamada "aprendizagem".
A generalização é uma das principais características que tornam as redes neurais aptas à
tarefa de reconhecimento facial. Esta característica pôde ser percebida durante os testes,
como mostram os resultados apresentados nas Tabelas 5.5, 5.6, 5.8, 5.11 e 5.14.
Durante toda a fase de testes a estrutura da rede foi alterada na busca de uma
configuração que atendesse à tarefa de reconhecimento. A capacidade de adaptação das
redes também foi testada alterando-se os parâmetros de aprendizagem, experimentando-
se novas combinações de métricas faciais, novos erros mínimos aceitáveis, degradando-
se a estrutura da rede para verificar a interferência causada nos resultados, entre outros
experimentos.
A boa tolerância a falhas apresentada pelas redes neurais também foi alvo de testes
realizados neste trabalho. Esta característica pôde ser avaliada durante os testes de
tolerância a falhas, no processo de aquisição de dados, como mostram especificamente
os resultados das Tabelas 5.9, 5.12, 5.15, 5.20 e 5.21. Nestes testes, variou-se de forma
controlada os valores das métricas de componentes da face, observando-se até quando,
com o aumento dos níveis de ruído, a rede ainda conseguiria obter a resposta correta nos
neurônios de saída.
138
Foi observado que o desempenho da rede degrada suavemente sob condições de
operação adversas. Devido à natureza distribuída da informação armazenada na rede
(Haykin, 2001), o dano que por ventura venha a ser causado em sua estrutura deve ser
extenso para que a resposta global seja degradada seriamente.
O papel da rede neural neste sistema foi substituir as comparações entre padrões de
faces utilizando algoritmos de classificação numérica, por um sistema inteligente capaz
de lidar com pequenos erros e presença de ruídos, realizando ainda assim, um
reconhecimento eficiente. Os testes realizados comprovaram que as redes neurais são
uma boa ferramenta para tratar a inexatidão e variabilidade dos padrões faciais. Através
do uso das redes neurais, pequenas variações de expressão observadas na face do
modelo podem ser desconsideradas no momento de verificar se uma face é conhecida
ou não. Esta informação adulterada não impede a realização do reconhecimento facial
correto, como foi visto nos testes com inserção de ruídos.
A configuração final da rede, capaz de realizar o reconhecimento nas etapas 1 e 2, foi
atingida após uma série de testes envolvendo várias combinações de métricas
representando as faces.
Na etapa 1, apenas 1 neurônio na camada de saída é suficiente para informar se o padrão
facial de entrada é conhecido ou não. Já o número de neurônios da camada oculta deve
ser alterado para casos onde o número de faces seja superior aos 14 padrões usados
aqui. Sugere-se um aumento gradativo de neurônios na camada escondida, bem como de
relações métricas (na composição do vetor de identificação) que garantam a unicidade
de cada face a fim de que a rede continue com um bom índice de acerto.
Na etapa 2, foram usados 4 neurônios de saída, o que torna cada rede capaz de
representar até 16 faces. Em casos onde o número de faces por classe for maior que 16,
o número de neurônios da camada oculta, os número de neurônios da camada de saída,
bem como o número de elementos que representem a face, devem ser alterados. Novos
neurônios devem ser adicionados à rede (e novas relações métricas acrescentadas ao
vetor de identificação das faces), na medida em que sejam aumentados o número de
faces de cada classe e o desempenho da rede comece a cair.
139
O aumento no número de neurônio se justifica pelo fato da rede ter a necessidade de
armazenar informações das novas faces, distribuídas nos pesos dos novos neurônios. A
necessidade de novas informações para representar um número maior de faces é
justificada pelo fato da rede precisar de novos critérios de desempate para realizar o
reconhecimento facial.
A seguir serão comentados os resultados obtidos nos testes.
5.4. Resultados Obtidos
Os índices de reconhecimento obtidos durante a fase de testes e apresentados nas
Tabelas 5.16 e 5.17 mostram que o uso de métricas faciais aplicadas ao reconhecimento
facial é viável para pequenos grupos de faces.
Utilizando-se apenas um conjunto de 13 medidas (apresentadas nas Tabelas 4.2 e 4.3 )
extraídas de fotos frontais e estabelecendo as relações proporcionais entre tais medidas
(mostradas nas Tabelas 4.4A e 4.4B), foi possível diferenciar entre faces "conhecidas" e
"não conhecidas". Também foi possível associar ao vetor de métricas faciais na entrada
da rede, a codificação da face que mais se assemelhou a esse vetor dentro do conjunto
de padrões vistos na fase de aprendizado.
Foram obtidas médias de acerto acima de 95% nas redes da etapa 1 (mostradas nas
Tabelas 5.6 e 5.16), para padrões vistos na fase de treinamento acrescidos de ruídos.
Também nesta etapa foram alcançados índices de acerto superiores a 85%, quando
apresentados padrões que não estavam presentes na fase de treinamento (mostrado na
Tabela 5.17).
Para as redes da etapa 2 de reconhecimento, os acertos foram superiores a 97%
(conforme as Tabelas 5.20 e 5.21). As variações nos índices de acerto se devem ao uso
de um vetor contendo um grupo com relações métricas mais ou menos aptas para
discernir entre as várias faces avaliadas.
Os resultados obtidos reforçam a idéia de que a definição de um vetor de características
baseado em pontos chaves da face (como os pontos craniométricos ou mesmo outros
140
pontos anatômicos usados em odontologia e reconstituição facial) é robusto o suficiente
para ser aplicado ao reconhecimento de faces, dentro de um grupo limitado de pessoas.
Um ponto importante observado nos testes refere-se à estratificação das faces a serem
reconhecidas dentro de grupos com características semelhantes. Esta estratificação deve
ser realizada para que sejam comparadas, usando as relações métricas de ajuste fino
mostradas nesta dissertação, somente aquelas faces com as mesmas características
globais. Assim tem-se um aprendizado rápido das características das faces de cada
grupo.
Fica claro ainda que deve-se escolher bem os componentes faciais para se extrair as
métricas e definir apropriadamente as relações entre elas. Dessa forma assegura-se uma
boa representação das particularidades de cada face, tornando o discernimento entre
estes padrões mais fácil.
5.4.1. Comparação entre Índices de Reconhecimento
Segundo (Oliveira, 1997), os estudos realizados por (Bledsoe, 1966), (Goldestein et
al.1971), (Kanade, 1973), (Brunelli e Poggio, 1991) utilizando métodos geométricos
aplicados ao reconhecimento facial obtive ram índices de acerto que variaram enter 45 e
90% de acerto.
Alguns desses estudos usavam marcações feitas à mão em fotos de faces frontais,
indicando os cantos dos olhos, boca, nariz e queixo, como as realizadas nesta
dissertação. Porém não era levado em consideração as características dos pontos
craniométricos e as relações lineares existentes entre estes pontos. As comparações
entre as medidas que representavam as faces (determinando se um vetor de medidas
características pertencia ou não a uma determinada face) eram realizadas por algoritmos
de classificação numérica.
Os índices de reconhecimento obtidos nesta dissertação (acima de 90%), apresentam um
forte indício de que o uso de um conhecimento prévio sobre a anatomia facial, levando
em consideração suas particularidades na escolha das métricas para representar a face,
141
são um ponto importante para se realizar um reconhecimento eficiente. Outro ponto a
ser considerado é o uso de redes neurais em substituição dos algoritmos de classificação
numérica. Através do uso das redes neurais, pode-se trabalhar melhor a imperfeição
ocorrida na coleta das métricas.
Não se está afirmando aqui que o sistema híbrido proposto nesta dissertação é melhor
ou pior do que os descritos em trabalhos anteriores. Esta afirmação não poderia ser feita
uma vez que os testes não foram realizados usando-se o mesmo número de padrões, as
mesmas faces, sob as mesmas condições de iluminação e resolução.
O que se quer mostrar é que o uso de uma heurística na determinação dos pontos a
serem medidos na face e a aplicação de métodos inteligentes na comparação dessas
medidas, geram bons índices de acerto no reconhecimento facial, como podem ser visto
se comparados apenas os índices de reconhecimento dos testes aqui apresentados com
os índices vistos em outros trabalhos.
O próximo tópico apresenta possíveis aplicações para este trabalho.
5.5. Aplicabilidade do Trabalho
Avaliando-se os resultados desta dissertação, conclui-se que é viável a implementação
de um sistema híbrido de reconhecimento automático de faces, se o mesmo for guiado
pela aplicação que se deseja.
Se a aplicação desejada for um sistema de controle de acesso, usando o reconhecimento
da faces, espera-se colaboração daqueles que vão utilizar tal sistema. Portanto
preocupações do tipo: posicionamento da face de forma correta em frente a câmera de
aquisição de imagens, expressão facial neutra apresentada pelo usuário no momento da
validação do acesso, presença ou ausência de adornos como óculos por exemplo, não
representam grandes problemas pois os usuários estarão cientes das exigências para o
perfeito funcionamento do sistema. Assim, as faces dificilmente estarão em uma
posição diferente da esperada, estando ainda a uma distância conhecida da câmera.
142
O ambiente de aquisição das imagens é perfeitamente controlável, no que se refere a
luminosidade, ou presença de objetos que possam ocultar partes de interesse da face a
ser analisada. Como o número de pessoas que terá acesso a um determinado local não
deve ser muito grande, um sistema com as características do sistema híbrido
apresentado nesta dissertação, atenderia às necessidades exigidas para o controle de
acesso a determinados ambientes.
Para o caso de reconhecimento de faces de criminosos, dentro de uma banco de fotos, as
características referentes ao posicionamento frontal da face, controle de iluminação e
"background" também atenderiam às necessidades de funcionamento do sistema
híbrido. Porém o grande número de faces presentes em um banco de fotos policial,
geralmente em torno de milhares, pode ser um elemento que dificultaria o
reconhecimento.
A melhor estratégia para este caso, seria uma estratificação das faces em número maior
de classes que o apresentado nesta dissertação. Dessa forma, diminuir-se- ia o número de
elementos presentes em cada classe de faces. Para o caso onde a rede não consiga
determinar exatamente a face procurada, ela poderá apontar a face que mais se
assemelha ao objetivo, segundo as métricas avaliadas.
Além das aplicações citadas acima, que podem ser satisfeitas pelo sistema híbrido, ainda
é possível utilizá- lo como apoio para outros sistemas de reconhecimento facial, fazendo
com que ele gere um parecer paralelo e depois se compare os dois resultados obtidos.
Em caso de duplo positivo, isto é, ambos os sistemas reconheceram a face, uma dada
ação poderia ser executada. Caso pelo menos um dos sistemas apresentasse resposta
divergente, uma nova verificação poderia ser exigida, ou então uma intervenção humana
solicitada. E em caso de duplo negativo, a ação correspondente ao "não
reconhecimento" seria disparada.
O sistema aqui proposto pode ainda ser adaptado para determinação de sexo, raça,
auxílio em análises faciais buscando por problemas de assimetria facial, auxílio a
ortodontia entre outras aplicações.
143
CAPÍTULO 6
CONCLUSÕES E PERSPECTIVAS
PARA TRABALHOS FUTUROS
Esta dissertação apresenta um protótipo de avaliação para a construção de um sistema
híbrido inteligente, direcionado ao reconhecimento de faces. Tal sistema procura
mesclar as características locais e globais da face, usadas nos métodos geométricos, com
a capacidade de generalização e robustez à falhas, observadas nos métodos inteligentes
baseados em redes neurais artificiais.
A aplicação dos métodos geométricos ao reconhecimento facial teve início na década de
60. Eram usadas medidas de componentes e regiões da face, coletadas manualmente,
para formar um vetor de medidas características que representaria cada padrão de forma
única. A escolha das características a serem medidas era feita de forma subjetiva, não
havendo nenhuma explicação lógica ou embasamento teórico para escolher este ou
aquele componente facial. Além disso, a comparação feita entre dois vetores,
verificando se tais representações faziam referência à mesma face, era feita através de
algoritmos de classificação numérica. Esta forma de comparação era altamente
suscetível a variações causadas por ruídos ou por imperícia no momento da coleta de
medidas.
Buscou-se neste trabalho, levantar embasamentos científicos para auxiliar na escolha
dos componentes a serem examinados na face. Observou-se também, quais medidas
deveriam ser consideradas para se realizar o reconhecimento facial. Estudos foram
realizados sobre a morfologia da face humana, buscando encontrar pontos de referência
que justificassem a escolha deste ou daquele componente, para se extrair as medidas
responsáveis por representar uma face de forma única.
Os fundamentos seguidos aqui para determinar os pontos de referência, componentes e
medidas faciais relevantes para o reconhecimento de faces foram encontrados em
estudos anatômicos da área de ortodontia, fonoaudiologia e reconstituição maxilo-facial.
144
Avaliando-se as referências destas ciências, descobriu-se que as faces podem ser
estratificadas em classes, de acordo com a determinação do seu índice facial. Este
índice, que é composto pela razão entre a altura facial e a distância bizigomática, pode
ser determinado sem dificuldades e de forma satisfatoriamente precisa em fotos de faces
frontais. Ainda nos estudos realizados sobre a anatomia facial, foram encontrados
pontos de referência sobre o esqueleto da face (denominados pontos craniométricos) e
relações entre estes pontos (denominadas medidas lineares). Estas relações são usadas
por profissionais de ortodontia e reconstituição maxilo-facial em exames, tratamentos e
cirurgias corretivas.
O uso destes pontos de referência durante os testes aqui realizados, bem como o uso das
medidas lineares estabelecidas entre eles, mostrou-se eficiente na formação de vetores
capazes de representar faces de forma única, possibilitando assim o seu reconhecimento.
Após este estudo, um dos problemas apontados originalmente para o uso dos métodos
geométricos (subjetividade na determinação de quais medidas devem ser usadas para
representar uma face) pôde ser resolvido. Adotou-se como referência, para a
determinação das medidas características de uma face, o uso dos pontos craniométricos
e das medidas lineares existentes entre eles. Todos os pontos de referência usados aqui
estão presentes em todas as faces humanas e são possíveis de serem determinados sem
maiores problemas.
O segundo problema, apontado em estudos anteriores sobre os métodos geométricos, foi
a vulnerabilidade a ruídos. Originalmente os métodos geométricos usavam algoritmos
de classificação numérica para a comparação entre 2 vetores, a fim de determinar se
ambos eram referentes à mesma face. Foi proposto nesta dissertação a substituição
desses algoritmos por métodos baseados em inteligência computacional.
Para tornar a tarefa de reconhecimento facial mais simples, este trabalho usou a
estratégia "dividir para conquistar". Tal estratégia prega a quebra de problemas grandes
e de difícil solução, em problemas menores que apresentem soluções mais
simplificadas.
145
Optou-se então por quebrar a tarefa de reconhecimento facial em 2 tarefas menores. A
primeira tarefa é verificar se uma determinada face é conhecida. Em caso positivo
inicia-se segunda tarefa, que é a procura (dentro do grupo de faces vistas na etapa de
treinamento) daquela face que mais se assemelha ao padrão analisado no momento.
Foram usadas redes neurais multicamadas, alimentadas adiante e treinadas por
retropropagação do erro, a fim de verificar se um padrão era conhecido ou não (etapa 1).
Usou-se também (etapa 2) outra rede com as mesmas características estruturais, um
número maior de entradas e de neurônios escondidos, para avaliar a similaridade entre
os padrões vistos na etapa de treinamento e o padrão avaliado naquele momento. Cada
uma das cinco classes de faces possui um par dedicado de redes (uma para a etapa 1 e
outra para a etapa 2). O uso da estratégia se mostrou eficaz pois foram obtidos bons
índices de acerto no reconhecimento facial.
A estratificação das faces em diferentes classes contendo padrões com características
semelhantes, antes de apresentá-las às redes neurais, foi importante para otimizar o
aprendizado dessas redes. Foi observado, durante a etapa de testes, que antes de usar a
estratificação em classes, um determinado número de faces era aprendido pela rede sem
maiores problemas. Alterando-se os padrões para um segundo grupo, com o mesmo
número de elementos, a rede apresentava dificuldades em aprendê- los. Mais tarde,
descobriu-se que essa dificuldade estava diretamente ligada às características de faces
pertencentes a classes extremas. Durante a etapa de treinamento, os ajustes feitos para
satisfazer o aprendizado de um determinado padrão de uma classe entravam em
contradição com os ajustes nos pesos para atender o padrão da outra classe. Esta
situação levava a rede a não convergência.
Analisando os testes realizados, pode-se perceber que o emprego de um sistema híbrido
que combina características de métodos geométricos e características de inteligência
computacional, é perfeitamente viável para a tarefa de reconhecimento facial.
Foram alcançados índices de acerto acima de 95% para as redes da etapa 1, avaliando-se
padrões vistos na fase de treinamento acrescidos de ruídos. E foram alcançados índices
de acerto superiores a 85%, quando apresentados padrões que não estava m presentes na
146
fase de treinamento. As redes da etapa 2 de reconhecimento obtiveram acertos
superiores a 97%.
Observou-se durante os testes a influência sofrida por algumas regiões da face a
variações estéticas como cortes de cabelo, presença ou ausência de barba, bigode e
cavanhaque. As regiões mais afetadas por estas variações foram as relações faciais que
envolviam o 1º terço facial (T1), o 3º terço facial (T3) e a altura da face (FY).
Em presença de certos adornos (barba e cavanhaque) ou penteados (com franjas
cobrindo a testa) percebeu-se uma grande dificuldade para a determinação exata dessas
medidas, principalmente na determinação de T1. Foram feitos testes sem o uso de
relações métricas que contivessem essas 3 medidas, e foi possível realizar o
reconhecimento da etapa1 sem problemas. A medida FY foi usada apenas para a
determinação do índice facial, no caso desse teste.
No decorrer dos testes foi possível também perceber que a etapa que deve ser tratada
com mais cuidado é a etapa 1. Nela devem ser usadas as relações que apresentaram
maior poder de diferenciação entre faces, a fim de garantir uma sinalização precisa
sobre a face ser "conhecida" ou "não-conhecida".
O estudo do poder de discernimento de uma relação métrica entre duas medidas pode
ser feita através de uma avaliação gráfica, como foi mostrado no capítulo 4 desta
dissertação. Através da variação apresentada por uma relação métrica entre uma face e
outra, pode-se ter a noção se ela tem um alto poder de diferenciação (quando há
oscilação significativa de face para face) ou não (quando a trajetória da linha
permanecer aproximadamente constante variando-se de face para face).
Avaliando-se a etapa 2 do reconhecimento, observa-se que ela funciona como um ajuste
fino para encontrar um determinado padrão dentro de um conjunto de padrões com
características próximas. Como as características não são exatamente as mesmas, a
tarefa de mapeamento de um padrão em um dos outros padrões do conjunto não se
mostra muito complexa para um número não muito grande de elementos. Para um
147
número maior de elementos do conjunto a idéia de não complexidade se mantém, desde
que existam variações suficientes entre os valores que compõem os padrões.
Deve-se estar atendo ao número de entradas a serem usadas para representar cada face
na etapa 2. Pode-se conseguir um bom índice de acerto usando um número pequeno de
entradas, mas a robustez a ruídos pode ficar comprometida com a redução dos padrões
de desempate.
Ainda com relação à composição dos vetores que representam as faces, o uso das
relações métricas entre medidas de componentes e regiões da face, ao invés do uso das
medidas puras, se mostrou muito útil para eliminar variações que podem existir entre a
distância da face e da câmera no momento da foto. Além disso, cria-se a oportunidade
de aumentar o número de possíveis componentes do vetor que representa a face.
Por fim, podem ser citados como contribuição oferecida por este trabalho os seguintes
tópicos:
• Uso de pontos de referência anatômicos e suas relações na criação de
uma representação facial aplicável à tarefa de reconhecimento;
• Avaliação na substituição de algoritmos numéricos por métodos
inteligentes na tarefa de comparação entre vetores contendo métricas
faciais;
• Avaliação da estratificação de um conjunto de faces em classes menores
antes de iniciar as etapas de treinamento e também na etapa do
reconhecimento facial propriamente dito;
• Avaliação e alertas sobre regiões da face que devem ser evitadas, dentro
do possível, para se representar uma face (devido a suscetibilidade a
variações estéticas);
148
Os artigos publicados durante a confecção deste trabalho estão citados nas referências
bibliográficas (Oliveira e Guimarães, 2001a) e (Oliveira e Guimarães, 2001b).
Perspectivas para trabalhos futuros
Inicialmente deve-se realizar um estudo das melhorias que seriam agregadas ao sistema,
se juntamente com as fotos frontais fossem analisadas também as fotos perfiladas dos
modelos. De posse dessas informações, seria possível também fazer uso de outras
distâncias e ângulos faciais usados pela ortodontia, aplicando-as ao reconhecimento
facial. Dessa forma o sistema híbrido poderia se tornar mais robusto a falhas.
Ainda com relação às métricas faciais, novas combinações poderiam ser testadas na
etapa 2. Deseja-se assim verificar outras medidas que também se mostrem aptas ao
"ajuste fino" do reconhecimento facial feito por esta etapa.
Além desse estudo, outro ponto a ser desenvolvido é a extração automática das métricas
faciais. Dessa forma, seria possível ter a certeza que nenhum conhecimento implícito ao
operador que extrai as métricas está sendo usado na coleta. Uma sugestão para essa
extração automática é a divisão da tela em regiões onde espera-se que estejam presentes
os componentes a serem medidos. A partir dessa divisão, seguida de seguimentações e
filtragens em cada uma das regiões definidas a fim de realçar as características
desejadas, seriam determinados os pontos de interesse e as respectivas medidas entre
rede neural com o T- learn, será criada aqui uma rede capaz de solucionar o problema da
porta lógica XOR.
Portanto, após escolher o nome XOR para o projeto, 3 arquivos com o mesmo
nome são automaticamente criados, cada qual com sua função e extensão específica,
como mostrado na Figura A2.
FIGURA A.2 – Projeto XOR com as respectivas janelas de configuração.
Cada janela será usada para a entrada de informações relevantes a diferentes aspectos da
arquitetura da rede e ambiente de treinamento.
A janela referente ao arquivo XOR.cf é usada para definir o número de nodos da rede e
os padrões iniciais de conexão entre estes nodos antes do início do treinamento.
A janela do arquivo XOR.data define quantos são os padrões de entrada da rede, e o
formato através do qual eles estão representados no arquivo.
Por fim, a janela referente ao arquivo XOR.teach define os padrões esperados na saída
da rede, detalhando quantos são estes padrões, e o formato que eles estão representados.
Por convenção, o T- learn necessita que qualquer projeto de simulação possua os 3
arquivos listados anteriormente. Ele espera ainda que estes arquivos possuam as
extensões .cf, .data e .teach. Todos os arquivos pertencentes a um mesmo projeto devem
ter o mesmo nome. As informações do projeto são armazenadas em um arquivo especial
sem extensão criado no momento da escolha do nome do projeto. No caso do exemplo
aqui apresentado, foi criado automaticamente o arquivo XOR. Este arquivo identifica o
projeto e faz a ligação com os outros 3 arquivos específicos para cada função. Para abrir
159
um projeto já existente no T-learn, deve-se abrir este arquivo principal no menu
“Network”, opção “Open Project”, e ele se encarrega de abrir os demais arquivos
específicos (.cf, .data e . teach).
O T-learn é sensível a letras maiúsculas e minúsculas, além de espaços em branco.
Portanto, deve-se estar atento na digitação dos comandos específicos de cada uma das
janelas descritos a seguir.
O arquivo XOR.cf contém 3 sessões:
• A sessão NODES especifica o número total de unidades da rede e
identifica quais nodos executam o papel de entrada e saída da rede.
• A sessão CONNECTIONS especifica como as unidades são
interconectadas.
• A sessão SPECIAL fornece informações que determinam o valor inicial
das conexões e especifica as unidades cujos valores de ativação estão
disponíveis para inspeção.
O arquivo XOR.cf deve ter o conteúdo mostrado na Figura A3.
FIGURA A.3 – Conteúdo do arquivo XOR.cf.
Note que as sessões são delimitadas, sendo escritas em letras maiúsculas e seguidas de
dois pontos “:”. As instruções têm as seguintes funções:
160
“NODES:” define o início do bloco de nodos;
“nodes = 3” define quantos nodos farão parte da rede; “inputs = 2” define o número de entradas da rede; “outputs = 1” define quantos serão os neurônios de saída da rede; “output node is 3” define qual dos neurônios será a saída da rede; “CONNECTIONS:” define o início da sessão que estabelece as conexões entre
nodos; “groups = 0” diz ao T-learn quantos grupos de conexões são restritos a ter o
mesmo valor. Na rede atual, não há nenhuma restrição, portanto define-se que ‘groups = 0’;
“1-2 from i1- i2” define que os neurônios 1 e 2 recebem entradas de i1 e i2; “3 from 1-2” define que o neurônio 3 recebe as saídas dos neurônios 1 e 2 como
entradas; “1-3 from 0” define que os 3 neurônios da rede recebem entradas de um ‘bias’; “SPECIAL:” define o início de uma nova sessão; “selected = 1-3” diz ao T-learn quais unidades estão sendo selecionadas para
impressão especial; “weight-limit = 1.00” define que o intervalo de inicialização dos pesos deve
estar enter 0 e 1. O arquivo XOR.data define os padrões de entrada que serão apresentados ao T-
learn. A entrada dos dados deve ser feita como mostrado na Figura A.4.
FIGURA A.4 – Conteúdo do arquivo XOR.data.
A primeira linha desse arquivo deve ser o comando “distributed”. A linha seguinte
define o número de padrões que devem ser apresentados à rede em i1 e i2, já citados no
arquivo “XOR.cf”.
161
O arquivo XOR.teach é mostrado na Figura A.5. A primeira linha de arquivo segue o
mesmo padrão descrito no arquivo “XOR.data”. A linha seguinte determina a
quantidade de padrões de saída para as respectivas entradas apresentadas no arquivo
“XOR.data”. A cada uma das linhas do arquivo XOR.teach, está relacionada a entrada
presente no arquivo “XOR.data”. Então, para o padrão de entrada “0 0”, espera-se a
saída “0” e assim por diante.
FIGURA A.5 – Conteúdo do arquivo XOR.data.
Desta forma, termina-se a etapa de parametrização da rede. Pode-se verificar a
arquitetura rede criada usando-se o menu “Displays” e escolhendo a opção “Network
Architecture”.
Para a rede construída no exemplo citado aqui, tem-se a arquitetura ilustrada na Figura
A.6.
162
FIGURA A.6 – Arquitetura da rede criada.
Após a definição da estrutura, conexões, padrões de entrada e saídas desejadas, é
necessário definir os parâmetros de treinamento. Isso é feito através do menu
“Networks”, escolhendo-se a opção: “Training options”. A tela de configuração dos
parâmetros de treinamento é mostrada na Figura A.7.
FIGURA A.7 – Janela de parâmetros de treinamento da rede.
163
Através desta tela é possível se configurar os parâmetros de treinamento da rede, tais
como número de épocas, valor do ‘bias’, taxa de aprendizado, momentum, erro médio
quadrático aceitável, etc.
Feitas as devidas configurações, para efetuar o treinamento da rede, através do menu
“Network”, escolhe-se a opção “Train the network”.
Para acompanhar o gráfico de evolução do erro durante o treinamento, seleciona-se
através do menu “Displays”, a opção “Error display”. O gráfico resultante é mostrado
na Figura A.8.
FIGURA A.8 – Gráfico de evolução do erro médio quadrático. A verificação do real aprendizado da rede é feita através do menu “Networks”
escolhendo-se a opção “Verify network has learned”. Nesse momento, são novamente
apresentados à rede os padrões usados no treinamento e são avaliados os valores de
saída apresentados pela rede.
Para o exemplo aqui mostrado, os valores de saída obtidos após 4000 iterações com os
parâmetros usados no treinamento foram:
164
Output activations using XOR-4000.wts and XOR.data (Training Set) 0.023 0.976 0.976 0.030
As saídas mostram que a rede realmente aprendeu os padrões apresentados.
Para a apresentação de padrões que não estavam presentes no treinamento da rede,
formando um conjunto de validação de dados, basta criar um novo arquivo
“novels.data” através do menu “File” opção “New”. Nesse arquivo, seguindo os
mesmos padrões do arquivo “.data”, entra-se com os novos valores. No menu
“Networks”, opção “Testing options” deve-se alterar a opção “Testing set” para “Novel
data” e colocar na caixa de texto ao lado, o nome do arquivo de testes (novels.data aqui
descrito).
Feito isso, para submeter os novos padrões à rede, basta acessar o menu “Networks” e
escolher a opção “Verify network has learned”. O novo conjunto de padrões será
submetido à rede e serão apresentadas as respostas da rede a esses padrões.
O T- learn oferece muitos outros recursos, como análise de componentes principais,
análise de ‘clusters’, verificação gráfica da ativação dos nodos sob a presença dos
padrões de ent rada entre outras ferramentas de análise.
Maiores detalhes do funcionamento e recursos do T- learn podem ser encontrados no
endereço: http://crl.ucsd.edu/innate ou no livro “Exercises in Rethinking Innateness – a
Handbook for Connectionist Simulations”, presente nas referências bibliográficas desta