Top Banner
Understanding fully-connected and convolutional layers in unsupervised learning using face images Lucas Fontes Buzuti Department of Electrical Engineering FEI University Center ao Bernardo do Campo-SP, Brazil [email protected] Carlos Eduardo Thomaz Department of Electrical Engineering FEI University Center ao Bernardo do Campo-SP, Brazil [email protected] Abstract—The goal of this paper is to implement and compare two unsupervised models of deep learning: Autoencoder and Convolutional Autoencoder. These neural network models have been trained to learn regularities in well-framed face images with different facial expressions. The Autoencoder’s basic topology is addressed here, composed of encoding and decoding multilayers. This paper approaches these automatic codings using multivari- ate statistics to visually understand the bottleneck differences between the fully-connected and convolutional layers and the corresponding importance of the dropout strategy when applied in a model. Index Terms—deep neural network, autoencoder, convolutional autoencoder, multivariate statistics I. I NTRODUC ¸˜ AO Estudos relacionados a Inteligencia Artificial, com foco em Aprendizagem Profunda (Deep Learning) vˆ em mostrando resultados impressionantes na ´ area de reconhecimento de padr˜ oes, chegando a superar o estado-da-arte [8] [11] [15]. No contexto de reconhecer padr˜ oes em imagens de faces, capturadas com diferentes express˜ oes faciais, este artigo implementa e analisa um modelo de aprendizado ao- supervisionado de redes neurais profundas denominado au- toencoders, com o objetivo de compreender regularidades extra´ ıdas destas imagens. Historicamente, em 1986 os autoencoders tiveram uma primeira citac ¸˜ ao indiretamente em um artigo relacionado ao erro de propagac ¸˜ ao [17], descrevendo um novo tipo de rede feedforward na ´ epoca e seu formalismo matem´ atico. A ideia ressurgiu em trabalhos subsequentes de pesquisa nos anos seguintes. Em 1989 Baldi e Hornik [2] introduziram os au- toencoders propondo uma descric ¸˜ ao precisa das caracter´ ısticas salientes da superf´ ıcie anexada a func ¸˜ ao de erro quando as unidades s˜ ao lineares. Durante as d´ ecadas de 1980 e 1990, diversos algoritmos de aprendizado n˜ ao supervision- ados que foram sugeridos para redes neurais puderam ser vistos como variac ¸˜ oes de dois m´ etodos b´ asicos: An´ alise de Componentes Principais (Principal Components Analysis ou PCA) e Quantizac ¸˜ ao Vetorial (Vector Quantization ou VQ). Entretanto, em 1994, Hinton e Zemel [9] descreveram uma nova func ¸˜ ao objetiva para o treinamento de autoencoders que permitiu extrac ¸˜ oes de representac ¸˜ oes fatoriais n˜ ao lineares. Usando o autoencoder para reduzir a dimensionalidade de dados, Hinton e Salakhutdinov comprovaram em 2006, a eficiˆ encia do autoencoder em relac ¸˜ ao ao PCA [8]. O uso de Deep Learning vem aumentando exponencial- mente e esse crescimento est´ a sendo poss´ ıvel porque redes neurais profundas com topologias muito complexas est˜ ao sendo computadas em GPUs (Graphics Processing Unit), permitindo comprovar na pr´ atica, o que no passado havia sido realizado matematicamente. Neste artigo, ser´ a investigado um autoencoder profundo (Deep Autoencoder) [8] para an´ alise de padr˜ oes em imagens faciais comparando dois tipos de camadas, sendo essas: To- talmente Conectada (Fully-Connected Layer) e Convolucional (Convolutional Layer). Tais redes neurais profundas contˆ em ultiplas camadas n˜ ao lineares, tornando-as modelos adequa- dos para aprender relac ¸˜ oes complexas entre entradas e sa´ ıdas de imagens de faces, como exemplificado aqui. II. MAPEAMENTO DE ENTRADAS EM SA´ IDAS A. Autoencoders Rumelhart, Hinton e Williams [17] descreveram um prob- lema em que um conjunto de padr˜ oes de entradas s˜ ao ma- peados para um conjunto de padr˜ oes de sa´ ıdas atrav´ es de um n´ umero reduzido de neurˆ onios/unidades ocultas (hidden units). Para provar o problema proposto, conjecturaram o mapeamento de N padr˜ oes bin´ arios de entrada para N padr˜ oes de sa´ ıda, no qual N representa o n´ umero de unidades de entrada e sa´ ıda, al´ em disso presumiram o n´ umero de neur ˆ onios da camada oculta atrav´ es de log 2 N [17]. O sistema proposto aprende a usar as unidades da camada oculta para formar um c´ odigo com padr˜ ao bin´ ario distinto de cada N padr˜ oes de entrada. A topologia da rede realiza a codificac ¸˜ ao de N padr˜ oes de bits em log 2 N e ent˜ ao decodifica essas representac ¸˜ oes para os padr˜ oes de sa´ ıda. O autoencoder pode ser descrito em duas partes: func ¸˜ ao do codificador (en- coder function) e func ¸˜ ao do decodificador (decoder function), tal que a func ¸˜ ao h = f (xW + b) (1) ´ e a representac ¸˜ ao latente, x os dados de entrada, W matriz de pesos, b matriz bias e f a func ¸˜ ao de ativac ¸˜ ao, e
1

Understanding fully-connected and convolutional layers in ......Understanding fully-connected and convolutional layers in unsupervised learning using face images Lucas Fontes Buzuti

Dec 23, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Understanding fully-connected and convolutional layers in ......Understanding fully-connected and convolutional layers in unsupervised learning using face images Lucas Fontes Buzuti

Understanding fully-connected and convolutionallayers in unsupervised learning using face images

Lucas Fontes BuzutiDepartment of Electrical Engineering

FEI University CenterSao Bernardo do Campo-SP, Brazil

[email protected]

Carlos Eduardo ThomazDepartment of Electrical Engineering

FEI University CenterSao Bernardo do Campo-SP, Brazil

[email protected]

Abstract—The goal of this paper is to implement and comparetwo unsupervised models of deep learning: Autoencoder andConvolutional Autoencoder. These neural network models havebeen trained to learn regularities in well-framed face images withdifferent facial expressions. The Autoencoder’s basic topology isaddressed here, composed of encoding and decoding multilayers.This paper approaches these automatic codings using multivari-ate statistics to visually understand the bottleneck differencesbetween the fully-connected and convolutional layers and thecorresponding importance of the dropout strategy when appliedin a model.

Index Terms—deep neural network, autoencoder, convolutionalautoencoder, multivariate statistics

I. INTRODUCAO

Estudos relacionados a Inteligencia Artificial, com focoem Aprendizagem Profunda (Deep Learning) vem mostrandoresultados impressionantes na area de reconhecimento depadroes, chegando a superar o estado-da-arte [8] [11] [15].No contexto de reconhecer padroes em imagens de faces,capturadas com diferentes expressoes faciais, este artigoimplementa e analisa um modelo de aprendizado nao-supervisionado de redes neurais profundas denominado au-toencoders, com o objetivo de compreender regularidadesextraıdas destas imagens.

Historicamente, em 1986 os autoencoders tiveram umaprimeira citacao indiretamente em um artigo relacionado aoerro de propagacao [17], descrevendo um novo tipo de redefeedforward na epoca e seu formalismo matematico. A ideiaressurgiu em trabalhos subsequentes de pesquisa nos anosseguintes. Em 1989 Baldi e Hornik [2] introduziram os au-toencoders propondo uma descricao precisa das caracterısticassalientes da superfıcie anexada a funcao de erro quandoas unidades sao lineares. Durante as decadas de 1980 e1990, diversos algoritmos de aprendizado nao supervision-ados que foram sugeridos para redes neurais puderam servistos como variacoes de dois metodos basicos: Analise deComponentes Principais (Principal Components Analysis ouPCA) e Quantizacao Vetorial (Vector Quantization ou VQ).Entretanto, em 1994, Hinton e Zemel [9] descreveram umanova funcao objetiva para o treinamento de autoencoders quepermitiu extracoes de representacoes fatoriais nao lineares.Usando o autoencoder para reduzir a dimensionalidade de

dados, Hinton e Salakhutdinov comprovaram em 2006, aeficiencia do autoencoder em relacao ao PCA [8].

O uso de Deep Learning vem aumentando exponencial-mente e esse crescimento esta sendo possıvel porque redesneurais profundas com topologias muito complexas estaosendo computadas em GPUs (Graphics Processing Unit),permitindo comprovar na pratica, o que no passado havia sidorealizado matematicamente.

Neste artigo, sera investigado um autoencoder profundo(Deep Autoencoder) [8] para analise de padroes em imagensfaciais comparando dois tipos de camadas, sendo essas: To-talmente Conectada (Fully-Connected Layer) e Convolucional(Convolutional Layer). Tais redes neurais profundas contemmultiplas camadas nao lineares, tornando-as modelos adequa-dos para aprender relacoes complexas entre entradas e saıdasde imagens de faces, como exemplificado aqui.

II. MAPEAMENTO DE ENTRADAS EM SAIDAS

A. Autoencoders

Rumelhart, Hinton e Williams [17] descreveram um prob-lema em que um conjunto de padroes de entradas sao ma-peados para um conjunto de padroes de saıdas atraves deum numero reduzido de neuronios/unidades ocultas (hiddenunits). Para provar o problema proposto, conjecturaram omapeamento de N padroes binarios de entrada para N padroesde saıda, no qual N representa o numero de unidades deentrada e saıda, alem disso presumiram o numero de neuroniosda camada oculta atraves de log2N [17].

O sistema proposto aprende a usar as unidades da camadaoculta para formar um codigo com padrao binario distinto decada N padroes de entrada. A topologia da rede realiza acodificacao de N padroes de bits em log2N e entao decodificaessas representacoes para os padroes de saıda. O autoencoderpode ser descrito em duas partes: funcao do codificador (en-coder function) e funcao do decodificador (decoder function),tal que a funcao

h = f(xW + b) (1)

e a representacao latente, x os dados de entrada, W matriz depesos, b matriz bias e f a funcao de ativacao, e