PROCESSAMENTO DE LINGUAGEM em Ivo Nascimento PHP Wednesday, October 19, 11
Jun 05, 2015
PROCESSAMENTO DE LINGUAGEM
em
Ivo Nascimento
PHP
Wednesday, October 19, 11
Ivo Nascimento
Latest ProjectsPEAR
PEAR2Blue Seed
php5minutesianntech.com.br
http://o8o.com.br
Code Repositorygithub.com/iannsp
Wednesday, October 19, 11
Agenda
1. - Por que?2. - Como?2.1 - TF-IDF2.2 - NLP2.3 ?
Wednesday, October 19, 11
Por Que?
Wednesday, October 19, 11
TF-IDFTerm Frequency-Inverse Document Frequency
dado um corpus, analisa o conteúdo
calculando a importância relativa
de um termo.
Wednesday, October 19, 11
tf * idf
Wednesday, October 19, 11
Extração de informação
O desafio de um ser humano não eh deixar para tras a condição de estudante mas descobrir o que estudar.
Wednesday, October 19, 11
Tokenização
$terms =Array(‘O’, ‘desafio’, ‘de’, ‘um’, ‘ser’, ‘humano’, ‘não’, ‘eh’, ‘deixar’, ‘para’, ‘tras’, ‘a’, ‘condição’, ‘de’, ‘estudante’, ‘mas’, ‘descobrir’, ‘o’, ‘que’, ‘estudar’);
Wednesday, October 19, 11
Normalização
$terms =Array(‘o’, ‘desafio’, ‘de’, ‘um’, ‘ser’, ‘humano’, ‘não’, ‘é’, ‘deixar’, ‘para’, ‘tras’, ‘a’, ‘condição’, ‘de’, ‘estudante’, ‘mas’, ‘descobrir’, ‘o’, ‘que’, ‘estudar’);
Wednesday, October 19, 11
Stop-words
$terms =Array(‘o’, ‘desafio’, ‘de’, ‘um’, ‘ser’, ‘humano’, ‘não’, ‘é’, ‘deixar’, ‘para’, ‘tras’, ‘a’, ‘condição’, ‘de’, ‘estudante’, ‘mas’, ‘descobrir’, ‘o’, ‘que’, ‘estudar’);
Wednesday, October 19, 11
Aprendizado
$dictPositive = Array(‘desafio’=>0.2,‘ser’=>0.3,‘humano’ =>0.21,‘deixar’ =>0.21,‘condição’ =>0.33,‘estudante’ =>0.4,‘descobrir’ =>0.133,‘estudar’ =>0.33);
$dictNegative = Array(‘não’ =>0.45,‘tras’ =>0.21);
Wednesday, October 19, 11
Classi!cação
$terms =Array(‘desafio’, ‘ser’, ‘humano’, ‘não’, ‘deixar’, ‘tras’,‘condição’,‘estudante’, ‘descobrir’,‘estudar’);
Positiva#estudante#desafio
Wednesday, October 19, 11
n-gram(bigram,trigram,...)
$BIGRAM=Array((null,‘o’),(‘o’,‘desafio’),(‘desafio’,’de’),(‘de’,’um’),(‘um’,‘ser’),(‘ser’,‘humano’),(‘humano’ ,‘não’),(‘não,’’é’),(‘é’,‘deixar’),(‘deixar’,‘para’),(‘para’,‘tras’),(‘tras’,‘condicao’),(‘condicao’,’de’),(‘de’,‘estudante’),(‘estudante’,‘mas’),(‘mas’,‘descobrir’),(‘descobrir’,’o’),(‘o’,‘que’),(‘que’,‘estudar’),(‘estudar’,null));
O desafio de um ser humano não é deixar para tras a condição de estudante mas descobrir o que estudar.
Wednesday, October 19, 11
Análise
Distância Euclidiana
Coeficiente de Relção de PearsonCoeficiente de Jaccard
Coef. Dice
Qui-quadrado
Filtro Bayesiano
Wednesday, October 19, 11
Problemas da abordagem tf-idf
Termos
ordem não importa
Homógrafos
Wednesday, October 19, 11
NLP
dado um corpus, analisa o conteúdo
e busca compreensão do
todo.
Wednesday, October 19, 11
É uma área da inteligência arti!cial e da linguística que estuda os problemas da geração e compreensão automática
de linguas humanas naturais.(wikipedia)
Wednesday, October 19, 11
NLTK
Natural Language Tool Kit
http://www.nltk.org/
Wednesday, October 19, 11
O evento é bom.
O evento vai ser bom.
O evento foi bom.
O evento já foi bom.
O evento seria bom.
Wednesday, October 19, 11
NLP
O evento é bom.
S
O evento é bom
Wednesday, October 19, 11
The Biggest Question
Where are the NLP and M.P. tools for use in PHP?http://bit.ly/aCbfR0
Wednesday, October 19, 11
PIP (python in PHP)
A unica maneira de rodar a NLTKhttp://bit.ly/n69g0
Wednesday, October 19, 11
Texta - Text Analizer
O Iníciohttp://bit.ly/oZte8b
https://github.com/iannsp/texta
Wednesday, October 19, 11
Texta - Text Analizer
Wednesday, October 19, 11