FACULDADE DE E NGENHARIA DA UNIVERSIDADE DO P ORTO Caracterização de um corpus jornalístico português Henrique Teixeira de Sousa Mestrado Integrado em Engenharia Informática e Computação Orientador: Sérgio Nunes 27 de Julho de 2015
FACULDADE DE ENGENHARIA DA UNIVERSIDADE DO PORTO
Caracterização de um corpusjornalístico português
Henrique Teixeira de Sousa
Mestrado Integrado em Engenharia Informática e Computação
Orientador: Sérgio Nunes
27 de Julho de 2015
Caracterização de um corpus jornalístico português
Henrique Teixeira de Sousa
Mestrado Integrado em Engenharia Informática e Computação
Aprovado em provas públicas pelo Júri:
Presidente: Gabriel DavidArguente: Nuno Escudeiro
Vogal: Sérgio Nune27 de Julho de 2015
Resumo
Nesta dissertação procede-se ao processamento e caracterização de um arquivo de artigos denotícias do jornal online português JornalismoPortoNet (JPN), um corpus textual com conteúdode vários autores e tópicos. Um corpus representa um conjunto de textos no qual se pode efetuaruma análise estatística ou verificação de hipóteses, sobretudo na área da linguística. O crescentepoder computacional facilita o processamento de grandes corpora (pesquisa, tratamento, seleção,etc.). Este corpus tem como objetivo ser uma representação de texto jornalístico do JPN, cole-cionando os títulos, subtítulos, autores, notícias relacionadas, categorias e datas de publicação,para além de incluir uma pequena parte referente à opinião do leitor (comentários às notícias). Oarquivo é anotado quanto às partes da fala usadas, num primeiro processo de tratamento do seuconteúdo. Posteriormente é realizada uma análise aprofundada sobre a composição morfológicae categórica dos artigos de notícias, bem como uma investigação sobre os relacionamentos entrenotícias, os hábitos de publicação do jornal e as diferenças entre o grande leque de autores deexperiência variada. A análise morfológica revelou as diferenças em termos de partes do discursodo texto jornalístico quando comparado com outros tipos de textos, nomeadamente literários epolíticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais o jornal é principalmente composto por palavras referentes à cidade doPorto, fazendo-se também um estudo quanto aos n-gramas presentes nos textos. Categoricamenteo jornal aborda o tema da cidade do Porto, principalmente tópicos relacionados com a Univer-sidade do Porto, focando-se também na Cultura, na Ciência e Tecnologia, no País, no Mundo enoutros. A análise às relações entre notícias destaca ainda alguns artigos com maior importâncianum determinado tópico ou assunto. Finalmente é também analisada a receção do público face aoconteúdo jornalístico, tanto em visualizações como em comentários dos leitores, revelando a na-tureza apreciadora da maioria dos comentários que incidem sobretudo nos artigos de de Desportoe de Ciência e Tecnologia.
i
ii
Abstract
In this dissertation we process a news article archive from the portuguese online journal Jor-nalismoPortoNet (JPN), a text corpus with content from several authors and topics. A corpusrepresents a group of texts in which one can perform statistical analysis or hypothesis testing,mainly in the field of linguistics. The growing computing power eases the processing of largecorpora (searching, treatment, selection, etc.). This corpus has the objective of being a represen-tation of the journalistic text practiced by JPN, collecting titles, subtitles, authors, related news,categories and dates of publishing, while including a small part referring to the reader’s opinion(news comments). The corpus will be annotated in respect to the Part-of-Speech tags used. Fol-lowing this, an deep analysis is performed about the morphological and categorical compositionof the news articles, including research about relationships between news, the publishing habits ofthe journal and the differences between the huge array of authors with varying experience. Themorphological analysis revealed the differences in terms of the parts-of-speech used in the jour-nalistic text compared to other types of text, namely literary and political: JPN’s journalistic textpresents more parts of names and less adjectives and adverbs. In respect to the lexical analysis, thejournal is composed mainly of words related to the city of Porto; we also perform a study regardingthe ngrams present in the text. Categorically the journal discusses the city of Porto, mainly topicsrelated with the University of Porto, also focusing on Culture, Science and Technology, Portugaland the World. The news relation analysis also highlights some articles of bigger importance incertain subjects or topics. Finally, the publics reception to the journalistic material, be it in pagevisualization or readers’ comments, revealing the congratulatory aspect of most comments, whichtarget mostly articles in the Sports and Science and Technology categories.
iii
iv
Agradecimentos
Gostaria de agradecer a todos os que contribuíram direta e indiretamente para a realizaçãodesta dissertação, principalmente ao meu orientador, o professor Sérgio Nunes, por me ter acon-selhado, guiado e revisto todo o meu trabalho. À minha família dedico também um especialagradecimento pelo apoio prestado, assim como aos meus amigos e colegas de curso pelo compa-nheirismo que sempre mostraram ao longo deste percurso pessoal e académico.
Henrique Sousa
v
vi
Conteúdo
1 Introdução 11.1 Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Processamento de Linguagem Natural . . . . . . . . . . . . . . . . . . . 11.1.2 Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.3 As abordagens linguísticas no uso de corpora . . . . . . . . . . . . . . . 21.1.4 JornalismoPortoNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Motivação e Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3 Estrutura da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Revisão Bibliográfica 52.1 Corpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Corpora Internacionais . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.1.2 Corpora Portugueses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.1.3 Anotação de Corpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.1.4 Esquemas de Anotação . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.1.5 Anotação Embutida e Anotação Autónoma . . . . . . . . . . . . . . . . 102.1.6 Níveis de Anotação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Análise do Arquivo de Notícias . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.3 Tecnologias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3 Processamento do arquivo de Notícias 153.1 JPN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.2 Processamento e anotação do arquivo . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.1 Autores e Editores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2.2 Notícias Relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2.3 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4 Caracterização do Arquivo 214.1 Vista geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.2 Análise Jornalística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2.1 Hábitos de Publicação . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.2.2 Vídeo Artigos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3 Análise dos Visitantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.3.1 Acessos e Visitantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.3.2 Visualizações de Páginas . . . . . . . . . . . . . . . . . . . . . . . . . . 254.3.3 Atividade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.3.4 Pesquisas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.3.5 Browsers Usados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
vii
CONTEÚDO
4.3.6 Comentários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.4 Análise Morfológica e Lexical . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4.1 POS Tags . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.4.2 POS tags nos comentários . . . . . . . . . . . . . . . . . . . . . . . . . 334.4.3 Frases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.4.4 Léxico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.4.5 N-Gramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.5 Análise Categórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.5.1 POS Tags nas Categorias . . . . . . . . . . . . . . . . . . . . . . . . . . 384.5.2 Léxico nas Categorias . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.5.3 Popularidade das Categorias . . . . . . . . . . . . . . . . . . . . . . . . 41
4.6 Análise de Autores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.6.1 POS Tags . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.6.2 Categorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.7 Relações entre Notícias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.7.1 Categorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5 Conclusões e Trabalho Futuro 575.1 Trabalho Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Referências 61
viii
Lista de Figuras
4.2 Total número de artigos por mês . . . . . . . . . . . . . . . . . . . . . . . . . . 224.3 Total número de artigos por hora . . . . . . . . . . . . . . . . . . . . . . . . . . 234.4 Percentagem de vídeo artigos ao longo dos anos . . . . . . . . . . . . . . . . . . 244.5 Percentagem de vídeo artigos por categoria . . . . . . . . . . . . . . . . . . . . 244.6 Visitantes por mês . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.7 Visualizações de páginas por hora . . . . . . . . . . . . . . . . . . . . . . . . . 264.8 Visualizações de páginas por dia da semana . . . . . . . . . . . . . . . . . . . . 274.9 Browsers mais usados (Maio 2014) . . . . . . . . . . . . . . . . . . . . . . . . . 284.11 Horas até ao primeiro comentário após a publicação da notícia . . . . . . . . . . 294.12 Frequência de cada etiqueta POS no arquivo . . . . . . . . . . . . . . . . . . . . 304.13 Evolução das POS tags . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.14 Percentagem de POS tag por cada secção . . . . . . . . . . . . . . . . . . . . . 334.15 Percentagem de POS tag nos comentários . . . . . . . . . . . . . . . . . . . . . 344.17 Média TTR ao longo dos anos . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.18 Categorias mais frequentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.19 Evolução das categorias ao longo dos anos . . . . . . . . . . . . . . . . . . . . . 444.20 Distribuição de nomes comuns, partes de nome e preposições nas categorias . . . 454.21 Distribuição de adjetivos, advérbios e verbos nas categorias . . . . . . . . . . . . 464.22 Distribuição de demonstrativos, dígitos, quantidades e relativos nas categorias . . 474.23 Categorias mais populares (visualizações por artigo) . . . . . . . . . . . . . . . 494.24 Comentários por artigo nas diversas categorias . . . . . . . . . . . . . . . . . . . 504.25 POS Tags por grupo de autor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.26 Categorias por autor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.27 Grafo das relações entre notícias . . . . . . . . . . . . . . . . . . . . . . . . . . 534.28 Nós com maior valor de centralidade . . . . . . . . . . . . . . . . . . . . . . . . 544.29 As tags mais comuns no arquivo . . . . . . . . . . . . . . . . . . . . . . . . . . 55
ix
LISTA DE FIGURAS
x
Lista de Tabelas
2.1 Alguns corpora disponíveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2 Resumo das Tecnologias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1 Marcadores XML de cada artigo no Corpus do JPN . . . . . . . . . . . . . . . . 183.2 LX-Suite Tagset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.1 Frases de pesquisa mais utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . 274.2 Unidades e tipos de algumas partes de discurso no JPN . . . . . . . . . . . . . . 304.3 Comparação das etiquetas POS com outros corpora . . . . . . . . . . . . . . . . 314.4 Uso e evolução percentual de algumas tags . . . . . . . . . . . . . . . . . . . . . 314.5 Palavras e o seu uso percentual em cada sub corpora . . . . . . . . . . . . . . . . 374.6 Concordância da palavra “Porto” no JPN . . . . . . . . . . . . . . . . . . . . . 384.7 Colocações (%) da palavra ’Porto’ em diferentes corpora . . . . . . . . . . . . . 394.8 Nomes Comuns mais usados no arquivo do JPN . . . . . . . . . . . . . . . . . . 394.9 Adjetivos mais usados no arquivo do JPN . . . . . . . . . . . . . . . . . . . . . 394.10 Colocações (%) da palavra “Porto” nos títulos das notícias do JPN . . . . . . . . 404.11 Alguns adjetivos comuns nos comentários . . . . . . . . . . . . . . . . . . . . . 404.12 Alguns bigramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.13 Alguns trigrams e a sua comparação com outros corpora . . . . . . . . . . . . . 414.14 Pentagrams mais frequentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.15 Pentagrams mais frequentes nos comentários . . . . . . . . . . . . . . . . . . . 434.16 Adjetivos/Nomes comuns mais usados na categoria Desporto . . . . . . . . . . . 484.17 Adjetivos/Nomes comuns mais usados na categoria Cultura . . . . . . . . . . . . 484.18 Adjetivos/Nomes comuns mais usados na categoria Mundo . . . . . . . . . . . . 484.19 Adjetivos/Nomes comuns mais usados na categoria Educação . . . . . . . . . . . 48
xi
Capítulo 1
Introdução
1.1 Contexto
A área da linguística atravessou um período de grande crescimento na segunda metade do
século XX, aliada ao avanço do poder computacional e da facilidade de acesso e recolha de infor-
mação. Mais que o estudo do uso e significado da língua, a linguística debruça-se sobre a delicada
relação entre a linguagem e as voláteis estruturas sociais ao longo da história, contribuindo para a
compreensão da mente humana.
1.1.1 Processamento de Linguagem Natural
O Processamento de Linguagem Natural (PLN) é um campo da Informática que se desenvol-
veu a partir do estudo da linguagem e do nascimento da linguística computacional no contexto
da inteligência artificial [LHL+03]. O PLN preocupa-se com o tratamento da linguagem humana,
principalmente na sua forma natural como em emails, páginas web, livros, artigos de notícias,
etc. Os problemas abordados em NLP são vários e possuem níveis de complexidade diferentes:
sistemas de resposta automática, sumarização de textos, tradução, reconhecimento de voz, classi-
ficação de documentos, análise de sentimento, etc.
1.1.2 Corpus
Entende-se por corpus, no plural corpora, um conjunto de dados naturalmente ocorridos de
uma linguagem, criado geralmente com um propósito particular e representativo tanto de uma
linguagem em geral (e.g. Português), como o uso da linguagem num domínio mais específico
(e.g. poesia portuguesa). Nos últimos anos, resultante da evolução tecnológica e do crescimento
da abordagem computacional da linguística, é geralmente chamado de corpus todo o conjunto de
material existente em forma eletrónica e que pode ser processado por computadores [MXT06]. As
razões para a utilização de um corpus são várias: modelação e estudo da distribuição linguística de
1
Introdução
uma linguagem, treino de classificadores, arquivo e outros tópicos de pesquisa e desenvolvimento
linguístico. Desde os anos 70 verificou-se uma abordagem ao estudo da linguagem cada vez
mais centrada no uso de corpora no campo da linguística, o que levou à construção dos primeiros
conjuntos de textos.
1.1.3 As abordagens linguísticas no uso de corpora
As duas grandes abordagens ao estudo da língua com o uso de corpora diferem na importância
colocada nos textos para a criação e validação de teorias sobre a linguagem em questão [GLM97].
Na abordagem baseada em corpus (corpus-based), as teorias, ideias e modelos de linguagem são
testados e provados com o uso de corpora. Por sua vez, a abordagem guiada por corpus (corpus-
driven) entrega-se em absoluto à “integridade dos dados como um todo"[Bak06], em que novas
teorias e ideias são completamente refletidas no texto, desde que este possua um tamanho consi-
derável. Por outras palavras, o estudo intensivo do corpus revela novas ideias e teorias sobre a
linguagem em questão, enquanto que a abordagem baseada em corpus delega ao corpus apenas
uma tarefa de validação de teoremas.
1.1.4 JornalismoPortoNet
O JPN (JornalismoPortoNet) [Rei15b] é um jornal digital de informação geral da Licenciatura
de Ciências da Comunicação da Universidade do Porto, ativo desde 2004. Um jornal multimé-
dia e com atualização permanente, o JPN conta com a contribuição de diversos colaboradores,
“acompanhando a evolução das novas tecnologias de comunicação e pondo em prática as mais
modernas técnicas de expressão jornalística na Internet"[Rei15a]. O jornal publica artigos em
diversas categorias, desde a Cultura e Economia, até ao Desporto e Educação, e conta com ar-
tigos de exposição e entrevistas com personalidades relevantes. Desde o ano 2008 até ao ano
2012, arrecadou por quatro vezes consecutivas o prémio de “Melhor Ciberjornalismo Académico”
nas competições “Prémios de Ciberjornalismo”, promovidas pela equipa de investigação ObCiber
[RBZ14].
1.2 Motivação e Objetivos
A necessidade de novos corpus faz-se sentir com a evolução da linguagem (como por exemplo,
neologismos), e a evolução dos temas discutidos pela sociedade. Surge deste modo a oportunidade
de processar um vasto corpus português para contribuir e promover avanços na área da linguística
computacional e para analisar as ideias na presente sociedade. Pretende-se assim colecionar e
processar os artigos de notícias do arquivo online do jornal JPN. Este corpus será composto por
documentos que contêm tanto o corpo da notícia bem como o seu título, subtítulo, autor, notícias
relacionadas, categoria e data de publicação, de forma a permitir o estudo de outros tipos de
características (p. ex. frequência de notícias ao longo dos anos). Uma anotação ao nível gramatical
é adicionada permitindo uma investigação mais profunda quanto à composição morfológica dos
2
Introdução
textos jornalísticos do jornal, comparando-se com outros tipos de textos e arquivos de notícias.
Juntamente com esta análise ao arquivo é feita também uma análise aos acessos ao site do JPN
bem como ao conteúdo dos comentários dos leitores e aos seus hábitos de publicação.
1.3 Estrutura da Dissertação
Para além da introdução, esta dissertação contém mais 4 capítulos. No Capítulo 2, é descrito
o estado da arte e são apresentados trabalhos relacionados. No Capítulo 3 é esclarecida a estrutura
do arquivo bem como o processamento efetudo nos artigos. No Capítulo 4 são apresentadas as
análises efetuadas sobre o corpus, assim como algumas reflexões sobre a sua implicação e natu-
reza. No Capítulo 5 conclui-se a dissertação e pondera-se sobre possíveis extensões ao corpus e
algumas das suas aplicações futuras.
3
Introdução
4
Capítulo 2
Revisão Bibliográfica
Neste capítulo é descrito o estado da arte e as mais recentes inovações e projetos no campo da
linguística computacional e na oferta de corpora nacionais e internacionais.
2.1 Corpora
2.1.1 Corpora Internacionais
Os primeiros corpora linguísticos surgiram num contexto académico tendo como objetivo o
estudo da linguagem. Um dos primeiros e mais importantes corpus é o Brown Corpus [FK79], da
Universidade de Brown, publicado em 1963, com cerca de um milhão de palavras em inglês, de
obras publicadas em 1961. Sujeito a diversas análises computacionais, tornou-se um dos corpora
mais citados no campo da linguística. O corpus está dividido em 500 exemplos, cada um com
aproximadamente 2000 palavras, extraídos de várias áreas, desde fontes jornalísticas (Política,
Desporto, Sociedade) e religiosas até material educativo e de ficção.
Todas as palavras do Brown Corpus são ainda anotadas com uma etiqueta indicativa da classe
específica da palavra. Estes etiquetas pertencem a um conjunto de 82 etiquetas (tags) e estão divi-
didos em seis tipos: partes da fala (POS-tagging), etiquetas de função (determinantes, preposições,
etc), etiquetas de certas palavras importantes (neste caso not e os verbos be e have), etiquetas de
pontuação com importância sintática, etiquetas sobre morfemas da língua inglesa (indicadores de
possessão, pluralidade, passado, presente, particípio passado, comparação e superlativo), e final-
mente etiquetas com a função de indicar se uma palavra é estrangeira ou parte de uma citação. O
Brown Corpus foi uma peça importante na abordagem à linguística com base em corpora, sendo
usado em estudos de POS-tagging, identificação e delimitação de frases.
Um dos mais usados e detalhados corpora construídos a partir da agência de notícias Reuters,
o RCV1 (Reuters Corpus Volume 1) [RSW02] é composto por cerca de 800 000 notícias extraídas
entre agosto de 1996 e agosto de 1997. Os artigos do RCV1 foram manualmente anotados catego-
ricamente (relativamente ao tópico da notícia), usando um conjunto de 126 códigos, organizados
5
Revisão Bibliográfica
hierarquicamente. Um artigo pode ser anotado com mais do que um código. Adicionalmente,
cada artigo está anotado no que diz respeito à indústria (de um conjunto de 870 códigos) e às
regiões mencionadas na notícia. Esta última anotação está separada em três categorias: países,
grupos geográficos e grupos económicos (p. ex. GSEVEN). O corpus recebeu muita atenção nas
áreas de extração de informação e classificação de documentos. Mais antigo que o RCV1 é o cor-
pus Reuters-21578 [Lew97], um corpus muito popular entre a comunidade de processamento de
linguagem natural, com 21 578 artigos da Reuters do ano de 1987. Este corpus foi usado em proje-
tos de classificação de texto [Joa98] e representação de conhecimento [Wu04] e mapas neuronais
[Wer00].
Com o avanço dos anos foram surgindo cada vez mais corpora, em especial os chamados
corpora nacionais, que visam agregar dados que refletem o uso da linguagem nacional de um país
(Britânico, Americano, Polaco, etc). Esta evolução foi acompanhada com o aumento do tamanho
dos corpora, atingindo as 100 milhões de palavras em certos exemplos (British National Corpus
[Bur95]), ou até as 400 milhões de palavras no caso do Corpus of Contemporary American English
[Dav08]. Estes corpora reúnem uma grande quantidade de material, focando-se na diversidade de
textos e fontes, contribuíndo para o equilíbrio final do corpus, como diz McEnery et al.: “the
representativeness of a corpus, especially a general corpus, depends primarily upon how balanced
the corpus is, in other words, the range of text categories included in the corpus” [MXT06].
O British National Corpus (BNC) (Aston and Burnard 1998) [Bur95] representa um impor-
tante exemplo dos corpora nacionais, composto por mais de 100 milhões de palavras, com textos
extraídos de várias fontes jornalísticas, fictícias e académicas do século XX. O corpus possui uma
parte escrita (90%) e uma parte falada (10%), sendo esta última a transcrição de conversações
informais em diferentes contextos. O BNC foi automaticamente anotado com POS-tags usando
a ferramenta CLAWS [Gar87], e está codificado de acordo com a iniciativa TEI [IV95] para re-
presentar as diversas propriedades estruturais do texto (títulos, parágrafos, listas, etc). O trabalho
efetuado no BNC é extenso e abrange diferentes vertentes da linguística: desambiguação de pa-
lavras [Eva01] [SW01], o uso de diversas formas verbais e expressões na língua inglesa [Mal00]
[SV00] [Deu03], delimitação de frases [SG00], identificação de entidades [MTU+01] e categori-
zação de textos [SFK00].
Um importante corpus desenvolvido após o Brown Corpus é o London-Lund Corpus of Spoken
English [Sva90], publicado em 1990. O corpus é composto por 500 000 palavras transcritas de
conversações inglesas e apresenta um avançado esquema de anotação que, para além de anotar as
partes da fala, marca o uso de diferentes tipos de expressões (p. ex. expressões de cumprimento,
atenção, formalidade, agradecimento, etc). O North American News Text Corpus [Gra95] foi
criado pelo LDC (Linguistic Data Consortium2) e apresenta textos de diversas fontes jornalísticas
Norte Americanas, nos anos 1996 e 1997. O corpus foi usado maioritariamente para o estudo de
analisadores sintáticos (parsing) automáticos [MCJ06].
O corpus da revista Norte Americana TIME [Dav07] é composto por mais de 275 000 textos
diretamente retirados dos arquivos da TIME entre 1923 e 2006. O corpus é POS-tagged e tem
2https://www.ldc.upenn.edu/
6
Revisão Bibliográfica
vindo a ser usado para estudar a evolução lexical do língua inglesa [Mil09]. Outro corpus impor-
tante no que diz respeito à tarefa de identificação de entidades nomeadas é o RSS-500 [RUH+14]
, construído a partir de quase 1500 feeds de RSS das principais fontes noticiosas internacionais no
ano de 2011. O RSS-500 foi manualmente anotado relativamente as entidades presentes no texto.
2.1.2 Corpora Portugueses
No domínio dos corpora portugueses, o estudo e criação de corpora começa no início dos anos
90 [OS98], com várias coleções relativamente pequenas como a Natura – Público [OS98], com
6 milhões de palavras, e a Natura – Minho [OS98], com 2 milhões de palavras. Uma coleção
de artigos de notícias e conteúdo jornalístico é o DiaCLAV [SS02], com 6,7 milhões de palavras
de vários jornais online regionais do centro de Portugal (Diário de Coimbra, Diário de Leiria,
Diário de Aveiro e Viseu Diário), de junho de 1999 a setembro de 2000. No que diz respeito a
corpora de grandes dimensões, a oferta de corpora brasileiros era consideravelmente mais elevada,
com corpora como o NILC/São Carlos [NGM+96], com 31 milhões de palavras. O CETENFolha
[dTE] é outro corpus brasileiro baseado no NILC/São Carlos composto por textos jornalísticos do
jornal “Folha de S. Paulo"do ano de 1994, com 24 milhões de palavras na sua primeira edição.
Surge no começo do novo milénio um dos mais importantes corpus da língua Portuguesa, o
CETEMPúblico [RS00], composto por notícias do jornal Público 3 durante um período de seis
anos (1994 a 2000) e com um tamanho de 180 milhões de palavras. Diversos projetos de inves-
tigação em programação de linguagem natural utilizam o CETEMPúblico como corpus de geral
utilização tanto para o teste e validação de algoritmos como para o treino de técnicas de apren-
dizagem automática: extração de relações [OSG09], sistema de respostas automático [Cos06],
analisadores morfológicos [Vic13] e correção automática [MS04b].
O CINTIL - International Corpus of Portuguese [BBF+06], com 1 milhão de palavras é com-
posto por uma metade de textos jornalísticos e outra metade por transcrições de conversas formais
e informais em português. O corpus é também POS-tagged e foi construído como um recurso de
teste e validação para um conjunto de ferramentas (segmentador, analisador sintático, anotador,
etc.) do grupo da fala e linguagem da Faculdade de Ciências da Universidade de Lisboa4. O
Corpus do Português [Dav09] composto por textos portugueses e brasileiros do século XIV até ao
seculo XX, possui 45 milhões de palavras e é outro importante corpus, especialmente no domínio
da análise histórica da língua portuguesa [dA10] [Mä13]. Mais moderno é o Reference Corpus of
Contemporary Portuguese Online [GHM12], desenvolvido no Centro de Linguística da Universi-
dade de Lisboa e que agrega mais de 312 milhões de palavras, com textos em português europeu
assim como outras variantes (português brasileiro, português angolano, etc), desde a segunda me-
tade do século XIX até ao ano 2008. O corpus é anotado com as etiquetas de POS usadas no
CINTIL [BBF+06] e foi usado para teste de um sistema de anotação automático da modalidade
dos verbos portugueses [QMHG14].
3http://www.publico.pt4http://lxcenter.di.fc.ul.pt/tools/pt/
7
Revisão Bibliográfica
O WPT 03 [MS04a] é um corpus criado no âmbito da criação de um motor de pesquisa web
português e é composto por mais de 3,7 milhões de documentos, onde cerca de 70% são escritos
em português. O corpus foi usado para a realização de uma caracterização da web portuguesa,
comparando a presença de termos em relação a outro corpus (CETEMPúblico) e analisando o
tamanho dos documentos [MS04a]. Em 2005, o corpus foi atualizado e aumentado (WPT 05).
Diversos outros corpora portugueses foram criados desde o nascimento da área da linguística
computacional, diferenciando-se sobretudo no tipo de textos colecionados e na variante da Língua
Portuguesa nestes presente. Alguns destes corpora a que não se deu tanta relevância são coleções
e grupos de corpora, como o Floresta Sintá(c)tica [FRB08], um treebank português, assim deno-
minado por ser sintaticamente anotado, resultando em estruturas tipo árvores que especificam a
organização sintática das frases dos seus textos. Apenas uma parte da anotação sintática do corpus
foi revista por linguistas. O Floresta está também anotado morfologicamente, e é composto por
textos do CETEMPúblico e do CETEMFolha, e os seus diferentes sub corpora (Bosque, Amazó-
nia, Floresta Virgem e Selva) somam no total aproximadamente 7 milhões de palavras. Outros
corpora portugueses são o BIG Corpus PT [Bat14], o CHAVE, composto por textos do Público
e do Folha de São Carlos, o Colónia, com textos históricos desde o século XVI e o Avante!,
composto essencialmente de textos políticos do semanário Avante! de 1997 a 2002.
Na Tabela 2.1 são apresentados os principais em mais relevantes corpora portugueses disponí-
veis.
2.1.3 Anotação de Corpora
Um dos aspetos mais importantes da linguística de corpora e onde ocorreram diversas ino-
vações nos últimos anos é a anotação. A anotação consiste na sinalização, normalização e adi-
ção de informação linguística a um corpus, com o objetivo de o enriquecer com valor linguístico
[GLM97]. Pode ser considerada a prática de adicionar informação interpretativa e linguística a um
corpus eletrónico. O facto de ser interpretativa é de extrema importância: as anotações resultam de
uma análise subjetiva do texto, não representando uma verdade linguística absoluta. A anotação é
acima de tudo meta linguística: oferece informação sobre a linguagem usada. As razões para ano-
tar um corpus consistem principalmente na facilidade de extração de informação, que por vezes
só se torna acessível depois de se construir/descobrir informação adicional sobre o texto. Outro
ponto forte da anotação é a característica de ser reutilizável e multifuncional: sendo um processo
muitas vezes oneroso, um texto anotado poupa trabalho a um investigador, revelando-se por vezes
a mesma anotação útil na resolução de diferentes problemas.
Enquanto que no início da linguística de corpus a anotação era um processo manual, efetuado
por especialistas em linguística, nos dias de hoje o processo de anotação é geralmente automático.
A anotação de corpora deve seguir as seguintes máximas [Lee93]:
1. Deve ser sempre possível regressar/visualizar os dados originais, o que se pode revelar difícil
devido à normalização, como por exemplo, depois da extensão de um pronome composto
“da” (de + a).
8
Revisão Bibliográfica
Nom
eTa
man
hoa
Inte
rval
oTe
mpo
ral
Obs
erva
ções
/Ano
taçõ
esTi
pode
Text
oL
íngu
ain
gles
aB
row
nC
orpu
s(1
963)
[FK
79]
100
019
61(1
ano)
POS-
tags
Vár
ios
BN
C(1
998)
[Bur
95]
100
000
40an
osPO
S-ta
gsV
ário
sR
CV
1(1
997)
[RSW
02]
170
000
b19
96-1
997
(1an
o)C
ateg
oria
deTe
xtos
eR
egiõ
esM
enci
onad
asJo
rnal
ístic
oR
eute
rs-2
1578
(199
6)[L
ew97
]4
600
1996
-199
7(1
ano)
Cat
egor
ias
(Pes
soas
,Loc
ais,
Org
aniz
açõe
s)Jo
rnal
ístic
oL
LC
SE(1
990)
[Sva
90]
500
1959
–198
9(3
0an
os)
Tran
scri
ção
deco
nver
saçõ
es,P
arte
sda
fala
Info
rmal
,Con
vers
ação
NA
NT
Cor
pus
(199
7)[G
ra95
]90
400
1994
-199
7(3
anos
)N
ãoan
otad
oJo
rnal
ístic
oT
IME
Cor
pus
(200
7)[D
av07
]10
000
019
23-2
006
(83
anos
)PO
S-ta
gsJo
rnal
ístic
oL
íngu
apo
rtug
uesa
Nat
ura
-Púb
lico
(199
4)[O
S98]
600
019
91-1
994
(3an
os)
Não
anot
ado
Jorn
alís
tico
Nat
ura
-Min
ho(1
994)
[OS9
8]2
000
1991
-199
4(3
anos
)N
ãoan
otad
oJo
rnal
ístic
oD
iaC
LAV
(200
0)[O
S98]
670
019
99-2
000
(1an
o)PO
S-ta
gsJo
rnal
ístic
oN
ILC
/São
Car
los
(199
6)[N
GM
+96
]31
000
1994
(1an
o)C
orpu
sbr
asile
iro,
não
anot
ado
Jorn
alís
tico
CE
TE
MPú
blic
o(2
000)
[RS0
0]18
000
019
94-2
000
(6an
os)
POS-
tags
Jorn
alís
tico
CE
TE
NFo
lha
(200
2)[d
TE
]24
000
1994
(1an
o)PO
S-ta
gsJo
rnal
ístic
oFl
ores
taSi
ntá(
c)tic
a(2
002)
[FR
B08
]7
000
1994
-200
6(6
anos
)A
nota
ção
Sint
átic
ae
Mor
foló
gica
Jorn
alís
tico
WPT
-03
(200
4)[M
S04a
]1
600
600
199?
-200
3(1
0an
os)
Não
anot
ado
Web
CIN
TIL
(200
6)[B
BF+
06]
100
020
06(1
ano)
?PO
S-ta
gs,l
ema
ea
flexã
oda
scl
asse
sab
erta
sV
ário
sC
orpu
sdo
Port
uguê
s(2
006)
[Dav
09]
4500
0Sé
c,X
IV-S
éc.X
X(6
00an
os)
Vár
ios
RC
CP
(201
2)[G
HM
12]
312
000
1800
-200
8(2
00an
os)
POS-
tags
Vár
ios
Tabe
la2.
1:A
lgun
sco
rpor
adi
spon
ívei
s
a emm
ilhar
esde
pala
vras
b Ass
umin
doa
méd
iade
213
pala
vras
pora
rtig
o[N
WM
06],
com
800
000
artig
os
9
Revisão Bibliográfica
2. A anotação deve ser extraível do texto
3. A anotação deve ser devidamente documentada
4. Deve ser mencionado como foi criada a anotação (automática, manual), por quem foi criada,
e de que tipo é.
5. O utilizador deve ser avisado que a anotação é falível.
6. O esquema de anotação deve-se basear o mais possível em princípios e conceitos largamente
reconhecidos na comunidade científica.
7. Nenhum esquema de anotação tem o direito de se auto-considerar como um standard da
área.
2.1.4 Esquemas de Anotação
Um esquema de anotação pode ser definido como “an explanatory system supplying informa-
tion about the annotation practices followed, and the explicit interpretation, in terms of linguistic
terminology and analysis, for the annotation” [Lee04]. Quando a anotação incide sobre áreas
profundamente estudadas como a estrutura gramática ou sintática de uma frase, o esquema de
anotação pode e deve ser baseado num conjunto consensual de categorias, com as quais a maioria
dos linguísticas concorda. O uso de um esquema de anotação que reflita e se conforme com as te-
orias e designações mais aceites resultará num corpus mais acessível e num esquema de anotação
significativamente mais re-utilizável.
O esquema de anotação varia conforme o tipo de anotação a aplicar e, enquanto que corpora
mais antigos utilizavam uma anotação mnemónica colocada junto da palavra/token, hoje em dia é
mais comum a utilização de sistemas de anotação mais complexos e verbosos como o SGML/XML
[MXT06].
2.1.5 Anotação Embutida e Anotação Autónoma
Outra importante discussão referente à anotação de corpora é a colocação e posição de ano-
tações no texto do corpus disponibilizado. A primeira, e mais simples, abordagem refere-se à
mistura de textos com a anotação, resultando na clássica anotação embutida, presente na maioria
dos corpora (BNC, Brown Corpus). Um exemplo é “Hoje/ADV fui/V a/DA Lisboa/PNM”, onde
as partes-do-discurso são aglutinadas à palavra correspondente.
A segunda abordagem centra-se na separação física do texto do corpus com a anotação, man-
tendo apenas uma ligação entre os dois. Em comparação com a anotação embutida, a anotação
autónoma (stand-alone) possui diversas vantagens como a criação de hierarquias sobrepostas, a
possibilidade do uso de diferentes esquemas de anotação no mesmo texto e a facilidade de mani-
pulação da anotação sem causar problemas em outros níveis. No entanto, a anotação autónoma
carrega também um problema a nível de complexidade (algumas anotações poderão necessitar de
várias ligações difíceis de estabelecer) e de compatibilidade com a maioria das ferramentas de
10
Revisão Bibliográfica
exploração de corpus (e.g. Wordsmith [Sco96] e Xaira [Bur06]) que são geralmente construídas
para o uso com anotação embutida.
2.1.6 Níveis de Anotação
Os tipos de anotação distinguem-se normalmente pelo nível em que atuam no texto. A ano-
tação de mais baixo nível, morfológica, encarrega-se do desdobramento de palavras compostas,
com prefixos e sufixos. Ao nível gramatical são usadas diversas anotações, sendo a mais comum
e desenvolvida a POS-tagging, que involve a anotação das partes do discurso presentes nas frases
do texto. Esta anotação indica se uma palavra é um nome, um adjetivo, um pronome, ou outros,
ajudando na desambiguação de algumas palavras incertas (p. ex. “Eu como um pão”, “voa como
uma ave”). A enorme quantidade de estudos sobre o POS-tagging faz desta anotação uma das
mais desenvolvidas e sofisticadas, atingindo níveis de sucesso de 97% [BS04].
Outras anotações a este nível são por exemplo o género, número e tipo de palavras, lemati-
zação, e campos semânticos (família de palavras). A lematização define-se como o processo de
agrupar diferentes formas de palavras num único item que pode ser analisado individualmente
[MRS08]. As palavras “trabalhou, trabalho, trabalhoso” possuem o lema comum “trabalho”. No
nível sintático estão presentes as anotações referentes à natureza sintática das frases, mais especi-
ficamente a construção de árvores sintáticas (treebanks). Neste nível é abordada a clássica tarefa
de parsing de uma frase, determinando o sujeito, predicado, etc.
Ao nível do discurso são aplicadas geralmente anotações de coreferência, atos da fala e ano-
tação estilística. A anotação de coreferência visa descobrir quando duas expressões se referem à
mesma pessoa ou coisa. É assim essencial para determinar o sujeito de um pronome. Atos da fala
correspondem à finalidade de um discurso, ou parte dele. Uma citação de um ator pode ser assim
classificada conforme que tipo de ação o seu discurso impõe, seja assertividade, diretividade, ex-
pressividade, etc. A estilística confina-se na anotação do tipo de texto presente: narração, discurso
direto, discurso indireto, pensamento, etc.
Finalmente ainda existem as anotações que não se incluem num nível textual específico e
são muitas vezes orientadas ao problema. Neste campo temos a EEM (extração de entidades
mencionadas), que visa identificar pessoas, eventos, locais, organizações e outros presentes no
texto. Enquanto que sistemas antigos usavam algoritmos baseados em regas criados manualmente,
a maioria dos sistemas modernos usam técnicas de aprendizagem automática. A escolha do set
de tipos de entidades é também importante, sendo a hierarquia de Sekine [SSN02] uma das mais
usadas com mais de 200 tipos de entidades.
Um problema relacionado com a identificação de entidades é o de Ligação de Entidades (En-
tity Linking). Um corpus anotado com Ligação de Entidades vem geralmente acompanhado de um
dicionário de entidades, que são referenciadas no texto, muitas vezes por denominadores diferen-
tes. É assim uma tarefa importante analisar o texto e desambiguar a que entidade se refere uma
certa expressão. Este problema já foi abordado recorrendo a bases de conhecimento [ZLHZ10].
Para finalizar, é claro que o tipo de anotação necessário num corpus está altamente dependente do
11
Revisão Bibliográfica
uso final e do objetivo de pesquisa deste. No entanto, alguns tipos de anotações têm uma grande
variedade de usos e podem servir de base para anotações mais complexas de nível mais alto.
2.2 Análise do Arquivo de Notícias
A segunda parte da dissertação incide sobre a construção de uma análise sobre o arquivo de
notícias do JPN. O objetivo desta análise é tanto o de observar a evolução linguística do jornal
como o de descobrir padrões e hábitos de publicação de um meio jornalístico online. O estudo do
arquivo pode incidir sobre vários aspetos dos dados, pelo que apresentamos aqui algumas análises
mais comuns.
A análise lexical do corpus centra-se sobre os léxicos e formas gramaticais mais presentes nos
textos. É possível assim determinar se um jornal possui um texto fundamentalmente mais rico em
adjetivos do que um texto não-jornalístico e também a riqueza lexical (número de palavras únicas)
dos artigos. Esta análise pode ser estendida à pesquisa das palavras que são mais mencionadas
no corpus num certo contexto, por exemplo, quantas vezes os países europeus são mencionados
[WA07], ou quais as expressões mais utilizadas por certos autores.
Uma segunda análise possível refere-se à categoria das notícias no arquivo. Com o uso de
classificadores é feita uma divisão quanto à categoria dos artigos, que podem abranger um tema
mais genérico (desporto, atualidade, política, etc.) ou situar-se numa categoria específica (Epide-
mia Ébola 2014, Mundial de Futebol 2010, etc.) [Cri13]. Esta categorização pode ser conseguida
ao identificar palavras-chave (keywords) no texto, usando depois um classificador para distinguir
o tipo de notícia, ou através do uso de grupos (clusters) [NMTM00].
A análise jornalística preocupa-se com características não relacionadas com o conteúdo dos
textos, procurando descobrir padrões sobre os hábitos de publicação do arquivo: hora do dia mais
comum para a publicação de novas notícias, autores mais ativos, etc. Esta é uma área onde ainda
não foi efetuada investigação considerável e relevante, pelo que espera-se, com esta dissertação,
contribuir para o avanço desta análise.
A análise geográfica tenta posicionar a notícia num ou mais locais no espaço, resultando num
mapa capaz de indicar os locais com mais protagonismo no arquivo. Adicionalmente, esta análise
poderá ser aliada à categoria de notícias para distinguir que tipos de notícias (entretenimento,
educação, etc.) ocorrem mais em certas regiões, ou até estender este conceito para que tipo de
regiões são mais associadas com uma certa palavra-chave (ex. “crime”) [GB].
Outra análise importante é a análise de entidades, focada nos atores, organizações e eventos
dos arquivos, identificando relações e possíveis cumplicidades entre entidades e permitindo, por
exemplo, a criação de uma rede de personalidades do corpus. Os métodos de extração e aná-
lise de relações entre personalidades são vários, desde baseando-se na referência simultânea de
duas personalidades no mesmo artigo (tornando-se a relação mais forte quanto mais vezes estes
forem referenciados em conjunto), até à compreensão profunda do texto de forma a inferir uma
relação exata entre atores [FSM+09]. Este tipo de análise já foi abordado em diversos trabalhos,
destacando-se o português Sapo “Máquina do Tempo” [U/P15].
12
Revisão Bibliográfica
Finalmente a análise sentimental visa identificar a polaridade sentimental de um texto. Por
outra palavras o seu objetivo é interpretar corretamente se o autor expressa uma posição positiva
ou negativa sobre certo assunto. É importante saber o balanço emocional quando são expressas
opiniões, o que, no contexto de um arquivo de notícias, pode acontecer numa entrevista. A posição
emocional do texto é exposta recorrendo geralmente a certas palavras-chave que correspondem a
posições negativas ou positivas [NAdL+12].
2.3 Tecnologias
No que diz respeito a tecnologias, é de destacar a grande oferta de ferramentas de anotação
automática de textos, em diversas linguagens, principalmente para as tarefas de POS-tagging e le-
matização. Nesta dissertação importam principalmente as ferramentas não comerciais, que podem
ser assim usadas no propósito desta tese. Apresentamos de seguida algumas das mais importantes.
A Linguateca [San11] é um centro de recursos linguísticos que se dedica a servir a comunidade
de processamento computacional da língua portuguesa. A Linguateca apresenta serviços de acesso
a recursos (corpora, publicações, informações), manutenção de comunicações entre vários inves-
tigadores e participa ativamente na criação, disponibilização e promoção de projetos linguísticos
portugueses. Um dos seus mais importantes projetos é o AC/DC (Acesso a Corpos/Disponibiliza-
ção de Corpos) [SB00], que surge em 1999 e visa aglomerar e disponibilizar diversos corpora num
único website, com uma interface comum e uma poderosa ferramenta de interrogação de corpora.
Para além disso, o AC/DC anota automaticamente todos os corpora envolvidos no projeto, com o
anotador PALAVRAS [Bic00]. O PALAVRAS é um analisador automático para o português cri-
ado por Eckhard Bick, que pode ser usado para anotar um corpus com partes da fala e informações
gramaticais.
O LX-Suite [BS06] foi desenvolvido pela Universidade de Lisboa e é distribuído gratuita-
mente. Esta ferramenta disponibiliza serviços de segmentação de frases (LX-Chunker), um ato-
mizador (LX-Tokenizer), um etiquetador com uma precisão de 96% (LX-Tagger), assim como um
lematizador com precisão de 97.6% (LX-Lemmatizer).
No que diz respeito a exploradores de corpora, os mais utilizados são o Wordsmith [Sco96]
e o Xaira [Bur06]. Estas ferramentas possibilitam a descoberta de concordância nas palavras do
corpus, ou seja, esclarece quais as palavras colocadas à palavra em questão. Outra funcionali-
dade é a identificação de palavras-chave (keywords) num texto específico, e a criação de listas de
palavras de forma a analisar a sua frequência.O Stanford CoreNLP [MSB+14] é um projeto da
Universidade de Stanford que agrega várias ferramentas de análise de linguagem natural. A cole-
ção de ferramentas é escrita em Java e é capaz de atomização, segmentação de frases, anotação de
acordo com diversos tagsets, identificação de entidades e análise de sentimento. NLTK (Natural
Languge Toolkit) [Bir06] é uma plataforma de processamento de linguagem natural construída em
Python, capaz de diversas análises linguísticas (concordância, análise sintática, anotação, lemati-
zação, etc.) e com uma grande coleção de corpora e outros recursos para o teste de algoritmos e
13
Revisão Bibliográfica
teoremas. Esta ferramenta destaca-se pela facilidade de uso ao mesmo tempo que mantém uma
alta qualidade nos seus algoritmos de classificação e anotação.
O Rembrandt [Car08] é uma ferramenta de reconhecimento de entidades mencionadas para a
língua portuguesa, capaz também de detetar relações entre as entidades no texto. Esta ferramenta
usa a enciclopédia online Wikipédia para resolver as entidades mencionadas.
As tecnologias mencionadas podem ser consultadas na Tabela 2.2.
Nome Funcionalidade Licença ObservaçõesSuportadas atualmenteLX-SUITE (2006) [BS06] Anotação POS Gratuita FerramentaCoreNLP (2013) [MSB+14] NER, POS tagging, etc Gratuita Biblioteca JavaNLTK (2006) [Bir06] POS tagging, parsin, etc Gratuita Biblioteca PythonWordSmith (1996) [Sco96] Exploração de Corpora ComercialXAIRA (2005) [Bur06] Exploração de Corpora GratuitaLingua::PT::PLNbase (2003) [JAR03] Segmentador e Atomizador Gratuita Biblioteca PerlNão suportadas atualmentePALAVRAS (2000) [Bic00] Anotação POS Não disponível Usado no projeto ACDCRembrandt (2006) [Car08] Reconhecimento de Entidades Gratuita Ferramenta
Tabela 2.2: Resumo das Tecnologias
14
Capítulo 3
Processamento do arquivo de Notícias
A primeira tarefa desta dissertação aborda assim o processamento do arquivo de notícias do
jornal online JPN, normalizando os textos e autores e anotando os artigos para posteriormente ser
efetuada uma análise a vários níveis do arquivo.
3.1 JPN
Os artigos publicados pelo JPN obedecem à seguinte estrutura:
• Título
• Autor
• Data de Publicação (D:M:A | H:m)
• Grupo de marcadores que identificam as notícias (Cultura, Economia, etc)
• Subtítulo
• Corpo da notícia
• Comentários à notícia (gerados pelos leitores)
A extração das notícias do arquivo online foi realizada, guardando os artigos num ficheiro,
formato XML, do ano de publicação respetivo. O arquivo estende-se desde o mês de março de
2004, no inicio do JPN, até março de 2015.
3.2 Processamento e anotação do arquivo
Depois de reunidas todas as notícias e comentários do arquivo, foi feito o processamento
do corpus para estar pronto a ser analisado. As etiquetas de HTML do corpo da notícia são
15
Processamento do arquivo de Notícias
removidas e é feita a divisão de frases dos textos no título, subtítulo e corpo da notícia, usando
a biblioteca Lingua-PT-PLNbase [JAR03] para Perl, disponível no CPAN. Esta biblioteca usa um
algoritmo utilizado no projeto Natura que separa as frases de um texto, inserindo-as num nó de
XML com a etiqueta <s>. Depois desta separação, cada frase é introduzida no marcador de partes
da fala do LX-Suite, que para além de efetuar a atomização atribuindo a cada palavra uma etiqueta
das presentes na Tabela 3.2. Este processo de anotação foi também efetuado nos comentários às
notícias.
Quanto ao tipo de anotação, foi decidido usar um esquema de anotação embutida, de forma a
simplificar tanto o processo de anotação como o de consulta. A maioria dos corpos discutidos no
Capítulo 2 suportam também esta anotação, pelo que nos pareceu a escolha adequada.
3.2.1 Autores e Editores
O primeiro detalhe quanto ao tratamento dos arquivos é o uso de contas gerais para a publica-
ção de notícias escritas por outros autores, provavelmente sem conta no site do JPN no momento
da publicação. Isto leva a que muitas vezes o nome no campo de autor da notícia não seja o
do seu criador, atuando apenas como um editor da notícia escrita por outrem (p. ex. aluno). O
nome do(s) verdadeiro(s) autor(es) do artigo é colocado no fim do artigo, por vezes dentro de um
“div"identificado com a classe autor, ou mesmo apenas envolvido em etiquetas de parágrafo (<p>).
O conteúdo deste div apresenta, por vezes, ainda a informação sobre a fotografia ou fotógrafo res-
ponsável. De forma a resolver este problema foi efetuada uma divisão por separadores HTML de
parágrafo (<br/>), e posteriormente testada a correspondência com a seguinte expressão regular:
^( )*Foto(s?):(.*)
Esta expressão é responsável por detetar quando a caixa de autor está a mencionar o fotógrafo
do artigo. Todos os outros casos são aceites como criadores da notícia. A prevalência deste estilo
de autoria e publicação é menor nos anos mais recentes do arquivo. De forma a distinguir este tipo
de publicação foi acrescentada a etiqueta <editor>, que identifica o responsável pela publicação
da notícia. A etiqueta <creator> toma assim o significado correto de autor da notícia. Quando não
existe um editor evidente da notícia, esta etiqueta toma o valor do autor do artigo.
3.2.2 Notícias Relacionadas
Cada notícia pode ter associada uma ou mais notícias anteriores relacionadas. Este relacio-
namento é feito pelos autores da notícia e expõem alguns tópicos que são abordados ao longo
de vários artigos. A notícia relacionada é anotada com uma etiqueta related, onde se inserem a
etiqueta link, com o endereço da notícia relacionada, e a etiqueta linkName, que refere por sua vez
o nome da notícia. O significado de cada etiqueta de XML pode ser verificado na Tabela 3.1.
16
Processamento do arquivo de Notícias
3.2.3 Exemplo
Um exemplo de uma notícia do arquivo já completamente processada e anotada é o seguinte:
1 <item>
2 <title><![CDATA[Deutsche/PNM Bank/PNM acredita/V em_/PREP a/DA bolsa/CN portuguesa/
ADJ ]]></title>
3 <subtitle><s><![CDATA[Banco/PNM alemão/ADJ coloca/V bolsa/CN nacional/ADJ a_/PREP a
/DA frente/CN de_/V a/DA espanhola/ADJ .*//PNT ]]></s></subtitle>
4 <pubDate>Fri, 05 Mar 2004 14:57:09 +0000</pubDate>
5 <creator>pedrocandeias</creator>
6 <category>Destaques</category><category>Economia</category>
7 <related>
8 <link>http://jpn.up.pt/2013/12/17/680-bolsas-para-jovens-desempregados/</link>
9 <linkName>680 bolsas para jovens desempregados</linkName>
10 <content>
11
12 <s><![CDATA[Christophe/PNM Bernard/PNM ,*//PNT director/CN de_/PREP o/DA Deutsche/
PNM Bank/PNM \*,*//PNT afirma/V que/CJ Portugal/PNM beneficia/V de/PREP estí
mulos/CN adicionais/ADJ que/REL o/CL aproximam/V de_/PREP os/DA grandes/ADJ
mercados/CN europeus/ADJ ,*//PNT como/CJ é/V o/DA caso/CN de_/PREP o/DA Euro/CN
2004/DGT ,*//PNT de_/V o/DA baixo/ADJ valor/CN de_/PREP os/DA títulos/CN mais/
ADV importantes/ADJ e/CJ de_/PREP a/DA retoma/CN económica/ADJ .*//PNT ]]></s>
13
14 <s><![CDATA[Segundo/PREP o/DA director/CN de_/PREP o/DA banco/CN alemão/ADJ ,*//PNT
estes/DEM atractivos/CN vieram/V despertar/INF o/DA interesse/CN de_/PREP os/
DA investidores/CN europeus/ADJ que/REL até/ADV agora/ADV não/ADV estavam/V
muito/ADV atentos/ADJ a_/PREP o/DA mercado/CN nacional/ADJ .*//PNT ]]></s>
15
16 <s><![CDATA[Christophe/PNM Bernard/PNM esclarece/V que/CJ o/DA Deutsche/PNM Bank/
PNM tem/VAUX estado/PPT atento/ADJ a/PREP Portugal/PNM enquanto/CJ país/CN
integrado/PPA em_/PREP a/DA região/CN de_/PREP a/DA zona/CN euro/ADJ e/CJ
devido/PPA a_/PREP o/DA crescimento/CN negativo/ADJ de_/PREP a/DA economia/CN
portuguesa/ADJ em/PREP 2003/DGT .*//PNT ]]></s>
17
18
19 <s><![CDATA[Andreia/PNM Parente/PNM Fonte/PNM :*//PNT Diário/PNM Económico/PNM ]]><
/s>
20 </content>
21 </item>
A diferença quanto à categoria e ao marcador é a sua generalidade. Uma categoria é um mar-
cador mais geral, enquanto que uma tag é usada numa coleção relativamente pequena de notícias.
17
Processamento do arquivo de Notícias
Marcador Parte da Notíciatitle Título da Notíciasubtitle Subtítulo da NotíciapubDate Data de Publicaçãocreator Autor da Notíciaeditor Editor da Notíciacategory Categoria da Notíciatag Tag/Marcador da Notíciacontent Corpo da Notíciarelated Notícia Relacionada
Tabela 3.1: Marcadores XML de cada artigo no Corpus do JPN
18
Processamento do arquivo de Notícias
Tag Categoria ExemplosADJ Adjetivos bom, brilhante, eficaz, . . .ADV Adverbios hoje, já, sim, felizmente, . . .CARD Cardinais zero, dez, cem, mil, . . .CJ Conjunções e, ou, tal como, . . .CL Clíticos o, lhe, se, . . .CN Nomes Comuns computador, cidade, ideia, . . .DA Artigos Definidos o, os, . . .DEM Demonstrativos este, esses, aquele, . . .DFR Denominadores de frações meio, terço, décimo, %, . . .DGTR Números Romanos VI, LX, MMIII, MCMXCIX, . . .DGT Dígitos 0, 1, 42, 12345, 67890, . . .DM Marcas de Discurso olá, . . .EADR Endereço Eletrónico http://www.di.fc.ul.pt, . . .EOE Final de Enumeração etcEXC Exclamativos ah, ei, ...GER Gerúndios sendo, afirmando, vivendo, . . .GERAUX Gerúndios ’ter/haver’ tendo, havendo . . .IA Artigos Indefinidos uns, umas, . . .IND Indefinidos tudo, alguém, ninguém, . . .INF Infinitivos ser, afirmar, viver, . . .INFAUX Infinitivos ’ter/haver’ ter, haver . . .INT Interrogativos quem, como, quando, . . .ITJ Interjeições bolas, caramba, . . .LTR Letras a, b, c, . . .MGT Classes de Magnitude unidade, dezena, dúzia, resma, . . .MTH Meses Janeiro, Dezembro, . . .NP Frases de Nome idem, . . .ORD Ordinais primeiro, centésimo, penúltimo, . . .PADR Parte de Endereço Rua, av., rot., . . .PNM Parte de Nome Lisboa, António, João, . . .PNT Marcas de Pontuação ., ?, (, . . .POSS Possessivos meu, teu, seu, . . .PPA Passado Particípio afirmados, vivida, . . .PP Frases Preposicionais algures, . . .PPT Passado Particípio composto sido, afirmado, vivido, . . .PREP Preposições de, para, em redor de, . . .PRS Pronomes Pessoais eu, tu, ele, . . .QNT Quantificadores todos, muitos, nenhum, . . .REL Relativos que, cujo, tal que, . . .STT Títulos Sociais Presidente, dra., prof., . . .SYB Símbolos @, #, &, . . .TERMN Terminadores Opcionais (s), (as), . . .UM "um"ou "uma" um, umaUNIT Unidade Abreviada kg., km., . . .VAUX ’Ter/Haver’ composto temos, haveriam, . . .V Verbos falou, falaria, . . .WD Dias da Semana segunda, terça-feira, sábado, . . .LADV1. . . LADVn Adverbios Multi-Palavra de facto, em suma, um pouco, . . .LCJ1. . . LCJn Conjunções Multi-Palavra assim como, já que, . . .LDEM1. . . LDEMn Demonstrativos Multi-Palavra o mesmo, . . .LDFR1. . . LDFRn Denominadores Multi-Palavra por centoLDM1. . . LDMn Marcas de Discurso Multi-Palavra pois não, até logo, . . .LITJ1. . . LITJn Interjeições Multi-Palavra meu DeusLPRS1. . . LPRSn Pessoais Multi-Palavra a gente, si mesmo, V. Exa., . . .LPREP1. . . LPREPn Preposições Multi-Palavra através de, a partir de, . . .LQD1. . . LQDn Quantificador Multi-Palavra uns quantos, . . .LREL1. . . LRELn Relativos Multi-Palavra tal como, . . .
Tabela 3.2: LX-Suite Tagset
19
Processamento do arquivo de Notícias
20
Capítulo 4
Caracterização do Arquivo
Esta secção dedica-se à análise efetuada sobre o arquivo, desde a análise jornalística e mor-
fológica até à análise efetuada sobre os autores responsáveis pelos textos. No entanto algumas
análises são interdisciplinares, pelo que não se espera criar uma divisão clara entre cada análise,
mas sim um guia estruturado à caracterização do corpus.
4.1 Vista geral
O arquivo do JPN é constituído por 19 072 artigos, ao longo de 132 meses (Março de 2004-
Março 2015). No que diz respeito à distribuição dos artigos ao longo dos anos, apresenta-se o
seguinte gráfico (Figura 4.1a). Para além dos artigos publicados durante o período em análise, o
arquivo é composto de comentários efetuados pelos leitores às várias notícias. No total existem
cerca de 5665 comentários durante os 11 anos de análise.
(a) Número de artigos por ano (b) Distribuição de autores por número de artigos
21
Caracterização do Arquivo
A autoria dos artigos divide-se entre 422 autores, alguns que só contribuem apenas para uma
única peça, enquanto que outros regularmente publicam novo material. De forma a analisar a
importância de cada tipo de autor para os métodos de publicação no jornal, foram usados grupos
que agregam e representam todos os autores com um número de artigos entre um certo intervalo.
O intervalo entre grupos é de 14 artigos e foi escolhido pois não é demasiado pequeno que aumente
desnecessáriamente a complexidade da análise, e não é demasiado largo que resulte numa análise
superficial e sem possibilidade da extração de conclusões. Foi acrescentado ainda o grupo ”1
artigo”, que representa os autores de intervenção única no jornal (Figura 4.1b). A média de artigos
por autor é de cerca de 45 artigos.
4.2 Análise Jornalística
4.2.1 Hábitos de Publicação
No que diz respeito aos hábitos de publicação do JPN, a Figura 4.2 mostra a distribuição
dos artigos ao longo dos meses do ano, revelando uma maior frequência de publicação de novos
artigos durante os meses de março, abril e maio, resultante do começo da atividade estagiária
dos estudantes no jornal universitário. Estes meses registam aproximadamente 10 artigos por dia,
enquanto que no mínimo de atividade do mês de agosto esta média é de apenas 1,4 artigos por dia.
Figura 4.2: Total número de artigos por mês
Em termos de publicações ao longo do dia, as 15, 16 e 17 horas são aquelas que apresentam
maior atividade. Durante a manhã, novos artigos têm maior probabilidade de serem publicados às
10 horas. Durante a madrugada (da 1 até as 6 horas), foram publicados no total 168 artigos, que
22
Caracterização do Arquivo
representam 0,88% do total de artigos do arquivo. A Figura 4.3 mostra a restante distribuição das
publicações durante o dia.
Figura 4.3: Total número de artigos por hora
4.2.2 Vídeo Artigos
Como plataforma de jornalismo multimédia, o JPN publica ocasionalmente artigos onde o
corpo da notícia é composto unicamente por uma vídeo-reportagem ou uma vídeo-entrevista. A
identificação deste tipo de artigos pode ser feita ao isolar os artigos com a categoria “Vídeo” e
um corpo da notícia vazio. A Figura 4.4 mostra a evolução do uso da vídeo-reportagem no JPN
ao longo dos anos. O pico do uso do vídeo foi em 2008, com 3,8% dos artigos, tendo vindo
a decrescer até 2,1% no ano de 2014. Até ao mês de março de 2015 nenhum artigo-vídeo foi
publicado.
Do mesmo modo é interessante analisar quais as categorias de notícias que mais recorrem ao
uso do vídeo (Figura 4.5). As notícias com destaque principal são alvo de vídeo-artigos mais
frequentemente em relação a outras categorias. Da mesma forma, na categoria UP é usada por
vezes a vídeo reportagem devido à facilidade da captação de imagem e opiniões sobre os temas
discutidos, enquanto que, pela razão oposta, a categoria Mundo apenas excecionalmente apresenta
notícias com recurso ao vídeo.
4.3 Análise dos Visitantes
Uma das partes da análise ao corpus e ao jornalismo praticado pelo JPN passa pela caracteriza-
ção do tráfego do arquivo e dos leitores das notícias publicadas. De forma a atingir esse objetivo,
23
Caracterização do Arquivo
Figura 4.4: Percentagem de vídeo artigos ao longo dos anos
Figura 4.5: Percentagem de vídeo artigos por categoria
24
Caracterização do Arquivo
foram recolhidos alguns registos (logs) de servidor Apache, entre 28 de Março de 2012 e 31 de
Outubro de 2014. De seguida são apresentadas algumas observações quanto ao uso do JPN pelos
internautas.
4.3.1 Acessos e Visitantes
O termo acesso designa um pedido ao servidor Web. Um visitante pode efetuar vários acessos
numa única sessão, e a leitura de uma notícia pode resultar em mais que um acesso (imagens,
ficheiros, vídeos, etc). Desta forma, o número de acessos não representa uma medida de populari-
dade de confiança, mas sim uma estatística quanto ao tráfego e tipo de estrutura de um website.
Os acessos podem ser ainda separados por acessos de visitantes e acessos de spiders, onde o
primeiro representa um visitante humano enquanto que o segundo é realizado por um programa
desenhado para examinar o conteúdo de um website. Durante o período em análise, o JPN recebeu
mais de 254 milhões de acessos, 90,5 % destes provenientes de visitantes e 9,5% de spiders. Isto
significa que durante os 947 dias da análise, o website recebeu em média 268 700 acessos por dia.
4.3.2 Visualizações de Páginas
No que diz respeito à visualização de páginas/notícias, o JPN apresenta um total de aproxima-
damente 22 milhões de visualizações de páginas durante o período examinado. Isto resulta numa
média de 23 272 páginas visualizadas por dia.
4.3.3 Atividade
A atividade diária no website do JPN segue a distribuição na Figura 4.7, onde é possível
observar a quebra de atividade durante a madrugada e o pico de atividade por volta das 16 horas.
Quanto à atividade durante a semana, os visitantes utilizaram o JPN conforme a distribuição na
Figura 4.8. Durante o ano, a atividade atingiu o seu máximo nos meses de março, abril e maio,
tornando-se relativamente menor durante o período de Verão, como é evidente na Figura 4.6.
4.3.4 Pesquisas
As pesquisas representam as frases inseridas nos motores de busca que levaram os leitores às
páginas do JPN. Em termos de motores de pesquisa usados, o Google domina sendo responsável
por cerca de 94% das páginas visualizadas no JPN, seguido pelo motor de pesquisa português
Sapo, com 2.3%. A Tabela 4.1 mostra as frases de pesquisa mais populares durante o período de
análise.
4.3.5 Browsers Usados
Os browsers utilizados para aceder ao arquivo do JPN são apresentados na Figura 4.9, onde
se observa a competição entre o Internet Explorer e o Google Chrome, com 34,43% e 21.93% de
visualizações respetivamente, seguidos pelo Firefox com 15,59%. O acesso através de dispositivos
25
Caracterização do Arquivo
Figura 4.6: Visitantes por mês
Figura 4.7: Visualizações de páginas por hora
móveis ao website do JPN é de aproximadamente 11% (Android Browser com 6,57% e o Mobile
Safari com 4,42%).
4.3.6 Comentários
O website do JPN possibilita aos leitores comentar as notícias publicadas, abrindo a possibili-
dade de uma análise ao nível do conteúdo gerado pelo público alvo do jornal. Durante o período
de vida do arquivo (2004-2015), foram publicados cerca de 5665 comentários que tiveram como
alvo 2178 artigos (11,4% do total de artigos). Se considerarmos apenas os artigos comentados, a
média de comentários aproxima-se de 2.6 publicações por artigo. O máximo de comentários numa
notícia é de 172, num artigo do ano de 2014. Existem 64 artigos com mais de 10 comentários.
26
Caracterização do Arquivo
Figura 4.8: Visualizações de páginas por dia da semana
Frase Número de Pesquisasjpn 6251resumo 3569google nose 2968dia da terra 2013 1834queima das fitas porto 2012 1478haxixe 1270cartaz queima das fitas porto 2012 1160strict 1135dança contemporânea 1118noticias 1045
Tabela 4.1: Frases de pesquisa mais utilizadas
Em termos de hora da publicação de comentários, a distribuição é apresentada na Figura 4.10a,
onde é possível observar o pico de atividade durante a tarde. A sobreposição das horas de publica-
ção de comentários com as horas de publicação de novos artigos pode indicar-nos comportamentos
interessantes da parte dos leitores do jornal. A Figura 4.10b mostra essa relação, revelando a in-
clinação dos artigos para a publicação durante a tarde, enquanto que os comentários são feitos
relativamente mais durante a noite. A relação entre artigos e comentários é o ponto mais interes-
sante de analisar. Na Figura 4.11 é exibido o tempo desde a publicação de um novo artigo até
ao primeiro comentário, onde é possível observar que o primeiro comentário é publicado mais
frequentemente nas primeiras 3 horas.
27
Caracterização do Arquivo
Figura 4.9: Browsers mais usados (Maio 2014)
(a) Distribuição de Comentários por Hora (b) Comparação da publicação de novos artigos e co-mentários por Hora
4.4 Análise Morfológica e Lexical
No que diz respeito à análise da composição elementar dos textos, destaca-se a grande impor-
tância das palavras dos artigos, assim como os comentários dos leitores, pois representam a sua
parte escrita. Define-se por palavra toda a construção de letras separada por um espaço em branco,
excluindo pontuação. O corpus apresenta assim aproximadamente 9 milhões de palavras. Cerca
28
Caracterização do Arquivo
Figura 4.11: Horas até ao primeiro comentário após a publicação da notícia
de 8,7 milhões constituem o texto jornalístico em que 2,2% fazem parte do título da notícia, 6,1%
do subtítulo e os restantes 91,7% do corpo da notícia. As restantes 350 mil palavras constituem os
comentários realizados às notícias.
4.4.1 POS Tags
Uma anotação efetuada no corpus foi a marcação das partes do discurso (Part-of-Speech POS)
nos textos, com recurso à ferramenta LX-SUITE [BS06]. Esta anotação fornece uma informação
importante quanto ao uso pretendido da palavra, assim como ao estilo de escrita do autor do
texto. A distribuição geral ao longo do corpus das principais etiquetas é apresentada na Figura
4.12. Com a figura é possível observar o destaque dos nomes comuns, assim como a presença dos
elementos de construção de frases, como as preposições, os artigos, e as marcas de pontuação. Em
termos da relação tipos e unidades, a Tabela 4.2 mostra a contagem para as principais etiquetas,
assim com o rácio unidade para tipo, que permite observar o uso de uma etiqueta relativamente
ao tamanho do seu léxico (número de tipos). Nesta tabela é possível observar a grande variedade
de nomes comuns: cada tipo de nome comum aparece em média apenas 46 vezes no corpus,
enquanto que categorias como as conjunções apresentam um grupo lexical muito menor, sendo
muito mais reutilizadas. Os adjetivos também apresentam um grande conjunto de tipos. Esta
29
Caracterização do Arquivo
tabela tem apenas em consideração as palavras do corpus, resultando na disparidade entre a Figura
4.12, que calcula a percentagem contando com todas as etiqueta (incluindo marcas de pontuação).
Figura 4.12: Frequência de cada etiqueta POS no arquivo
Na Tabela 4.3 é apresentada a relação da distribuição de POS tags com outro corpus português:
o Corpus de Referência do Português Contemporâneo (CRPC), de conteúdo geral. O CRPC usa
o mesmo esquema de anotação que o corpus do JPN, o que facilita a comparação entre as várias
categorias de partes da fala. Através da ferramenta disponível online 1, foram criados sub corpora
do CRPC compostos apenas com artigos de uma certa categoria, de forma a fazer a comparação
com o nosso corpus jornalístico: sub corpus de textos políticos, sub corpus de textos literários e sub
corpus de textos retirados de revistas. Para além da filtragem por tipo de texto, foram escolhidos
apenas textos oriundos de Portugal, de forma a comparar os géneros de textos e não as diferenças
linguísticas entre países.
POS Tipos Unidades Unidade por Tipo % no CorpusAdjetivos 16357 371086 22,68 4,896Advérbios 2105 271563 177,2 3,583Conjunções 81 330221 4076 4,357Nomes Comuns 31547 1463676 46,39 19,31Parte de Nome 49913 836579 16,76 11,03
Tabela 4.2: Unidades e tipos de algumas partes de discurso no JPN
1http://alfclul.clul.ul.pt/
30
Caracterização do Arquivo
POS % no JPN % CRPC (Revista) % CRPC (Literário) % CRPC (Político)Adjetivos 4,896 5,548 4,650 5,186Advérbios 3,583 4,610 5,430 4,666Nomes Comuns 19,310 19,210 17,330 16,800Parte de Nome 11,030 6,070 3,477 8,980Passado Particípio 1,943 2,100 1,81 1,880Possessivos 0,355 0.736 1,170 0,706Títulos Sociais 0,029 0,074 0,150 1,310
Tabela 4.3: Comparação das etiquetas POS com outros corpora
A tabela evidencia as diferenças na distribuição das POS tags entre os diferentes tipos de tex-
tos. O texto jornalístico do JPN é o que mais usa os Nomes Próprios (conhecidos no tagset do
LX—SUITE como “Partes de Nome”), devido principalmente à sua natureza expositiva e notici-
osa. O texto jornalístico apresenta menos adjetivos que os outros tipos de textos à exceção do texto
literário. Ao mesmo tempo é interessante reparar no menor uso nos advérbios e possessivos. O
uso de títulos sociais (Presidente, dra. prof. ) também é relativamente pequeno e mais semelhante
aos textos de revistas, ao contrário do grande uso no texto político. Os nomes comuns também
estão em destaque no texto do JPN.
Um ponto interessante a analisar é a evolução do uso de certas etiquetas ao longo dos anos
do arquivo. Será que as notícias se tornam mais adjetivadas com o passar dos anos? Uso mais
frequente da pontuação? O Gráfico 4.13 mostra a evolução do uso de algumas etiquetas desde
o ano de 2004. Na Tabela 4.4 são apresentadas as diferenças em pontos percentuais do uso de
algumas etiquetas no corpus. Foi usada uma janela de 10 anos (2004 - 2014) para comparação. O
gráfico mostra um aumento no uso da pontuação, com alguma oscilação no uso de nomes comuns,
advérbios e adjetivos. No entanto, recorrendo à Tabela 4.4, conclui-se que não houve grande
alteração final na distribuição das etiquetas de POS entre os dois anos analisados.
POS 2004 2014 DiferençaAdjetivos 4.407 3.987 -0.42Advérbios 3.339 3.083 -0.26Nomes Comuns 16.12 16.11 -0.01Demonstrativos 0.821 0.767 -0.05Gerúndios 0.185 0.185 0Indefinidos 0.183 0.203 0.02Infinitivos 2.378 2.654 0.28Marcas de Pontuação 11.20 13.41 2.21Passado Particípio 1.653 1.543 -0.11Preposições 12.74 12.65 -0.08Relativos 1.392 1.442 0.05Verbo 8.369 8.125 -0.24Ter/Haver 0.105 0.073 -0.03
Tabela 4.4: Uso e evolução percentual de algumas tags
31
Caracterização do Arquivo
Figura 4.13: Evolução das POS tags
A diferença na distribuição das POS tags no título, subtítulo e corpo da notícia está represen-
tada na Figura 4.14, onde é possível observar as diferentes constituições de cada secção. Os títulos
apresentam geralmente menos advérbios e verbos no infinitivo, ao mesmo tempo que são consti-
tuídos por partes de nomes e verbos em geral, refletindo a natureza indicadora do título: apresentar
os sujeitos e o que aconteceu. Por sua vez, os subtítulos apresentam a maior percentagem de no-
mes comuns, artigos e preposições, focando-se no esclarecimento do tema da notícia. O corpo da
notícia é composto por mais marcas de pontuação e advérbios, centrando-se na exposição com-
pleta da notícia. Uma característica interessante a observar na Figura 4.14 é a natureza intermédia
do subtítulo. Enquanto que por vezes é a secção com a maior presença de uma certa parte da fala,
o subtítulo nunca é a secção com menor frequência nas POS apresentadas, tomando a maioria
das vezes uma posição intermédia em relação ao título e ao corpo da notícia. Usando o exemplo
dos verbos em que o título apresenta uma maior percentagem em relação ao corpo da notícia, é
possível observar que a percentagem de verbos no subtítulo encaixa-se mesmo no meio das duas
secções extremas. Isto suporta a ideia que a informação jornalística segue uma pirâmide inver-
tida: o artigo foca-se na exposição da notícia em geral primeiramente, expandindo os detalhes no
32
Caracterização do Arquivo
seguinte texto. Esta estrutura pode surgir tanto no texto do corpo da notícia como na informação
divulgada em cada secção do artigo, neste caso o título, subtítulo e corpo.
Figura 4.14: Percentagem de POS tag por cada secção
4.4.2 POS tags nos comentários
Os comentários efetuados às notícias representam um conjunto de textos livres merecedores de
uma analise e comparação com os textos dos artigos. Na Figura 4.15 são apresentadas as principais
etiquetas POS usadas nos comentários que, quando comparada com a Figura 4.12 representante
da distribuição das partes da fala nas notícias, revela um menor uso de nomes comuns e marcas
de pontuação mas um aumento significativo no uso de partes da fala como os verbos e advérbios.
Os artigos definidos são outras etiquetas que se diferenciam: os comentadores utilizam-nos menos
3 pontos percentuais do que nos artigos de notícias. Outras variações que não estão presentes
na figura mas que se revelam interessantes são o maior uso de interjeições, infinitivos, pronomes
pessoais e demonstrativos nos comentários em relação ao texto jornalístico.
33
Caracterização do Arquivo
Figura 4.15: Percentagem de POS tag nos comentários
4.4.3 Frases
Uma notícia textual é composta por frases, pelo que é importante focar este elemento na carac-
terização dos textos do arquivo. O arquivo apresenta 296 957 frases na totalidade, o que significa
uma média de 15,5 frases por artigo. A observável descida da média de frases por artigo na Fi-
gura 4.16a pode ser explicada pela inclusão dos vídeo-artigos: artigos de notícias que apresentam
apenas um vídeo como conteúdo, não sendo compostos por texto no corpo da notícia. Estes vídeo-
artigos tornaram-se mais populares nos últimos anos. Em termos de palavras por frase, existe a
evolução apresentada na figura 4.16b, onde se observa a subida considerável de 21,5 palavras por
frase em 2004 até às 26 palavras por frase em 2015, o que significa uma considerável diferença
em termos de composição de frases no arquivo. Os comentários por sua vez apresentam em média
3,67 frases por artigo.
34
Caracterização do Arquivo
(a) Média de frases por artigo (b) Média de palavras por frase
4.4.4 Léxico
Quanto ao léxico do arquivo, ou seja o conjunto de palavras usadas nos seus textos, são menci-
onadas 120 558 palavras únicas (tipos). A quantidade de palavras únicas por notícia apresenta-se
uma medida importante para a qualidade, experiência e tipo de narrativa usada pelo autor. A me-
dida TTR (Type Token Ratio) [Her60] é calculada dividindo o número de tipos (palavras únicas)
e os tokens (todas as palavras) presentes num texto de tamanho padrão, como é apresentado na
equação 4.1. O tamanho do texto é muito importante pois enquanto que uma notícia curta pode ter
um TTR de 4.0, outra maior apresenta um TTR muito mais pequeno, mesmo sendo escrita pelo
mesmo autor. O aparecimento de palavras únicas decresce obviamente com o tamanho do texto,
pelo que o TTR se torna uma medida relativa, útil para comparar textos de igual dimensão. Nesta
sentido foi escolhido o tamanho de 300 palavras antes do cálculo do TTR, de forma a uniformizar
os textos e tornar a comparação do TTR relevante. A Figura 4.17 apresenta a evolução do TTR ao
longo dos anos, onde se pode ver o aumento da medida, desde o seu mínimo em 2008 até ao maior
valor registado em 2015. De notar que os valores de TTR mantêm-se relativamente semelhantes e
a diferença não é muito significativa.
T T R =TypeToken
×100; (4.1)
Uma importante medida quanto ao léxico do arquivo são os nomes comuns mais usadas no
corpus (tabelas 4.8 e 4.9). De forma a comparar com outros corpora e observar as diferenças
na frequência do uso de certas palavras, comparamos as palavras mais usadas no JPN com a sua
percentagem de uso no CETEMPúblico, CRPC Literário e CRPC Político, na Tabela 4.5: como é
era esperado, as palavras “Porto”, “Universidade”, “Cultura” apresentam um foco maior no jornal
académico nortenho, enquanto que “governo” e “presidente” são palavras mais da área do texto
político. O CETEMPúblico, devido à sua maior abrangência nacional, menciona mais a cidade de
“Lisboa” do que os restantes sub corpora.
35
Caracterização do Arquivo
Figura 4.17: Média TTR ao longo dos anos
Uma palavra do léxico com mais interesse em analisar é a palavra “Porto”. De forma a registar
o uso geral desta palavra no nosso corpus, é analisada a chamada concordância [Sin91] da palavra,
onde se observa a colocação da palavra numa janela textual. Neste caso de estudo, usamos uma
janela de 10 átomos (palavras e pontuação) antes e depois da menção da palavra “Porto”. A Tabela
4.6 mostra a concordância de “Porto” no jornal JPN, onde é possível ver os diferentes casos de
uso da palavra, tanto num contexto académico (UP), civil (Governo) e desportivo (Futebol Clube
do Porto). Nas ocorrências da palavra “Porto” (no total 24 287), cerca de 4734 (19,49%) estão
colocadas com a palavra “Universidade”, enquanto que apenas 13 (0,05%) estão colocadas com as
iniciais “F. C. ’ A palavra “cidade” aparece 1758 vezes (7,2%), enquanto que “Câmara” surge 2229
vezes (9,1%). De forma interessante, a palavra “vinho” é mencionada apenas 91 vezes (0,37%) no
JPN, enquanto que no sub corpus literário do CRPC a palavra é colocada 44 (4,88%) das 900 vezes
que “Porto” é mencionado. A palavra “Câmara” por sua vez só é mencionada 3 vezes (0,33%) no
corpus literário. A Tabela 4.7 mostra mais algumas comparações entre as colocações de “Porto”
entre diferentes corpora, onde se destacam a preferência pela colocação da palavra “Lisboa” no
texto político, da palavra “vinho” no texto literário e a palavra “universidade” no JPN.
A concordância da palavra “Porto” é bastante informativa quando explorada no título da no-
tícia. Apresentadas na Tabela 4.10 estão as colocações mais comuns com a palavra Porto. Com
a tabela é possível observar a prevalência de “Universidade” como grande acompanhadora da pa-
lavra “Porto”, seguida de “FC”, “Câmara” e “Metro”. Nos nomes comuns, o destaque é para
“ruas” e “noite”, que podem ser explicados pela promoção efetuada pelo JPN quanto às atividades
36
Caracterização do Arquivo
Palavra JPN CETEMPúblico CRPC Literário CRPC PolíticoPortugal 0.151 0.092 0.013 0.068Porto 0.454 0.066 0.013 0.023pessoas 0.125 0.060 0.062 0.027Lisboa 0.045 0.090 0.02 0.024presidente 0.079 0.072 0.003 0.410universidade 0.117 0.019 0.002 0.006governo 0.057 0.070 0.005 0.260cultura 0.035 0.020 0.004 0.017homem 0.010 0.027 0.110 0.016
Tabela 4.5: Palavras e o seu uso percentual em cada sub corpora
na cidade do Porto. Em termos de adjetivos, o aparecimento dos qualificadores “novo”, “nova”,
“melhores”, “grande” e “bom” evidencia a difusão das melhorias e bons aspetos do Porto no JPN.
Nos advérbios, “mais”, “já” e “ainda” são as principais palavras íntimas com “Porto” nos títulos
das notícias. Finalmente nos verbos, podemos compreender que tipo de predicados são aplicados
à cidade do Porto, observando em primeiro lugar o verbo “ser” no tempo Presente, seguido dos
verbos “vai” e “recebe”, que voltam a mostrar a natureza promocional do JPN quanto à cidade do
Porto.
4.4.5 N-Gramas
N-gramas (ngrams) [BDM+92] são sub sequências de N itens de uma dada sequência geral.
Os n-gramas são usados extensivamente na criação de modelos de linguagem, onde são utiliza-
dos na previsão da probabilidade de uma certa sequência de palavras. No entanto a sequência
de itens não necessita ser exclusivamente palavras, podendo ser composta por letras, fonemas e
outros elementos básicos de sequências. A análise do corpus com base em n-gramas permite a
caracterização ao nível das expressões utilizadas no texto jornalístico do JPN. Primeiramente fo-
ram extraídos do corpus bigramas (subsequências de 2 itens), ordenados por frequência na Tabela
4.12. Os sinais de pontuação foram ignorados não contribuindo para formação de subsequências.
A maioria dos bigramas mais frequentes são constituídos apenas pelos elementos dos artigos e
preposições compostos que foram desmembrados no processo de anotação do arquivo (p. ex. “de_
a” que corresponde a “das”). Na tabela são mostrados os bigramas com maior valor para uma
análise linguística, onde se destaca novamente o foco na cidade do Porto do JPN. Depois destes
primeiros resultados, o modelo foi aumentado para trigramas e pentagramas, com os resultados
expostos na Tabelas 4.13 e 4.14, onde a frequência dos n-gramas são também comparados com
outros corpora de natureza diferente.
O léxico dos comentários também se apresenta diverso do léxico dos artigos do JPN. O aspeto
mais importante no que diz respeito aos comentários é a sua natureza apreciadora, que tanto pode
incidir sobre o tema discutido na notícia como no próprio artigo (qualidade de escrita, reflexões
sobre o autor, trabalho jornalístico, etc.). A Tabela 4.11 compara a frequência de alguns adjetivos
dos comentários com a sua antítese, provando uma atitude e julgamento geralmente positivo da
37
Caracterização do Arquivo
Contexto anterior Palavra Contexto posteriore Ciências de_ a Comunicação de_ a Universidade de_ o Porto ( UP ) Embora curiosos sobre um eventual
em_ a Faculdade de Direito de_ a Universidade de_ o Porto , afirma a_ o JornalismoPortoNet que a Constituição ”, foi hoje até a_ o Governo Civil de_ o Porto para formalizar o protocolo para a recuperação de_ a ponte
quatro entidades - Governo , Câmaras Municipais de_ o Porto e Gaia e Refer - o protocolo vaiPara Manuel Moreira , governador civil de_ o Porto , este é um projecto ” simbólico ”
pois irá criar um novo ponto de comunicação entre o Porto e Vila Nova de Gaia , mas de_ estamarcou a única competição que o F . C . Porto perdeu em_ o ano de 2003 , com o
Tabela 4.6: Concordância da palavra “Porto” no JPN
parte dos leitores que comentam o jornal. A Tabela 4.15 ilustra ainda alguns pentagramas presentes
nos comentários.
4.5 Análise Categórica
Como foi esclarecido no Capitulo 3, a cada notícia é atribuída uma ou mais categorias que
indicam um dos tema gerais representado. Da mesma forma, as notícias podem apresentar marca-
dores (tags), que assinalam um subtema mais específico e efémero, relevante apenas no contexto
temporal em que a notícia se insere. As categorias gerais que identificamos como mais relevantes
são apresentadas na figura 4.18. Estas categorias líderes serão aquelas a que nos estamos a referir
quando mencionarmos categorias. De notar, novamente, que uma notícia pode apresentar mais
que uma categoria. A primeira análise interessante é a distribuição das categorias ao longo dos
anos do arquivo, na Figura 4.19.
Com a figura podemos observar um declínio de temas sobre o “País”, “Mundo” e “Desporto”,
enquanto que os outros tópicos sofrem geralmente um aumento de frequência. A categoria de
“Deporto” apresenta picos relativos em três anos, certamente relacionados com os Mundiais de
Futebol de 2006, 2010 e 2014. A “UP” ganha a maior notoriedade no ano de 2010, um ano antes
de comemorar o centenário em 2011, onde sofre uma queda. A categoria “Mundo” vai perdendo
presença desde 2004, até ao mínimo de 2009 onde regista apenas 2,6% de participação nas notícias
desse ano. Interessante também é a subida do tema “Porto”, desde os 9,3% de 2004 até aos 54,9%
de 2015, compondo mais de metade dos artigos do JPN. De um modo similar, a categoria “Cultura”
cresce do mesmo ponto em 2004 e acaba em 48,3% no ano de 2012. A categoria “País”, embora
tenha sido alvo de um menor número de artigos de 2006 a 2010, encontra-se em 2015 posicionada
como a terceira categoria mais comum nas notícias do JPN.
4.5.1 POS Tags nas Categorias
No que diz respeito à distribuição de POS tags nas categorias do arquivo, a Figura 4.20 evi-
dencia a preferência pelas tags de cada uma. Os nomes comuns são usados mais frequentemente
na “Ciência e Tecnologia” e na “Educação”, enquanto que as Partes de Nome (nomes próprios)
lideram na categoria de “Desporto”, devido principalmente aos inúmeros atores envolvidos nas
38
Caracterização do Arquivo
Palavra JPN CRPC Literário CRPC Políticouniversidade 19.49 0.33 2.79cidade 7.2 4.22 8.84metro 4.12 0.33 5.62municipal 4.53 0.00 4.07Lisboa 2.22 3.99 23.1caminho 0.13 1.77 0.27Douro 0.28 0.78 1.61vinho 0.37 4.88 5.80norte 0.89 0.77 2.14tempo 0.74 2.10 0.95
Tabela 4.7: Colocações (%) da palavra ’Porto’ em diferentes corpora
notícias desportivas. Em termos de adjetivos, a Figura 4.21 mostra a maior prevalência na “Ciên-
cia e Tecnologia” e na categoria sobre o “Mundo”, surgindo em menor número no “Desporto” e
“Porto”, categorias debruçadas especialmente na divulgação de eventos passados e na promoção
de novos eventos no futuro. Os verbos são praticamente igualmente representados nas catego-
rias, tendo apenas menos alguns pontos percentuais nas categorias de “Economia” e “Educação”.
Em termos de Advérbios, o “Deporto” é a principal categoria. Ainda na distribuição das POS
tags, a Figura 4.22 apresenta a grande presença dos Dígitos nas categorias “Economia” e “Des-
porto”, onde naturalmente se revelam números; para além disso, os Demonstrativos e os Relativos
destacam-se pela sua baixa presença no “Desporto”.
4.5.2 Léxico nas Categorias
Como abordam assuntos diferentes, é de esperar que o conjunto lexical mais usado seja diverso
em todas as categorias. Como a análise efetuada na subsecção 4.4.4, foram extraídas as palavras
comuns e adjetivos mais usados em cada categoria. Na categoria “Desporto” o léxico é, como seria
de esperar, composto por palavra como “jogo”, “equipa”, “final” e outro. A presença da palavra
futebol nas 10 palavras mais usadas confirma-a como modalidade mais popular. Na “Cultura” a
Nome % de Nomes Comunsanos 0.978ano 0.762pessoas 0.701presidente 0.535dia 0.499projecto 0.469país 0.464cidade 0.421parte 0.417
Tabela 4.8: Nomes Comuns mais usados noarquivo do JPN
Adjetivo % de Adjetivosgrande 1.497maior 1.408novo 1.308nova 0.902nacional 0.900portuguesa 0.895melhor 0.858social 0.827português 0.791
Tabela 4.9: Adjetivos mais usados no ar-quivo do JPN
39
Caracterização do Arquivo
Palavra OcorrênciasNomes Comunscidade 2.947anos 2.612ruas 1.239noite 1.038cinema 1.038ano 0.971música 0.937Adjetivosnovo 1.607nova 0.971melhores 0.468bom 0.435maior 0.435grande 0.435melhor 0.401novos 0.368europeu 0.334novas 0.334culturais 0.301cultural 0.267Advérbiosmais 3.482já 2.277não 2.243ainda 0.636hoje 0.535também 0.435só 0.401quase 0.334Partes de NomeUniversidade 4.420FC 4.387Câmara 4.018Metro 3.750Queima 2.746Cultura 2.210Baixa 2.109Liga 1.875Festival 1.339Verbosé 4.588vai 4.420recebe 2.545há 2.310está 2.009ser 1.808ter 1.306
Tabela 4.10: Colocações (%)da palavra “Porto” nos títulosdas notícias do JPN
Adjetivo Frequênciagrande 387
pequeno(a) 65bom 356boa 307
mau 44maior 176
melhor 329pior 42
interessante 84novo(a) 194velho(a) 16
Tabela 4.11: Alguns adjetivos comuns noscomentários
40
Caracterização do Arquivo
Bigram Ocorrência por milhão de palavraso Porto 2956,99a Universidade 1017,64que não 871,5presidente de_ 671,75as pessoas 652,00em Portugal 617,34acredita que 182,52
Tabela 4.12: Alguns bigramas
Trigram Ocorrência 1 JPN Ocorrência CRPC Literário Ocorrência CRPC Políticomilhões de euros 215,288 0,00 0,31a_ o longo 213,972 55,24 89,59em_ o entanto 516,136 111,34 233,33de acordo com 299,677 17,13 161,03o ano passado 190,424 4,34 8,5mais uma vez 46,509 35,62 77,84a nível nacional 43,73 0,74 10,32este é um 52,21 1,37 24,98por sua vez 37,14 19,98 23,02momento em que 36,41 32,4 44,56fazer com que 29,98 3,85 7,74depois de tanto 0,58 1,49 0,31
Tabela 4.13: Alguns trigrams e a sua comparação com outros corpora
atenção prende-se na palavra “festival”, refletindo a grande oferta de festivais e festas de Verão
em Portugal. A palavra “música” ocorre com mais frequência que a palavra “cinema”, mas se
considerarmos a palavra “filme”, então a sétima arte acaba por se tornar um tópico mais referido
nas notícias do JPN. No “Mundo” destacam-se as palavras “país”, “presidente” e “governo”, reve-
lando a inclinação política das notícias desta categoria. Finalmente na “Educação”, o foco está nos
“alunos” e no “ensino” “superior” e na “universidade”, devido à natureza universitária do JPN.
4.5.3 Popularidade das Categorias
Aliando a análise dos registos do servidor de JPN, durante os anos de 2012, 2013 e 2014, é
possível inferir a popularidade das categorias ao consultar as páginas mais visualizadas durante
o período referido. A Figura 4.23 mostra o número de visualizações por categoria. A categoria
de “Ciências e Tecnologias” é surpreendentemente aquela que consegue arrecadar o maior valor
de visualizações por cada artigo. De seguida, “Destaque Principal” e “País” apresentam o maior
número de visualizações, seguidas do “Porto” e “Mundo”.
Os comentários são também um bom indicador do nível de discussão que um artigo promove.
No entanto, algumas categorias são naturalmente publicadas com maior frequência que outras.
Neste sentido, é importante normalizar o valor de cada comentário por notícia, pelo que é usada
41
Caracterização do Arquivo
Pentagram Ocorrência 1
a universidade de_ o porto 618,51de_ a universidade de_ o 528,86a câmara de_ o porto 158,83a cidade de_ o porto 152,25universidade de_ o porto up 121,83câmara municipal de_ o porto 115,98a câmara municipal de_ o 108,81a casa de_ a música 105,59de_ a câmara de_ o 71,95a queima de_ as fitas 68,44
Tabela 4.14: Pentagrams mais frequentes
Figura 4.18: Categorias mais frequentes
a métrica “comentário por artigo” invés de o número total de comentários aos artigos de uma
categoria. A Figura 4.24 mostra a maior atividade da opinião do leitor nas categorias “Desporto”,
“Ciências e Tecnologias” e “UP”. As notícias em “Destaque Principal” apresentam ainda um maior
nível de comentários que as restantes categorias.
42
Caracterização do Arquivo
Pentagram Ocorrência 1
a cidade de_ o Porto 70,43a Queima de_ as Fitas 51,22a sede de_ a PIDE 44,82a_ o contrário de_ o 44,82de_ a Universidade de_ o 44,82em_ a sede de_ a 38,42de_ a cidade de_ o 38,42o contrário de_ o que 35,21Câmara Municipal de_ o Porto 32,01a tiro por_ a GNR 32,01que li em_ o comentário 28,81Figueira ou a Vila Real 28,81esperamos sempre construtivos que escrevem 28,81a estudar os países de_ 28,81cabo de_ a Vossa geração 28,81os ouvidos de_ os nossos 28,81
Tabela 4.15: Pentagrams mais frequentes nos comentários
4.6 Análise de Autores
Um dos pontes fortes do arquivo do JPN é a diversidade de contribuidores para a criação de
notícias, o que o torna uma fonte interessante de análise das diferenças entre os vários autores.
Como foi referido na secção de vista geral 4.1, foi usada a ideia da divisão dos autores pelo
número de artigos que escreveram, criando “contentores” que representam todos os autores com
um número de artigos num certo intervalo (p. ex. 0 a 50 artigos, 50 a 100 artigos, etc.). Espera-se
que esta divisão possa revelar alguns hábitos de publicação e características de escrita divergentes
entre os autores mais experientes e ativos face aos autores inexperientes e de contribuição única.
A divisão em contentores é feita de 14 em 14 artigos, existindo ainda o grupo “1 artigo”, que
representa os autores de contribuição única para o JPN, e o grupo “mais de 74 artigos”, que aglo-
mera os autores com mais 75 ou mais artigos (Figura 4.1b). Cerca de 55 dos autores contribuíram
com apenas um único artigo para o jornal, representando, na maioria, autores convidados, en-
quanto que 139 autores (aproximadamente 32%) publicaram entre 2 a 14 artigos. Existem ainda 3
autores com mais de 1000 artigos no JPN, que são agregados na categoria de “mais de 74 artigos”,
com 32 autores (7,5%). Esta última categoria representa os autores experientes e que contribuem
ativamente para o arquivo.
4.6.1 POS Tags
De forma a ser possível perceber as diferenças entre os diferentes autores e o seu número
de artigos, o intervalo entre grupos foi aumentado para 50 artigos. Na análise das POS tags no
contexto destes grupos, o resultado é apresentado na Figura 4.25. A figura mostra a igualdade de
uso das POS tags entre utilizadores, não existindo uma diferença significativa de grupo para grupo.
43
Caracterização do Arquivo
Figura 4.19: Evolução das categorias ao longo dos anos
4.6.2 Categorias
Uma característica interessante é a distribuição de categorias por grupo de autor, apresen-
tado na Figura 4.26. Em termos de percentagem de artigos, a categoria “Economia” apresenta
o maior número de autores “convidados”, onde cerca de um terço dos autores das suas notícias
são contribuintes únicos para o arquivo. “Economia” é também a categoria que os autores mais
ativos evitam, com apenas 7% de participação na criação de notícias económicas. Inversamente,
os autores com mais de 100 artigos no seu histórico são os principais criadores das notícias com
“Destaque Principal”, devido certamente à sua experiência. Os autores com mais que uma con-
tribuição (2 a 49 artigos) são, para além da “Economia”, ativos na “Ciência e Tecnologia” e na
“Educação”, onde apresentam contribuições de 28% e 30% respetivamente. Os autores regulares
com 50 a 99 artigos participam aproximadamente de igual forma em todas as categorias, à exceção
da “Educação”, onde só possuem autoria de 22% dos artigos.
44
Caracterização do Arquivo
Figura 4.20: Distribuição de nomes comuns, partes de nome e preposições nas categorias
4.7 Relações entre Notícias
As notícias do arquivo do JPN podem ser relacionadas com uma ou mais notícias, conforme
o juízo do autor do artigo. A análise destas relações entre notícias pode revelar relevantes tópicos
e notícias cruciais para a interligação entre temas do arquivo. De forma a analisar o corpus a este
nível, foram tidas em conta todas as notícias dos anos 2004, 2005, 2006 e 2007. Apenas se pro-
cessaram estes 4 primeiros anos do arquivo para não aumentar consideravelmente a complexidade
do grafo em análise, que possui neste caso cerca de 3208 nós e 6446 ligações. A Figura 4.27 apre-
senta o grafo das notícias (nós) e as relações entre si. Os grupos mais relevantes são compostos
por notícias da Universidade do Porto e as respetivas faculdades. Neste caso o relacionamento é
feito através de uma notícia, de título: ”À descoberta da Universidade do Porto”, que funciona
como ”ponte” entre os dois grupos. Na Figura 4.28 é possível identificar este tipo de notícias que
45
Caracterização do Arquivo
Figura 4.21: Distribuição de adjetivos, advérbios e verbos nas categorias
relacionam grandes grupos de notícias. O tamanho do nó destas notícias é proporcional ao seu
atributo de nome Betweenness Centrality [Ley07], que está relacionado com o número de cami-
nhos mais curtos que passam pelo nó em questão numa rede de nós. Por outras palavras, estes
nós com grande medida de Betweenness Centrality são uma espécie de ”coração” da sub-rede em
que se encontram, efetuando a maioria das ligações dos seus nós. No grafo é possível observar a
importância de artigos como “Ratzinger é o novo Papa”, “O regresso do perigo Nuclear” e “FCUP
- A Exatidão das Ciências”.
4.7.1 Categorias
No Capitulo 3 foram mencionados marcadores que identificam a categoria da notícia. A mai-
oria destes marcadores (p. ex. Ribeira do Porto) são de uso relativamente mais específico e de
menor frequência do que as categorias mais gerais como Cultura, Desporto, etc. As relações entre
46
Caracterização do Arquivo
Figura 4.22: Distribuição de demonstrativos, dígitos, quantidades e relativos nas categorias
estas subcategorias e categorias é apresentado no grafo da Figura 4.29, onde o tamanho do nó é
proporcional ao número de artigos com esse marcador. A categoria Porto destaca-se obviamente
dos restantes nós, acompanhada pela cultura, UP, e Música. Portugal, Política e Futebol são outras
categorias e marcadores relevantes.
47
Caracterização do Arquivo
Palavra % de Palavras em Desportojogo 0,306equipa 0,286final 0,177lugar 0,177golo 0,162pontos 0,159minutos 0,155vitória 0,133clube 0,118futebol 0,109
Tabela 4.16: Adjetivos/Nomes comuns maisusados na categoria Desporto
Palavra % de Palavras em Culturaanos 0,180festival 0,151ano 0,148público 0,135dia 0,123pessoas 0,121música 0,120cinema 0,107edição 0,100filme 0,089
Tabela 4.17: Adjetivos/Nomes comuns maisusados na categoria Cultura
Palavra % de Palavras em Mundopaís 0,160países 0,153anos 0,144pessoas 0,137presidente 0,136governo 0,122eleições 0,083dia 0,081acordo 0,080primeiro-ministro 0,074
Tabela 4.18: Adjetivos/Nomes comuns maisusados na categoria Mundo
Palavra % de Palavras em Educaçãoensino 0,356alunos 0,291estudantes 0,258superior 0,217ano 0,198professores 0,162anos 0,155universidades 0,144escolas 0,135instituições 0,130
Tabela 4.19: Adjetivos/Nomes comuns maisusados na categoria Educação
48
Caracterização do Arquivo
Figura 4.23: Categorias mais populares (visualizações por artigo)
49
Caracterização do Arquivo
Figura 4.24: Comentários por artigo nas diversas categorias
50
Caracterização do Arquivo
Figura 4.25: POS Tags por grupo de autor
51
Caracterização do Arquivo
Figura 4.26: Categorias por autor
52
Caracterização do Arquivo
Figura 4.27: Grafo das relações entre notícias
53
Caracterização do Arquivo
Figura 4.28: Nós com maior valor de centralidade
54
Caracterização do Arquivo
Figura 4.29: As tags mais comuns no arquivo
55
Caracterização do Arquivo
56
Capítulo 5
Conclusões e Trabalho Futuro
No que diz respeito à satisfação dos objetivos, esta dissertação tinha como propósito o proces-
samento e caraterização de um arquivo de notícias português. O arquivo é composto por 19 072
artigos da autoria de mais de 422 autores, para além dos 5665 comentários criados pelos leitores
dos artigos. O arquivo cobre cerca 11 anos de conteúdo jornalístico sobre diferentes tópicos e ca-
tegorias. A análise ao arquivo revelou diversos pontos e características interessantes tanto de um
corpus jornalístico como do próprio JPN. Primeiramente foi feita uma análise quanto aos hábitos
de publicação do jornal, que revelou como picos de atividade os meses de março, abril e maio
e uma publicação de novos artigos mais frequentemente durante a tarde. A análise jornalística
revelou ainda a crescente popularidade dos vídeo-artigos, que incidem principalmente sobre notí-
cias relacionadas com a Universidade do Porto (UP). De seguida foi foi feita uma análise quanto
aos visitantes do jornal online, que revelou os hábitos de acesso dos leitores e a escala do tráfego
recebido pelo JPN. Os termos de pesquisa também foram analisados, assim como os textos cria-
dos e publicados nas páginas de notícias pelos leitores, em forma de comentário. A análise aos
textos jornalísticos do arquivo mostrou que os textos noticiosos seguem a conhecida estrutura da
pirâmide invertida: os subtítulos são por norma 3 vezes maiores que os títulos e os corpos das no-
tícias 10 vezes maiores que os subtítulos, contendo mais que 9% do conteúdo jornalístico de uma
notícia. Através da análise morfológica foi feita a identificação das partes da fala mais frequentes,
onde se destacam os nomes comuns, preposições e artigos definidos como as mais usadas. Os
nomes comuns, adjetivos e partes de nome são as partes da fala com mais variedade: um tipo novo
surge a cada 46, 22 e 16 palavras respetivamente. A comparação com outros corpora de diferente
natureza textual foi efetuada e foi observada a maior frequência de partes de nome e nomes co-
muns no texto jornalístico quando comparado com textos literários, políticos e de revista. O texto
jornalístico do JPN apresenta-se também com menos advérbios que os textos dos sub corpora li-
terários e políticos do RCCP. Em termos de evolução do uso das partes da fala, não foi registada
uma alteração significativa: o uso das marcas de pontuação aumentou aproximadamente 2 pontos
percentuais enquanto que outros tipos desceram de frequência como os adjetivos e os advérbios.
A composição das partes da fala nas diferentes secções das notícias também foi analisada e foi
observada uma relevante diferença nalgumas etiquetas. Os títulos provaram ser ligeiramente mais
57
Conclusões e Trabalho Futuro
adjetivados e compostos por quase um quarto de partes de nome, quase 30 % mais que os corpos
das notícias. Os subtítulos por sua vez são relativamente mais compostos por nomes comuns e ar-
tigos definidos, enquanto que no corpo da notícia é mais frequente observar marcas de pontuação
e verbos no infinitivo. Em termos de frases foi observada uma evolução significativa no número
de frases por artigo, que decresceu bastante desde o ano 2004 até 2015. O número de palavras
por frase, por contrário, aumentou no mesmo período de tempo. O léxico do arquivo foi um dos
principais focos da dissertação. Na análise lexical foram registados 120 558 tipos de palavras. De
forma a medir a riqueza lexical dos artigos, foi calculada a medida TTR (Type per Token Ratio
ao longo dos anos, onde se observou um mínimo em 2008 seguido da subida quase constante até
2015. Em termos concretos das palavras utilizadas, foram analisadas as frequências e percenta-
gens de uso de certos exemplos, seguindo-se a comparação com um corpus jornalístico e outros
corpora. Através deste estudo foi possível confirmar o foco do JPN nas matérias académicas pas-
sadas no Norte do país, mais especificamente na cidade do Porto e na sua universidade (UP). O
jornal tem também uma menor inclinação política que o outro corpus jornalístico usado para com-
paração (CETEMPúblico). O JPN aborda ainda o tema da cultura mais frequentemente que o seu
CETEMPúblico. De forma a aprofundar a abordagem do JPN ao tema da cidade do Porto, foi
feita uma análise à concordância da palavra “Porto", revelando a proximidade com palavras como
“universidade", “cidade"e “câmara". O JPN aborda assim diferentes aspetos da cidade do Porto
comparado com outros corpora portugueses, que apresentaram mais frequentemente colocações
como “vinho", “Lisboa"e “Douro". Uma análise referente às diferentes expressões no texto do
JPN foi efetuada, comparando a frequência de alguns n-gramas em diversos corpora, que revelam
a natureza expositiva e de divulgação de informação do texto jornalístico.
Depois da análise morfológica foi efetuado um estudo quanto às categorias das notícias pre-
sentes no artigo. Este estudo revelou que 18 % das notícias são consideradas como “destaques",
e cerca de 4 % como “destaque principal". Esta análise também revela a importância do tópico
“Porto", bem como “Cultura", “Ciências", “Mundo", “País"e “UP". O foco nestas categorias evo-
lui consideravelmente desde o inicio do jornal, que principalmente virou a sua atenção para o
“Porto"e para a “Cultura", enquanto que deixou de publicar tantos artigos sobre “Desporto"e as
“Ciências e Tecnologias". Os textos das categorias foram alvo também de uma análise quanto à
sua composição morfológica, revelando tanto maior adjetivação de algumas categorias (“Mundo")
como um maior uso de nomes comuns nos seus artigos (“Ciência e Tecnologia"e “Educação"). O
Léxico nas categorias também foi analisado, expondo as diferentes palavras mais usadas em cada.
Ainda na caracterização das categorias, foi efetuada uma análise à sua popularidade, com ajuda
dos registos de acessos e comentários aos artigos, que divulgou a categoria “Desporto"com o maior
número de comentários por artigo e “Ciência e Tecnologia"com o maior número de visualizações
por artigo.
No que diz respeito aos autores dos autores dos artigos, foi feita uma comparação das partes
da fala e das categorias dos artigos sobre o número de artigos por autor. Esta análise revelou não
haver muita diferença na distribuição das partes da fala entre autores com mais e menos artigos,
revelando no entanto a preferência dos autores mais experientes (com mais de 100 artigos) da es-
58
Conclusões e Trabalho Futuro
crita dos artigos de destaque principal. A categoria com mais autores convidados (ou seja, autores
que escreveram apenas um 1 artigo no total da sua contribuição para o JPN) foi “Economia".
A relação entre notícias foi também analisada, dando a descobrir a existência de diversos
tópicos e grupos de notícias que se interligam sem ligação com o resto do arquivo. A identificação
de notícias chave com a capacidade de ligação entre vários grupos e tópicos também foi efetuada.
Em termos de marcadores UP, Música, Portugal e Futebol são os marcadores mais relevantes.
5.1 Trabalho Futuro
O trabalho futura passa pelo aprofundamento da análise ao texto jornalístico, explorando uma
caracterização a novos níveis e combinando diferentes análises para a descoberta de detalhes im-
portantes da composição de artigos de notícias. Uma interessante abordagem seria o uso dos
conteúdos noticiosos no corpus para a geração automática de texto, com recurso a métodos esta-
tísticos. Os textos gerados poderão revelar uma interessante estrutura inerente no texto jornalístico
assim como realçar os tópicos e sujeitos mais discutidos nos artigos. Esta geração podia ser esten-
dida ainda aos comentários, que representam uma outra importante fonte sobre o uso da linguagem
por parte dos leitores do jornal. A anotação das entidades mencionadas no texto, assim como a
sua resolução e categorização (local, pessoa, organização, etc.) seria uma importante anotação a
acrescentar ao arquivo, possibilitando o estudo das relações entre as entidades assim como análi-
ses à localidade dos artigos, ao género das entidades e quanto à partilha de entidades nas diversas
categorias. Outro passo relevante futuramente era a organização e disponibilização do corpus à co-
munidade científica, permitindo futuro desenvolvimento e investigação sobre a natureza do texto
jornalístico.
59
Conclusões e Trabalho Futuro
60
Referências
[Bak06] Paul Baker. Using corpora in discourse analysis. AC Black, 2006.
[Bat14] David Batista. Big corpus pt01 in english, 2014. URL: http://dmir.inesc-id.pt/project/BIG_Corpus_PT01_in_English.
[BBF+06] Florbela Barreto, António Branco, Eduardo Ferreira, Amália Mendes, Maria Fer-nanda Nascimento, Filipe Nunes e Joao Silva. Open resources and tools for theshallow processing of portuguese: the tagshare project. In Proceedings of LREC2006. Citeseer, 2006.
[BDM+92] Peter F Brown, Peter V Desouza, Robert L Mercer, Vincent J Della Pietra e Jenifer CLai. Class-based n-gram models of natural language. Computational linguistics,18(4):467–479, 1992.
[Bic00] Eckhard Bick. The parsing system"Palavras": Automatic grammatical analysis ofPortuguese in a constraint grammar framework. Aarhus Universitetsforlag, 2000.
[Bir06] Steven Bird. Nltk: the natural language toolkit. In Proceedings of the COLING/ACLon Interactive presentation sessions, pages 69–72. Association for ComputationalLinguistics, 2006.
[BS04] António Branco e Joao Silva. Evaluating solutions for the rapid development ofstate-of-the-art pos taggers for portuguese. In LREC, 2004.
[BS06] António Branco e Joao Ricardo Silva. A suite of shallow processing tools for portu-guese: Lx-suite. In Proceedings of the Eleventh Conference of the European Chapterof the Association for Computational Linguistics: Posters & Demonstrations, pages179–182. Association for Computational Linguistics, 2006.
[Bur95] Lou Burnard. Users reference guide british national corpus version 1.0. 1995.
[Bur06] Lou Burnard. Xaira: software for language analysis. In Digital Historical Corpora,2006.
[Car08] Nuno Cardoso. Rembrandt-reconhecimento de entidades mencionadas baseado emrelaçoes e análise detalhada do texto. Encontro do Segundo HAREM, PROPOR,2008, 2008.
[Cos06] Luís Costa. 20th Century Esfinge (Sphinx) solving the riddles at CLEF 2005. Sprin-ger, 2006.
[Cri13] Nisco Maria Cristina. Reporting the 2011 london riots: a corpus-based discourseanalysis of agency and participants. Corpus Linguistics 2013, page 2, 2013.
61
REFERÊNCIAS
[dA10] Aroldo Leal de Andrade. The application of clitic climbing in european portugueseand the role of register. In Selected Proceedings of the 12th Hispanic LinguisticsSymposium, pages 97–108, 2010.
[Dav07] Mark Davies. Time magazine corpus (100 million words, 1920s-2000s). RetrievedSeptember, 1:2008, 2007.
[Dav08] Mark Davies. The corpus of contemporary american english: 425 million words,1990-present. 2008.
[Dav09] Mark Davies. Creating useful historical corpora: A comparison of corde, the corpusdel español, and the corpus do português. Diacronía de las lenguas iberorrománicas:Nuevas aportaciones desde la linguística de corpus, pages 137–166, 2009.
[Deu03] Mats Deutschmann. Apologising in british english. 2003.
[dTE] Corpus de Extractos de Textos Electrônicos. Nilc/folha de sao paulo (ceten-folha).
[Eva01] Richard Evans. Applying machine learning toward an automatic classification of it.Literary and linguistic computing, 16(1):45–57, 2001.
[FK79] W Nelson Francis e Henry Kucera. Brown corpus manual. 1979.
[FRB08] Claudia Freitas, Paulo Rocha e Eckhard Bick. Um mundo novo na floresta sintá (c)tica–o treebank do português. Calidoscópio, 6(3):142–148, 2008.
[FSM+09] Cláudia Freitas, Diana Santos, Cristina Mota, Hugo Gonçalo Oliveira e Paula Carva-lho. Relation detection between named entities: report of a shared task. In Proce-edings of the Workshop on Semantic Evaluations: Recent Achievements and FutureDirections, pages 129–137. Association for Computational Linguistics, 2009.
[Gar87] Roger Garside. The claws word-tagging system. 1987.
[GB] Ian Gregory e Alistair Baron. Geographical text analysis mapping and spatiallyanalysing corpora. Corpus Linguistics 2013, page 104.
[GHM12] Michel Généreux, Iris Hendrickx e Amália Mendes. Introducing the reference corpusof contemporary portuguese online. Politics, 45:163–267, 2012.
[GLM97] Roger Garside, Geoffrey N Leech e Tony McEnery. Corpus annotation: linguisticinformation from computer text corpora. Taylor Francis, 1997.
[Gra95] David Graff. North american news text corpus, 1995.
[Her60] Gustav Herdan. Type-token mathematics, volume 4. Mouton, 1960.
[IV95] Nancy Ide e Jean Véronis. Text encoding initiative: Background and contexts, vo-lume 29. Springer Science Business Media, 1995.
[JAR03] A. Simões . J. Almeida e P. Rocha. Lingua-pt-pln, 2003.
[Joa98] Thorsten Joachims. Text categorization with support vector machines: Learning withmany relevant features. Springer, 1998.
[Lee93] Geoffrey Leech. Corpus annotation schemes. Literary and linguistic computing,8(4):275–281, 1993.
62
REFERÊNCIAS
[Lee04] Geoffrey Leech. Developing linguistic corpora: a guide to good practice addinglinguistic annotation, 2004.
[Lew97] David D Lewis. Reuters-21578 text categorization test collection, distribution 1.0.http://www. research. att. com/˜ lewis/reuters21578. html, 1997.
[Ley07] Loet Leydesdorff. Betweenness centrality as an indicator of the interdisciplinarityof scientific journals. Journal of the American Society for Information Science andTechnology, 58(9):1303–1319, 2007.
[LHL+03] Elizabeth D Liddy, Eduard Hovy, Jimmy Lin, John Prager, Dragomir Radev, LucyVanderwende e Ralph Weischedel. Natural language processing. Encyclopedia oflibrary and information science, 2, 2003.
[Mal00] Robert Malouf. The order of prenominal adjectives in natural language generation.In Proceedings of the 38th Annual Meeting on Association for Computational Lin-guistics, pages 85–92. Association for Computational Linguistics, 2000.
[MCJ06] David McClosky, Eugene Charniak e Mark Johnson. Effective self-training for par-sing. In Proceedings of the main conference on human language technology confe-rence of the North American Chapter of the Association of Computational Linguis-tics, pages 152–159. Association for Computational Linguistics, 2006.
[Mil09] Neil Millar. Modal verbs in time: Frequency changes 1923–2006. InternationalJournal of Corpus Linguistics, 14(2):191–220, 2009.
[MRS08] Christopher D Manning, Prabhakar Raghavan e Hinrich Schütze. Introduction toinformation retrieval, volume 1. Cambridge university press Cambridge, 2008.
[MS04a] Bruno Martins e Mário J Silva. A statistical study of the wpt-03 corpus. In Advancesin Natural Language Processing, pages 384–394. Springer, 2004.
[MS04b] Bruno Martins e Mário J Silva. Spelling correction for search engine queries, pages372–383. Springer, 2004.
[MSB+14] Christopher D Manning, Mihai Surdeanu, John Bauer, Jenny Finkel, Steven JBethard e David McClosky. The stanford corenlp natural language processing to-olkit. In Proceedings of 52nd Annual Meeting of the Association for ComputationalLinguistics: System Demonstrations, pages 55–60, 2014.
[MTU+01] Diana Maynard, Valentin Tablan, Cristian Ursu, Hamish Cunningham e YorickWilks. Named entity recognition from diverse text types. In Recent Advances inNatural Language Processing 2001 Conference, pages 257–274, 2001.
[MXT06] Tony McEnery, Richard Xiao e Yukio Tono. Corpus-based language studies. Rou-tledge London, 2006.
[Mä13] Christina Märzhäuser. Coordinated bare nouns in french, spanish and european por-tuguese. New perspectives on bare noun phrases in romance and beyond, pages283–300, 2013.
[NAdL+12] Paula Nascimento, Rodrigo Aguas, Débora de Lima, Xiao Kong, Bruno Osiek, Ge-raldo Xexéo e Jano de Souza. Análise de sentimento de tweets com foco em notícias.Proceedings of the CSBC, 2012.
63
REFERÊNCIAS
[NGM+96] MGV Nunes, CM Ghiraldelo, G Montilha, MAS Turine, MCF De Oliveira, R Ha-segawa, RT Martins e ON Oliveira Jr. Desenvolvimento de um sistema de revisãogramatical automática para o português do brasil. II Encontro para o ProcessamentoComputacional do Português Escrito e Falado, 1996.
[NMTM00] Kamal Nigam, Andrew Kachites McCallum, Sebastian Thrun e Tom Mitchell. Textclassification from labeled and unlabeled documents using em. Machine learning,39(2-3):103–134, 2000.
[NWM06] R Nielsen, Wayne Ward e James H Martin. Toward dependency path based entail-ment. In Proceedings of the Second PASCAL Challenges Workshop on RecognisingTextual Entailment, pages 44–49, 2006.
[OS98] Signe Oksefjell e Diana Santos. Breve panorâmica dos recursos de português men-cionados na web. III Encontro para o Processamento Computacional do PortuguêsEscrito e Falado (PROPOR’98)(Porto Alegre, RS, 3 e 4 novembro de 1998), pages38–47, 1998.
[OSG09] Hugo Gonçalo Oliveira, Diana Santos e Paulo Gomes. Relations extracted from aportuguese dictionary: results and first evaluation. In Local Proc. 14th PortugueseConf. on Artificial Intelligence (EPIA), pages 541–552, 2009.
[QMHG14] Paulo Quaresma, Amália Mendes, Iris Hendrickx e Teresa Gonçalves. Automatictagging of modality: identifying triggers and modal values. In Proceedings 10thJoint ISO-ACL SIGSEM Workshop on Interoperable Semantic Annotation, page 95,2014.
[RBZ14] Isabela Reis, Helder Bastos e Fernando Zamith. Obciber - cetac.media, 2014. URL:https://obciber.wordpress.com/.
[Rei15a] Isabela Reis. Estatuto editorial - jpn - jornalismoportonet, 2015. URL: http://jpn.up.pt/documentos/estatuto-editorial-do-jpn/.
[Rei15b] Isabela Reis. Jpn - jornalismoportonet - jornal digital da licenciatura em ciências dacomunicação: Jornalismo, da universidade do porto., 2015. URL: http://jpn.up.pt/.
[RS00] Paulo Rocha e Diana Santos. Cetempúblico: Um corpus de grandes dimensões delinguagem jornalística portuguesa. Actas do V Encontro para o processamento com-putacional da língua portuguesa escrita e falada, PROPOR, 2000:131–140, 2000.
[RSW02] Tony Rose, Mark Stevenson e Miles Whitehead. The reuters corpus volume 1-fromyesterday’s news to tomorrow’s language resources. In LREC, volume 2, pages 827–832, 2002.
[RUH+14] Michael Röder, Ricardo Usbeck, Sebastian Hellmann, Daniel Gerber e AndreasBoth. N3-a collection of datasets for named entity recognition and disambiguationin the nlp interchange format. 9th LREC, 2014.
[San11] Diana Santos. Linguateca’s infrastructure for portuguese and how it allows the de-tailed study of language varieties. Oslo Studies in Language, 3(2), 2011.
[SB00] Diana Santos e Eckhard Bick. Providing internet access to portuguese corpora: theac/dc project. In LREC. Citeseer, 2000.
64
REFERÊNCIAS
[Sco96] Mike Scott. Wordsmith tools, 1996.
[SFK00] Efstathios Stamatatos, Nikos Fakotakis e George Kokkinakis. Text genre detectionusing common word frequencies. In Proceedings of the 18th conference on Com-putational linguistics-Volume 2, pages 808–814. Association for Computational Lin-guistics, 2000.
[SG00] Mark Stevenson e Robert Gaizauskas. Experiments on sentence boundary detec-tion. In Proceedings of the sixth conference on Applied natural language processing,pages 84–89. Association for Computational Linguistics, 2000.
[Sin91] John Sinclair. Corpus, concordance, collocation. Oxford University Press, 1991.
[SS02] Diana Santos e Luís Sarmento. O projecto ac/dc: acesso a corpora/disponibilizaçãode corpora. Actas do XVIII Encontro da Associação Portuguesa de Linguística, pages705–717, 2002.
[SSN02] Satoshi Sekine, Kiyoshi Sudo e Chikashi Nobata. Extended named entity hierarchy.In LREC, 2002.
[SV00] Anne-Marie Simon-Vandenbergen. The functions of i think in political discourse.International Journal of Applied Linguistics, 10(1):41–63, 2000.
[Sva90] Jan Svartvik. The London-Lund corpus of spoken English: Description and research.Number 82. Lund University Press, 1990.
[SW01] Mark Stevenson e Yorick Wilks. The interaction of knowledge sources in word sensedisambiguation. Computational Linguistics, 27(3):321–349, 2001.
[U/P15] SAPO U/Porto. Maquina do tempo, 2015. URL: http://maquinadotempo.sapo.pt/.
[Vic13] Alexandre Manuel Fajardo Vicente. LexMan: um Segmentador e Analisador Morfo-lógico com transdutores. Thesis, 2013.
[WA07] George RS Weir e Nikolaos K Anagnostou. Exploring newspapers: a case study incorpus analysis. Proceedings of ICTATLL 2007, pages 12–19, 2007.
[Wer00] Stefan Wermter. Neural network agents for learning semantic text classification.Information Retrieval, 3(2):87–103, 2000.
[Wu04] Xiaobing Wu. Knowledge representation and inductive learning with xml. In Pro-ceedings of the 2004 IEEE/WIC/ACM International Conference on Web Intelligence,pages 491–494. IEEE Computer Society, 2004.
[ZLHZ10] Zhicheng Zheng, Fangtao Li, Minlie Huang e Xiaoyan Zhu. Learning to link en-tities with knowledge base. In Human Language Technologies: The 2010 AnnualConference of the North American Chapter of the Association for ComputationalLinguistics, pages 483–491. Association for Computational Linguistics, 2010.
65