Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011 Construindo uma Web de Dados Link por Link com Software Livre, Esforço Distribuído e Recompensa Acumulada Palaestra no CONSEGI 2011 13 de Maio de 2011, Brasilia, Brasil Pablo N. Mendes Universidade Livre de Berlim Alemanha Obrigado a Christian Bizer, Robert Isele, Anja Jentzch, e todo o WBSG na FU Berlin.
A Web é um espaço global de informações baseado na idéia de estabelecer hiperlinks entre documentos. De forma semelhante, tecnologias de Dados Ligados (Linked Data) permitem o estabelecimento de links entre registros em bancos de dados, interconectando estes bancos em um espaço global de dados. Tecnologias de Dados Ligados vem sendo adotadas por um número crescente de provedores de dados, resultando em aproximadamente 20 bilhões de ítens de dados que incluem dados sobre entidades governamentais e geográficas, pessoas, companhias, comunidades online, filmes, músicas, livros e publicações científicas. Pablo Mendes apresentou em sua palestra uma visão geral sobre infraestrutura, técnicas e software livre que abordam questões críticas que surgem em tal Web de Dados Ligados. Durante sua apresentação, ele descreveu como as pesquisas no grupo WBSG da Freie Universität Berlin vem usando conhecimento extraído da Wikipedia para semear um ecossistema de dados, software e usuários da Web de forma a habilitar integração de dados em escala global, seguindo um estilo evolucionário pay-as-you-go (link por link) que distribui esforços e acumula recompensas.
Uma das conclusões da apresentação é que se compartilharmos dados interligados - ou ainda melhor, se compartilharmos mecanismos de interligação - através da Web, poderemos dividir tanto o esforço de interligar, quanto as recompensas de se realizar consultas por sobre dados interligados.
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Construindo uma Web de Dados Link por Link com Software Livre,
Esforço Distribuído e Recompensa Acumulada
Palaestra no CONSEGI 201113 de Maio de 2011, Brasilia, Brasil
Pablo N. Mendes
Universidade Livre de BerlimAlemanha
Obrigado a Christian Bizer, Robert Isele, Anja Jentzch, e todo o WBSG na FU Berlin.
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20112
Outline
< Dados Ligados? De que me importa?l Uma nova classe de aplicações na Web
< O que são Dados Ligados?l Quais são os objetivos e visão?
< Uma olhada na atual Web de Dados Ligadosl Isso é pra valer?
< Quais são os desafios?l Uma arquitetura de integração de dados na Web
< Concluindo…
Dados ligados? Por quê?
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20114
< Lista de convidados para minha festa < Organizando o CONSEGI?
Quantos convidados virão?
4
Docs vs Tabelas: Computadores amam estrutura
Quantos convidados virão?
4000?
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20115
Docs vs Tabelas: estrutura permite automação
< Agora usando uma tabela… < Para o CONSEGI:
Quantas pessoas virão?
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/20116
Documentos na Web: multiplas buscas
< Comprar uma pickup ou perua, não a maior, mas com altura boa, interior mais comprido
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201116
Resolvendo URIs na Web
dp:Cities_in_Germany
3.405.259dp:population
skos:subject
Richard Cyganiak
dbpedia:Berlin
foaf:name
foaf:based_near
foaf:Personrdf:type
pd:cygri
O protocolo HTTP traz identificação e obtenção de dados.
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201117
Propriedades da Web de Dados Ligados
< Espaço distribuído global construído sobre um conjunto simples de padrõesl RDF, URIs, HTTP
< Entidades são conectadas por linksl criando um grafo global de dados que se estende por diversas
fontes de dados el habilita a descoberta de novas fontes
< Oferece mecanismos para co-existência de dados ondel qualquer um publica dados na Web de Dados Ligadosl qualquer um expressa suas opiniões sobre quaisquer dadosl qualquer um usa os vocabulários/esquemas que preferirem
Uma olhada na atual web de dados ligados
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201119
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201128
Tarefas para realizar essa visão
Tarefas:1. Publicar dados em RDF via HTTP2. Criar links RDF apontando para outras fontes3. Fazer com que os dados se auto-descrevam4. Consumir Dados Ligados
<. 'Merchan': How to publish Linked Data? l Livro do Tom Heath e Christian Bizer
http://linkeddatabook.com/ (Versão HTML é grátis!)
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201129
Um exemplo de arquitetura baseada em Dados Ligados
Acesso a Dados
MapearVocabularios
Resolução deIdentidade
Avaliação deQualidade
Dados da WebIntegrados
Aplicações
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201130
Armazenagem de dados em RDFhttp://www4.wiwiss.fu-berlin.de/bizer/BerlinSPARQLBenchmark
< Berlin SPARQL Benchmark BSBM V3 (February 2011)l Caso de uso de e-Commerce: Produtos oferecidos por diversas
empresas e com avaliações criadas por consumidores.
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201131
Publicar: Oferecer Dados em RDF via HTTP
Ferramentas plug-and-play (exemplos)
1. D2R Serverl Mapeia bancos relacionais para RDF,
e os expõem como dados ligadosl Software Livre: GNU GPL license
2. Pubby● Camada para expor servidores de SPARQL como dados ligadosl Software Livre: Apache License V2
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201132
D2R Mapeando BDs para RDF
< Linguagem declarativa para expressar mapeamentos entre um dado banco relacional e um dado esquema em RDF
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201133
Ajudinha à Homogeneidade: Reuse Termos
< Vocabulários bem conhecidos:l Friend-of-a-Friend para descrição de pessoas e suas redes sociaisl SIOC para descrição de forums e blogsl SKOS para representação de taxonomias de tópicosl Organization Ontology para descrever estrutura de organizaçõesl GoodRelations para descrição de produtos e entidades de negóciol Music Ontology para artistas, álbuns, e showsl Review Vocabulary termos para representação de opiniões
< Fontes conhecidas de identificadores (URIs) para objetosl LinkedGeoData e Geonames para lugaresl GeneID e UniProt para identificadores na área de ciências da saúdel DBpedia para temas variados
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201134
Puxar dados de fontes distintas: LDspider
< Flexível crawler para dados ligados< Crawls RDF/XML and RDFa< Software Livre: GPL License
Crawl deDados Ligados
um pequeno pacote jar com um mínimo de dependências
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201136
Permita que clientes obtenham o esquemaClientes podem fazer requisições a URIs que identificam termos do vocabulário de forma a obter suas definições em RDFS ou OWL
Resolver termo desconhecido http://xmlns.com/foaf/0.1/Person
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201137
R2R Framework
< Ferramenta para “tradução” de dados em RDF entre dois vocabulários
< Habilita a publicação e descoberta de mapeamentos na Web
< Software Livre: Apache License V2.0
Mapeamento de Esquemas
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201138
Linguagem de Mapeamento do R2R
< Permite transformações complexas, usa SPARQL < Exemplo: tempo de duração – Freebase para DBpedia< fb:film.film.runtime (em min.) -> dbpedia-owl:runtime (em seg.)
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201139
Compartilhe MapeamentosDados na Web
Definição de um termo com link para o mapeamento
“Não dê o peixe, ensine a pescar.”
Mapeamento R2R
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201140
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201141
Resolução de Identidade
(Homogenizando Identificadores)
Silk, em três versões
< Silk Single Machinel Usa multithreading,
dados locais ou remotos< Silk MapReduce
l Usa várias máquinas em clusterl Usa Hadoop
(ex: roda na Amazon Elastic Cloud)< Silk Server
l API HTTP l Compara um fluxo de dados (stream) RDF com uma base locall Compara também instâncias já vistas no fluxol Com o LDspider, pode crirar uma cópia local, sem duplicatas, da Web de
dados
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201142
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201143
Silk Avaliação de Desempenho
< Ligar 10.500 lugares (DBpedia) a 59.000 cidades do LinkedGeoData
< Workflow: l Blocking (agrupar instâncias: cidades por nome)l Matching (comparação de todos contra todos usando uma “link condition”)l Filtering (remover ligações com valores baixos de confiança)
Versão do Silk Tempo (sem blocking) Tempo(com blocking)
Silk Single Machine1 54 hours 155.5 minSilk MapReduce2 6.7 hours 14.4 min
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201144
WIQA Framework
< Permite filtragem de dados da Web usando várias políticas de avaliação de qualidade.
< Será estendido com funções de fusão de dados Data
FusionAvaliação de
qualidade
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201145
“E a boa e velha Web de documentos?”
< Anotação em texto de entidades da DBpedia
< Interligar documentos e dados ligados – automaticamente!
< Software Livre: Apache V2
Outras Ferramentas
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201146
DBpedia Spotlight: Extração de Entidades
< Desafio: l Ambiguidade
Brazildbpedia:Brazil,_Indianadbpedia:Brazil_national_football_teamdbpedia:Brazil_(1944_film)dbpedia:Angela_Brazil(mais de 40 outros sentidos)
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201147
DBpedia Spotlight: Extração de Entidades
http://dbpedia.org/resource/Brazil
< Usa parágrafos da Wikipedia como exemplos para aprendizado de máquina< Atualmente somente em inglês :-(< Breve: português e espanhol :-)
< Interliga documentos em texto / html com a DBpedia
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Information Overload!
Application Area: Social Media
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201149
Twarql – Fluxo de Tweets filtrado por SPARQL
< Anotar um fluxo de tweetsl Extração de informações: entidades, usuários, URLs, sentimentosl Geração de anotações (descrições do tweet) em RDFl Filtros expressos como consultas SPARQLl Permite uso de uma base de conhecimentosl Entrega informações em tempo real
Aplicações
< Quais concorrentes estão sendo mencionados com meu produto?
– comparando produtos com base em opiniões de redes sociais
Modelagem: concorrentes são dois produtos na mesma categoria na DBpedia
?competitor?category
moat:taggedWith skos:subject
skos:subjectskos:subject
@anonymizedLorem ipsum bla bla this is an example tweet
Consulta para selecionar tweets de interesse:
dbpedia:IPad
Twarql: Cenário de Brand Tracking (setup)
?sentiment
twarql:sentiment
Base de Conhecimento(ex: DBpedia)
?competitor ?category
moat:taggedWith
skos:subjectskos:subject
skos:subject
@anonymizedLorem ipsum bla bla this is an example tweet
Twarql: Cenário de Brand Tracking (KB)
?sentiment
twarql:sentiment
Base de Conhecimento(ex: DBpedia)
Consulta para selecionar tweets de interesse:
dbpedia:IPad
category:Wi-Fi
category:Touchscreen
O conhecimento advindo da base é trazido dinamicamente para o tweet através de anotações.
?competitor ?category
moat:taggedWith
skos:subjectskos:subject
skos:subject
@anonymizedLorem ipsum bla bla this is an example tweet
Entrada de um fluxo de tweets:
dbpedia:IPad
Twarql: Cenário de Brand Tracking (exec.)
?sentiment
twarql:sentiment
category:Wi-Fi
category:Touchscreen
@anonymizedLorem ipsum bla bla this is an example tweet@anonymizedLorem ipsum bla bla this is an example tweet
Base de Conhecimento(ex: DBpedia)
Ação é executada seo tweet passar pelo filtro:
• Observações– Quando um novo concorrente “aparece” na base,
nenhuma mudança é requerida na consulta=> Evolução Automática
– Encontramos produtos interessantes que não consideramos inicialmente como concorrentes do IPad (ex: IPhone)=> Serendipity: surpresa boa :)
Twarql: Cenário de Brand Tracking (obs.)
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201155
http://ligadonospoliticos.com.br < Projeto da UFJF● Lucas Araújo
< Baseado em Linked Data
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201156
http://pt.dbpedia.org < Pré-lançamento HOJE!● Freie Universität Berlin
< Novos Parceirosl UFJF (Juiz de Fora)
Jairo F. de Souzal UFRJ (Rio de Janeiro)
Maria Luiza M. Campos
<
< Lançamento oficial● Julho/Agosto 2011
< Junte-se a nós!
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201157
Como juntar todas essas informações?
< Crawlersl Baixar informações de múltiplas fontes para uma cache local.l Exemplo: veja a Linked Open Data cloud “cache”
(http://lod.openlinksw.com/sparql)< Motores de Busca
l Provem acesso integrado a informações distribuídas na Webl Sindice, Falcons, Watson
< Interfaces de Exploração de Dadosl Tabulator, Disco, VisiNav, Cuebee, Explorator (by PUC-RJ)l Sigma (http://sig.ma) by DERI
< Aplicações de terceirosl Exemplo: Mashupsl 'A forma mais criativa de utilizar teus dados será descoberta por outra
pessoa' (via Rufus Pollock no CONSEGI2011)
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201158
WEB
O que muda nesse jogo?
< No passado
PortalBD
BD
BD
WEB DE DADOS
Dados Integrados
Portal
OutroMashup
Outro Consumidor
ConsumidorBD
BD
BD
Dados Integrados
Consumidor
Outro Consumidor< No futuro (agora?)
Concluindo…
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201160
Lições Aprendidas (Open Source, Open Data)
< Reuse, reuse, reuse e… além disso… reuse! (DRY)l Protocolos da Web, linguagens, vocabulários, identificadores,
sempre que possível!< Linguagens Declarativas
l Facilite o reuso do seu esforço (e.g. compartilhando mapeamentos)< Release iterativo: libere seu software cedo
l A opinião do público alvo vai guiar o desenvolvimento em direção às características mais úteis
< Primeiro os alvos mais fáceis (low hanging fruit) (KISS)l Adquirir uma massa de dados primeiro, interconectar
incrementalmente, encontrar dados de alta qualidade< Cativar e apoiar a comunidade
l Ofereça demonstrações, documentação, apoie listas de discussão, mantenha o projeto vivo.
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201161
Resumo
< Dados Ligados possibilitarão uma nova classe de aplicações< Integração de dados na Web (interlinking): novos desafios e
novas oportunidades< Uma série de aplicações atacando alguns desses desafios
l Publicação: D2R, Pubbyl Aquisição: LDspiderl Mapeamento de Esquemas: R2Rl Interligações: Silk (Resolução de Identidade), DBpedia Spotlight (Extração
de Entidades em Texto)l Avaliação de Qualidade: WIQAl Aplicações: Browsers, Twarql, Sigma
< Em breve: LDIF – Linked Data Integration Frameworkl Aquisição, Mapeamento, Interligações, Qualidade: em um pacote!l Empacotamento Debian!
Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/201162
Conclusões< A Web de Dados Ligados está crescendo rapidamente
l Comunidades de implantação estão ativas em vários domíniosl Excedeu a massa crítica
< Busca na Web está evoluindo para pergunta+resposta (QA)l Motores de busca cada vez mais se beneficiam de dados estruturados na Web
< Como participar na construção de uma Web melhor?l Sem conhecimentos técnicos: compartilhe conhecimento abertamente!l Um pouco técnico: ajude a mapear conhecimento (http://mappings.dbpedia.org)l Técnico: junte-se a um dos nossos projetos de software livre, ou inicie o seu!
< Compartilhe dados, mas também ligações entre dados na Web!< Também compartilhe COMO ligar via mapeamentos, link specs, etc.< Cada link conta!