Desafios do Big Data
Renato Ochando
1º Hackathon Inmetrics em parceria com a FIAP
Big DataO que é?
Teve inicio no fim dos anos 90, com as empresas de internet tentando gerenciar volumes de informação sem precedentes.Big Data é um termo que descreve sistemas com alto:• Volume de informação• Velocidade na ingestão de informação• Variedade de dados
Demanda formas inovadoras de processar informação, a um custo efetivo, que possibilitem visão profunda, tomada de decisão e automação de processos.
“Big data não trata de petabytes, mas de computação complexa.”
Big DataO que é?
Se você é um desenvolvedor, até agora tudo bem com os “três V” do Big Data – código de aplicação cuida de volume, velocidade e variedade.
... Mas se você é um cientista de dados, nada disso cuida do significado da informação. Então, são necessários mais “dois V”, talvez:• Veracidade da informação• Valor que a informação agrega ao negócio
Em 2015, 85% das organizações na lista das 500 da Fortune não serão capazes de explorar Big
Data para vantagem competitiva.
VolumeO Volume está sempre crescendo
Possuir mais informação significa possuir melhores modelos.
Grandes volumes de informação são, de imediato, o maior desafio para as estruturas convencionais de TI, o que demanda por armazenamento altamente escalável e consultas distribuídas.
As tecnologias mais utilizadas para armazenamento e processamento de informações são Hadoop e MapReduce.
Constantemente o volume de informação criada excede o limite da capacidade do seu storage
(abordagem seletiva).
VelocidadeProcessamento em tempo real
A primeira geração de soluções para big data eram focadas principalmente na captura e análise de informações batch.Fast data se concentra em reduzir o intervalo de tempo entre dados que chegam e o valor a ser extraído desses dados.
Equilibra vários tradeoffs para entregar:1. Confiabilidade na ingestão de dados;2. Flexibilidade no armazenamento e consultas;3. Ferramentas sofisticadas para analytics.
Big data foi ontem. Fast data é agora.
VariedadeEstrutura da informação
Soluções de Big Data irão armazenar informações estruturadas, semiestruturadas, e não estruturadas. Por exemplo documentos de texto, multimídia, etc.
Modelar e preparar informações de diferentes fontes de sistemas para obter “visões” tem sido, por décadas, um trabalho demorado e tedioso.
A maioria das organizações passam de 70% à 80% do tempo modelando, em vez de interagir com com a informação para produzir visões de negócio.
“Variedade, e não volume, será o maior desafio de Big Data em 2015.”
VeracidadeIn Data We Trust
Refere-se à vieses, ruído e anormalidade nos dados.
A correção da informação e eliminação de ruídos deve ser feita, de preferência, na fonte de coleta.
Assim que os usuários começam a explorar as informações, eles se tornam verdadeiramente engajados e mais dispostos a investir em esforços para “limpar” os dados.
Veracidade não é apenas sobre a qualidade dos dados, mas também sobre a compreensão dos
dados.
ValorDesafio de agregar valor
Lacuna entre habilidade e tecnologia para usar a informação.
Enquanto 75% dos líderes de negócio acreditam que estão extraindo máximo de seus dados. Na realidade, apenas 4%, de fato, tem colhido frutos relevantes dessas iniciativas.
De forma geral, 43% das empresas indicaram que “obtém pequenos benefícios tangíveis das informações”, enquanto 23% afirmam que não colhem benefício algum.
A estratégia em torno da utilização dos dados é o principal recurso para uma organização obter vantagem competitiva nos mercados onde atua.
Desafios arquiteturaisArquitetura Lambda
Arquitetura para processamento de dados genérica, escalável e tolerante à falhas.
Toda informação que entra no sistema é despachada para ambas camadas batch e online.
Camada batch: armazena toda a informação (imutável) e pré computa visões para a camada de servidão.
Camada online: compensa a alta latência de atualizações, tratando apenas de informações recentes.
Desafios de implementaçãoOs desafios continuam...
Inúmeras iniciativas para o desenvolvimento de novas soluções.
Projetos open source ainda conduzem o desenvolvimento de big data.
Empresas que vendem soluções de big data ainda proveem suporte e funcionalidades proprietárias.
Open source ou solução proprietária?
SegurançaSegurança de informação
Falhas de segurança são extremamente prejudiciais para o negócio.
Segurança em big data não é fundamentalmente diferente de segurança para sistemas tradicionais.Os desafios surgem devido à:1. Complexidade do ambiente;2. Diferentes fontes de informação (coletada,
agregada e analisada);3. Tecnologias aplicadas para sustentar a solução.
Nenhuma corrente é mais forte que seu elo mais fraco.
Obrigado!