DEVELOPING DATA-DRIVEN CULTURE
Toolbox de dados com (e para) PentahoComo conseguimos construir um conjunto de ferramentas que
nos ajudam a entregar projetos
● 12 anos de mercado; fundação 2007;● 11 anos de projetos desenvolvidos com Pentaho;● 9 anos - Pentaho Gold Partner e Authorized Training Partner;● Partner of the year LATAM por 2 anos consecutivos;● Certificação MPS.BR 2012 - Serviços e Suporte;● Foco em produtos desde 2016;● Parceiros Cloudera e MongoDB;
A Oncase
A Oncase - o time
● Data scientists - Modelagem e negócio;● Data engineers - Especialistas em mover, integrar e persistir dados;● Fullstack devs - Fazem tudo funcionar;● Architects - Pensam em várias dimensões produto, tecnologia, expectativas;● UX/UI Designers - Fazem o usuário feliz;● Product people - certificam-se de que estamos mesmo fazendo coisas
escaláveis;
Escritório: Recife/São Paulo
Na prática: Remoto!
> Brasília, Recife, São Paulo, Eslovênia, Austrália, ...
● CTO / Arquiteto de Analytics;● 11 anos de projetos com Pentaho;● Certificações Pentaho, MongoDB;● 6 anos de trabalho remoto;● Paixão por opensource e por abrir códigos que utilizamos:● Apaixonado também por produtos...
Marcello Pontes
● CTO / Arquiteto de Analytics;● 11 anos de projetos com Pentaho;● Certificações Pentaho, MongoDB;● 6 anos de trabalho remoto;● Paixão por opensource e por abrir códigos que utilizamos:● Apaixonado também por produtos...
Marcello Pontes
E POR NEVE!
Toolboxkit de dados com (e para) PentahoComo conseguimos construir um conjunto de ferramentas que
nos ajudam a entregar projetos
TOOLKIT ONCASE
PRINCÍPIO:A gente sempre vai produtizar módulos, tarefas e códigos repetitivos do
nosso dia-a-dia; em grande parte, vamos também devolver à comunidade por meio de código aberto;
toolkit.onca.se
TOOLKIT - Motivação
● Óbvio: Automação e produtividade;● Comunidade interna - investir em comunidade devolve produtividade e
robustez aos artefatos criados;● Qualidade - documentação, colaboração e publicação aumentam
transparência;● Validação de idéias - produto adotado e com interesse é demonstração de
valor;
TOOLKIT - Alguns...
● Tapa - Customização visual para Pentaho;● Oktopus - Portal de Analytics com Governança;● Tarantulla - Suíte de web crawling e scrapping com módulos para redes
sociais, além de alertas inteligentes e content tagging;● Scora - Workbench para gerenciamento e monitoramento de modelos
preditivos;● Wilson - Bot que responde a perguntas (no slack, por exemplo) com dados
(por enquanto OLAP);● Exportador (sem batismo, por enquanto)- ferramenta com foco em
exportação de dados;● Parlezy - Segmentação e analytics sobre arquivos de áudio;● … tooklkit.onca.se
OktopusDisponibilizando somente o essencial para o usuário
Motivação:
● Interface dos fornecedores é de prateleira;○ Não é talhada para ser específica;○ Tem itens às vezes desnecessários;○ Quase nunca integra artefatos de outros fornecedores;
Histórico:
● Crescente pedido por visões isoladas e portais distraction-free;○ Oktopus surgiu de vários projetos repetidos;○ Foi transformado e evoluído em MVP;○ Foi adotado em produção com sucesso;○ Isolamos o código e publicamos o oktopus-pentaho;○ Desenvolvemos nova base de código para SaaS;
Projetos de Business Intelligence
Motivação:
● BI para silos de dados;● Oktopus para silos de informações;
> BI Corporativo com faturamento - Tableau;
> R Shiny - D.scientist publicaram uma justificativa técnica sobre ruptura em estoque;
Projetos de Business Intelligence
O que é o Oktopus? E o que ele não é?
● É: ○ Um organizador de link por papéis;○ Gerenciador/Concentrador de Identidades de portais;
● Não é:○ Uma ferramenta de integração de dados;○ Ferramenta de gestão de conteúdo;
O que é o Oktopus? E o que ele não é?
● Faz:○ Proporciona concentração de informações;○ Permite o usuário focar nas informações mais relevantes;○ Permite o compartilhamento de informações de forma segura;○ Permite acompanhamento (comentários-tickets-resolvable) nos painéis;
● Não faz:○ Não permite criar páginas de conteúdo;○ Não hospeda dashboards;
Oktopus Pentaho
● Codebase legado que chegamos a utilizar em alguns projetos;● Funciona como Pentaho Plugin utilizando segurança e roles do Pentaho
Server;● https://github.com/oncase/oktopus-pentaho;
Oktopus SaaS
● oktopusapp.com● Mais focado em ser multi-ferramenta;● Log de atividades;● Workspace multi usuários e multi grupos;● Gerenciamento de identidades (em desenvolvimento);● Diversas features inteligentes (em desenvolvimento);
Disponibilidade do Oktopus
TarantullaIntegrando dados para uma visão 360
Motivação:
● Muito conhecimento de Pentaho Data Integration em casa;● Muitos projetos com necessidade de crawling/scrapping - não só de redes
sociais, mas Portais de notícias, ecommerces, fórums hierárquicos;● PDI É excelente para crawling indexado e scrapping (com Xpath e CSS
selectors);● Criação de rotinas e frameworks que facilitam muito a construção de visões
360 sobre empresas;● Monitoramento de concorrência através de captura de engajamento;
Web crawling / scrapping
Oktopus + Tarantulla em ação
Módulo WEB
● HTML caching - importante para reprocessamentos e re-scrapping;● Scrapping através de CSS Selectors (com lib Jodd em steps javascript) e
XPath;● Captura de engajamento embutida no engenho - engajamento de links no
facebook;● Arquitetura plugável
○ Cada portal imlpementa as interfaces (jbos ou trans) getLinks e parseContent - com contratos bem definidos;
○ O Processo roda em modo batch independente de quantas implementações existem;
○ Relatórios auditoria de qualidade e de assertividade para monitoramento.
Tarantulla
Módulos para redes Sociais
● Twitter, Youtube, Facebook;● Implementações opensource capturam publicações de perfis previamente
cadastrados;● Módulos de content tagging - descoberta de temas em texto - e alertas -
baseados em algoritmos inteligentes; (módulos ainda não são opensource);
Tarantulla
tarantulla.ioMais...
ScoraWorkbench para gerenciamento e monitoramento de analytics
Gerenciamento de Modelos analíticos
Então temos um projeto onde o ator principal é o modelo preditivo ou os modelos preditivos
● Como faço deploy dos meus modelos preditivos em uma ferramenta governável?
● Como acompanho o desempenho dos meus modelos?● Como dou feedbackcs sobre falsos positivos ou falsos negativos?
○ Como retroalimentar uma base de treinamento sem necessidade de Rocket Science?● Tenho também regras de negócio que deveriam influenciar meu score;
○ Como deixar que o usuário crie regras de negócio para enviar casos ao bureau de investigação?
● Como separo outliers automaticamente?
SCORA
● Workflow genérico e robusto para deploy de modelos analíticos○ WEKA, Python, R e outros;
● Workbench de ciclo de vida de investigação com visão 360 sobre cada caso;○ Redes sociais, visões GEO, timeline, Relacionamentos;
● Analytics (cubos e visões) para monitorar performance dos modelos;● Com dev workbench (Jupyter integrado, mas com possibilidade de
integração de outros);● Big Data Ready - Pode ser utilizado em edge nodes junto com toda a
conectividade de edge apps;● Resolve o problema de operacionalizar (Produção) fluxos de analytics;
Scora - Assistente de reexecuções em Batch
Scora - Manutenção de regras customizadas
Scora - Analytics, monitoramento e influências sobre os modelos
SCORA
Cases:
● Investigação de fraudes em sinistros - mercado de seguradoras;○ Influencia em modelos;○ Workflow de investigação;○ Visão 360;
● Manutenção preditiva de ativos e equipamentos - utilities;○ Priorização de trocas;○ Previsão de ROI sobre substituição;○ Acompanhamento de resultados;
● Fraudes fiscais;○ Scrapping de documentos;○ Descoberta de relacionamentos ocultos;○ Timeline de eventos relevantes para a investigação;
Scora - Analytics, monitoramento e influências sobre os modelos
marketing.oncase.com.br/scora
Obrigado!
● [email protected]● Entrem em toolkit.onca.se● Conheçam a empresa: oncase.com.br● Sigam nosso github: github.com/oncase● twitter.com/oncase● twitter.com/marpontes