Top Banner

Click here to load reader

Python 3 + apache hadoop

Feb 17, 2017

ReportDownload

Software

  • Python 3 + Apache HadoopEduardo Mendes (z4r4tu5tr4)

  • [email protected]: whoami

    Eduardo Mendes Fatec Americana github.com/z4r4tu5tr4 [email protected]

  • Estrutura

    Problemas Metereologia Lingustica de Corpus

    Solues Celery + NFS Python + Mongo Disco Hadoop

  • ProblemasMetereologia e Lingustica de Corpus

  • Metereologia Cruzamento de duas bases de dados Atualizadas de 15 em 15 minutos Durante 100 anos Tabelas xls Mudana de padro com o passar dos anos

  • Lingustica de Corpus [0]Lingustica de corpus ocupa-se ela da coleta e da explorao de corpora, ou

    conjutos de dados lingusticos textuais coletados criteriosamente, com o

    propsito de servirem para a pesquisa de uma lngua ou variedade lingustica.

    Como tal, dedica-se explorao da linguagem por meio de evidncias

    empricas, extradas de computadores

    (Sardinha, 2014)

  • Lingustica de Corpus [1] O que esperar?

    No PLN No minerao de dados No aprendizado de mquina

  • Lingustica de Corpus [2]Operaes bsicas esperadas LC (Mike Scott):

    Contagem de palavras (WordList)

    Concordncia (Concord)

    Comparao (KeyWords)

    Etiquetagem (Tagging)

  • SoluesParciais

  • Celery + NFS Complexibilidade de cdigo Problemas com logs NFS no particiona arquivos

    Problemas de leitura e armazenamento

  • Python + Mongo Uma soluo excelente com metereologia e

    pssima com Lingustica.

  • SoluesO que deu certo

  • Sistema de arquivos distribudo

    Google File System Particiona arquivos em partes de 64mb Trs cpias de cada replicao Arquitetura Master - slave

  • Sistema de arquivos distribudo

  • MapReduce

  • Disco Framework para processamento distribudo Feito em Python Projeto Jovem No tem a melhor documentao do

    mundo

  • Apache Hadoop [0] Framework livre Escrito em Java Adaptao do Google File System (GFS) Adaptao do algortimo de MapReduce Pode ser programado em qualquer

    linguagem - Streaming

  • Apache Hadoop [1] Tolerncia a falhas Interface amigvel Boa documentao YARN

  • Apache Hadoop [2]

  • MapReduceLib [1]

  • Hadoop Streaming [0] Boa interface para se trabalhar com

    qualquer linguagem quando usamos shell script

    Cdigo simples

  • Python + Hadoop [0] Pydoop (CRS4) Hadoopy MrJob (Yelp) Dumbo (LastFm)

    Nenhuma funciona com Python 3+

  • Python + Hadoop [1]

  • MapReduceLib [0] Uma maneira de no mexer mais com Shell e

    Java Uma abstrao simples com um nico import Funcionar bem com o modo interativo Acessar o sistema de arquivos distribudo Executar funes administrativas Fosse compatvel com Spark

  • [email protected]

    github.com/z4r4tu5tr4