Top Banner
Marek Šurek
11

Extrakcia ľudí pomocou Apache UIMA a Apache Hadoop

Jan 02, 2016

Download

Documents

Extrakcia ľudí pomocou Apache UIMA a Apache Hadoop. Marek Šurek. Zadanie. Za pomoci uveden ých frameworkov hľadať výsky t osôb v texte Pracovať s anglickou wikipédiou Možnosť spracovať výsledky paralelne na klastry (vytvorenie Hadoop job) - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
  • Marek urek

  • Za pomoci uvedench frameworkov hada vskyt osb v textePracova s anglickou wikipdiouMonos spracova vsledky paralelne na klastry (vytvorenie Hadoop job)Identifikcia osb m prebieha na zklade krstnch mien poprpade regulrnych vrazov

  • Drviv vina dt na internete je netrukturovanNato aby sme im boli schopn porozumie, musme vedie rozoznva ich informan hodnotu(o presne dan text popisuje)Extrahovan dta je mon nsledne klasifikova do ontolgi typu FOAF a prejs tak z web 2.0 na smantick web

  • Okrem UIMA je rozren aj framework GATE, ktor m taktie podporu na rozoznvanie osbIBM pouva UIMA v WatsonoviVone dostupn implementcie pre framework UIMA neexistujFramework dva programtorom len podporu pri vytvran anottorov

  • Programovac jazyk Java SE 6Apache UIMA - 2.4Apache Hadoop -1.04VirtualBox s Ubuntu -12.04

  • Upraven slovnk anglickch krstnch mienSlovnk stopWordsSlovnk titulov (profesn, akademick, armdne, asti oslovenia)TokenizciaRegulrne vrazy vek zaiaton psmeno, meno spojen pomlkou, inicily v mene + kombincia tchto prstupov so slovnkmiZsobnk na 6 tokenovJednoduch systm vhZskanie priezviska z titulky lnku

  • Cel funkn program (aj so slovnkmi zabalen do jednho .jar sboru)Vlastn Hadoop dtov typ WikiOutputUpraven XMLInputFormatRecordReader na zklade tagov Vlastn vstup

  • Neznalos OS Linux, Hadoop, Apache UIMANefunkn nvod na spojenie Apache Hadoop a UIMASlab komunita okolo frameworku UIMANeimplementovan priama podpora na tanie XML vo frameworku Hadoop

  • Aplikcia nem grafick rozhranie (konzola)Vstup je presmerovan do sboruVstup z programu je nasledovn :

    Identifikovan meno | poet vskytov | url na vskyty mena na wikipdii oddelen bodko-iarkou

  • Dataset 1 (10 lnkov, rune ohodnotench, 17k slov)Presnos : 92,5625%Pokrytie : 84,9684%

    Vborn vsledky ale :Mal testovacia vzorka v porovnan s celou wikipdiouNiektor lnky mali podstatne horiu presnos alebo pokrytie (pod 50%) no v konenom meradle mali nzku vhuPri testovan vieho Dataset 2(2m riadkov, 117MB) boli oividn rzne prpady nesprvneho urenia mena

  • akujem za pozornos