1 Enterprise Search & Retrieval Platform Rosario Turco Uno dei temi emergenti nell’IT è quello che oggi è catalogato sotto il nome “Enterprise Search & Retrieval”, intendendo con questo termine la possibilità di offrire una piattaforma sicura, in grado di ricercare informazioni enterprise nel senso più generale possibile, di presentarle nel modo più opportuno, e su cui poterci fare un uso più generale possibile. Sicuramente una tale piattaforma ha caratteristiche diverse da una ricerca del tipo Google. Il tema è di notevole interesse per le grandi aziende, oltre per l’integrazione delle amministrazioni pubbliche e il cittadino (riduzione barriera e burocrazia), le regioni, i comuni, gli uffici anagrafe, il governo, le organizzazioni militari o civili di soccorso etc. La definizione di sopra di una piattaforma Enterprise Search & Retrieval, che nel seguito indicheremo brevemente ESR, è abbastanza larga e vale la pena di soppesare bene ogni termine di essa, anzicchè buttarsi a capofitto nella giungla emergente. Piattaforme ESR possono far coppia spesso con piattaforme di collaborazione anche di PMI (Piccole e Media Imprese), per mettere in cooperazione e integrazione rapida, varie aziende e contribuire a migliorare l’efficienza del processo di Logistica, Produzione, Approvvigionamenti, Ordini etc. in termini di Business Process. Features Vediamo quali sono i requisiti o le features di una piattaforma ESR. Per ricercas’intende, quindi, una qualsiasi tipologia di ricerca fra tutte quelle possibili: Web Search, limitata a documenti pubblici in ambito INTERNET Desktop Search, limitata a documenti sul PC o la workstation in gioco Enterprise Search, limitata a documenti aziendali, nell’ambito dell’INTRANET.La frase “ricercare informazioni enterprisenel senso più generale possibile” indica che sono cercati non solo i documenti di qualsiasi estensione e tipo, ma che si possono cercare le risorse sorgenti in generale: documenti locali o remoti, immagini, video, audio, filesystem locali o remoti, repository locali o remoti, etc. Le risorse sorgenti possono essere di ogni tipo: dati strutturati o non strutturati, testo o binario, formato compound (zip). Un “uso generale” indica non solo la possibilità di una qualsiasi elaborazione/presentazione: datamining, report, etc, ma anche la possibilità manuale o automatica di elaborazione o di business processing. Il termine piattaforma sicura, comporta la sua integrazione con l’infrastruttura aziendale, tenendo conto della classe di rischio in gioco, prendendo ogni precauzione di sicurezza (protocolli, sicuri, firewall per isolare in un verso i dipartimenti dell’INTRANET da ciò che è offerto su INTERNET etc) e disponendo, anche di un sistema software Identity Manager, che permetta la profilazione degli utenti, per fornire loro in base al profilo vari tipi di elaborazioni, report, funzionalità, etc.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Uno dei temi emergenti nell’IT è quello che oggi è catalogato sotto il nome “Enterprise Search & Retrieval ”,intendendo con questo termine la possibilità di offrire una piattaforma sicura, in grado di ricercare
informazioni enterprise nel senso più generale possibile, di presentarle nel modo più opportuno, e su cui
poterci fare un uso più generale possibile.
Sicuramente una tale piattaforma ha caratteristiche diverse da una ricerca del tipo Google. Il tema è di
notevole interesse per le grandi aziende, oltre per l’integrazione delle amministrazioni pubbliche e il
cittadino (riduzione barriera e burocrazia), le regioni, i comuni, gli uffici anagrafe, il governo, le
organizzazioni militari o civili di soccorso etc.
La definizione di sopra di una piattaforma Enterprise Search & Retrieval, che nel seguito indicheremo
brevemente ESR, è abbastanza larga e vale la pena di soppesare bene ogni termine di essa, anzicchè
buttarsi a capofitto nella giungla emergente.
Piattaforme ESR possono far coppia spesso con piattaforme di collaborazione anche di PMI (Piccole e
Media Imprese), per mettere in cooperazione e integrazione rapida, varie aziende e contribuire a migliorare
l’efficienza del processo di Logistica, Produzione, Approvvigionamenti, Ordini etc. in termini di Business
Process.
Features
Vediamo quali sono i requisiti o le features di una piattaforma ESR. Per ricerca s’intende, quindi, unaqualsiasi tipologia di ricerca fra tutte quelle possibili:
Web Search, limitata a documenti pubblici in ambito INTERNET
Desktop Search, limitata a documenti sul PC o la workstation in gioco
Enterprise Search, limitata a documenti aziendali, nell’ambito dell’INTRANET.
La frase “ricercare informazioni enterprise nel senso più generale possibile” indica che sono cercati non
solo i documenti di qualsiasi estensione e tipo, ma che si possono cercare le risorse sorgenti in generale:
documenti locali o remoti, immagini, video, audio, filesystem locali o remoti, repository locali o remoti, etc.
Le risorse sorgenti possono essere di ogni tipo: dati strutturati o non strutturati, testo o binario, formato
compound (zip).
Un “uso generale” indica non solo la possibilità di una qualsiasi elaborazione/presentazione: datamining,
report, etc, ma anche la possibilità manuale o automatica di elaborazione o di business processing.
Il termine piattaforma sicura, comporta la sua integrazione con l’infrastruttura aziendale, tenendo conto
della classe di rischio in gioco, prendendo ogni precauzione di sicurezza (protocolli, sicuri, firewall per
isolare in un verso i dipartimenti dell’INTRANET da ciò che è offerto su INTERNET etc) e disponendo, anche
di un sistema software Identity Manager, che permetta la profilazione degli utenti, per fornire loro in base
al profilo vari tipi di elaborazioni, report, funzionalità, etc.
etc. Gli stessi database RDBMS e ORDBMS, si prevede, che evolveranno ancora sotto la spinta innovativa edutile delle Ontologie e del Knowledge Management; ne esistono molti altri nuovi che stanno nascendo.
Per l’ESR è richiesto, come per qualsiasi piattaforma, che possa essere gestita e monitorata “on the fly ” e in
real time, sfruttando risorse JMX.
Una piattaforma ESR deve fornire un accesso utente per la ricerca; ma per questo è evidente che esiste
una sostanziale differenza tra il Web Search e l’Enterprise Search.
Il Web Search è concentrato innanzitutto sulla vendita di pubblicità alla massa di persone che vi accede e, di
conseguenza, le videate per la ricerca sono minimizzate e generiche (focus on advertising) e con pochi
criteri di scelta.
Un’Enterprise Search è focalizzata proprio sulla sua rapidità, la ricchezza d’informazioni fornite e le
modalità di ricerca. Inoltre l’audience delle informazioni è ristretta o di gruppo (non è orientata alla massa),
le schermate sono più specializzate e orientate alla presentazione efficace del concetto da rappresentare,
usando tecniche ontologiche, classificazioni e tassonomie. La profilazione e l’Identity Management
spingono ancora di più alla customizzazione secondo il profilo del dipendente; per cui c’è anche una diversa
fruibilità delle informazioni.
Un’Enterprise Search, però, può far leva anche sulle possibilità di raggruppamento: fields collapsing,
faceted search & clustering.
Una piattaforma ESR non è una banalità e richiede anche altri requisiti:
C’è da aggiungere che è possibile anche integrare, arricchire, memorizzare i dati, elaborarli con tecniche ETL
e datamining, per ottenere predizioni/previsioni (come deduzione da aggiungere ad esempio); per cuipossono essere coinvolti anche altri strumenti Open Source come Weka, oppure Rapid Miner, Rapid Net etc
che hanno una miriade di funzionalità (ETL, data mining, presentation etc) oltre alla possibilità di usare le
loro API da Java e integrare col resto della piattaforma.
Si può far leva sui prodotti SOLR e Lucene per: sinonimi, stopwords, stemming, spelling, faceted search.
Usando l’estendibilità di framework di SOLR è possibile sfruttare anche Apache Shiro per la sicurezza;
mentre per la parte Stateless XSLT, SolrJS e per la parte Statefull Apache Wicket con Spring.
La parte più delicata è la parte di Enrichment sia per il processo Collection che Publication. Questo perché
gli attuali ESB Open Source e SOLR da soli non forniscono tutte le features necessarie. L’Enrichment avvienecon una o più azioni (extraction, enhancing & filtering). La soluzione in questi casi è da implementare su
ServiceMix o i componenti da deployare su ServiceMix sono da acquistare.
Architettura EIP – Enrichment Framework
Il Framework di Enrichment utilizza in termini EIP un Pipe-and-Filters Pattern.
I documenti passano attraverso una serie di azioni e l’output di un’azione è input alla successiva. Sono
possibili eventuali condizioni di scelta flusso e riuso di flussi e sotto flussi. Si può utilizza Spring DML o Java
DML.
Un buon Enricher è configurabile proprio per supportare varie cose, come:
o HttpClient (retrieve content by URL described by field values)
o Xslt, Xpath, Xquery (external XML databases)
o JDBC
o SparQL (OpenRDF)
o Apache Lucene/Solr
o Apache Tika (Meta and Text extraction)
Una soluzione che offre tale configurabilità con utilizzo sotto Apache ServiceMix e Karaf è l’Enricher
Framework della Luminis, molto interessante.
Inoltre un Database Open Source possibile da usare col tutto è anche MySQL, anche in versione cluster.
Esempio Governo Olandese
In [DR2] è mostrato come esempio il governo olandese che usa una piattaforma ESR (vedi figura
successiva). Tale soluzione ESR espone al pubblico tutte le informazioni attraverso i seguenti Sorgenti:
Siti web pubblici con la collaborazione di tutte le agenzie governative (vedi 4)
Agenzie locali governative pubblicano i dati internamente relativamente ad annunci e altre
informazioni a agenzie terze parti che aggregano le informazioni e le arricchiscono con addizionali
metadati e li rendono disponibili con canale RSS-feed (vedi 2). Gli RSS-feed sono “retrieved” su base
giornaliera e contengono solo i metadati dei documenti di origine. Se fossero necessari anche i
contenuti sono forniti separatamente.
Webservices offerto per la pubblicazione real time ogni minuto delle informazioni (vedi 1).Attraverso il webservices possono essere pubblicati metadati e il riferimento al documento che può
essere cercato. Anche qui se fossero necessari anche i contenuti sono forniti separatamente.