CLARIN-PL Centrum Technologii Językowych CLARINPL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej [email protected]20150518
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
CLARIN-PL
Centrum Technologii Językowych CLARIN-‐PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego
Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska
Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19
§ CLARIN = § Common Language Resources and Technology Infrastructure § Wspólne zasoby językowe i infrastruktura technologiczna
§ Część § europejskiej mapy drogowej infrastruktury naukowej
(European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures)
§ Polskiej Mapy Drogowej Infrastruktury Badawczej § Cel
§ połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej
§ Obszar działania: nauki humanistyczne i społeczne
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
CLARIN
§ CLARIN ERIC § konsorcjum naukowe typu ERIC (European Research Infrastructure
Consortium) § Członkowie założyciele
§ Austria, Bułgaria, Czechy, Dania, Estonia, Holandia, Niemcy, Polska, Dutch Language Union (organizacja międzypaństwowa)
§ Pozostali członkowie § Grecja, Litwa, Portugalia, Słowenia, Szwecja
§ Obserwatorzy § Norwegia
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Podstawowe pojęcia
§ Zasoby językowe § zbiory danych i bazy danych opisujące język naturalny oraz jego
użycie § sformalizowany opis wybranych aspektów języka naturalnego
§ Narzędzia językowe § programy komputerowe do przetwarzania tekstu i mowy na różnych
poziomach analizy języka naturalnego § automatyczna analiza struktur językowych, np. analiza składniowa § zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw
§ wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Bariery w dostępie
§ Fizyczna § narzędzia i zasoby nie są dostępne w sieci
§ Informacyjna § brak opisu narzędzi i zasobów § brak katalogów i możliwości łatwego odnalezienia
§ Technologiczna § brak standardów, możliwości łączenia elementów technologii § brak wspólnej platformy – różnorodność rozwiązań
technologicznych § brak sprzętu o określonych parametrach
§ Wiedzy § wymagane umiejętności programistyczne § wymagana wiedza z zakresu inżynierii języka naturalnego
§ Prawna § licencje ograniczające dostęp i wykorzystanie § szczególnie w odniesieniu do korpusów
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Infrastruktura językowa Warsztaty CLARIN-PL
Wrocław 18-20 V 2015
CLARIN-PL
Usługi CLARIN
§ Wspólna europejska sieć technologii językowej § tj. narzędzi i zasobów językowych oraz aplikacji
§ Centrum Technologii Językowych CLARIN-PL § repozytorium do przechowywania i udostępniania zasobów
językowych § usługi do analizy tekstów i mowy na różnych poziomach § aplikacje badawcze, np. do półautomatycznej anotacji
semantycznej tekstu lub semantycznego porównywania korpusów
§ Aplikacje skojarzone z CLARIN-PL, np. rozszerzenia do przeszukiwania NKJP
§ Centrum Wiedzy – zapewniające wsparcie dla użytkowników CLARIN
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Wspólna europejska sieć technologii językowych
§ Jeden, własny login z macierzystej jednostki naukowej przy dostępie do całej sieci
§ Jeden system trwałych identyfikatorów dla zasobów § Połączona sieć centrów
§ centralne przeszukiwanie treści: Federated Content Search § bezpieczeństwo danych (certyfikaty i kopie danych)
§ Wspólny standard metadanych § centralne wyszukiwanie po wszystkich zasobach § Virtual Language Observatory § wspólny słownik atrybutów, wartości i relacji w meta-danych § wirtualne kolekcje
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
CLARIN ERIC: usługi centralne Warsztaty CLARIN-PL
Wrocław 18-20 V 2015
CLARIN-PL
Wyszukiwanie zasobów po meta-danych w formacie CMDI
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Wyszukiwanie zasobów po meta-danych w formacie CMDI
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
§ Fasetowe wyszukiwanie § Atrybuty i ich zakresy wartości są
odczytywane z meta-danych § Wspólny standard: CMDI
(Componet Metadata Infrastructure)
Centralne przeszukiwanie treści Warsztaty CLARIN-PL
Wrocław 18-20 V 2015
CLARIN-PL
Centrum Technologii Językowych CLARIN-PL
www.clarin-pl.eu
§ Zlokalizowane na Politechnice Wrocławskiej, w ramach Grupy Naukowej G4.19
§ Zapewnia funkcje sieciowe infrastruktury CLARIN § Udostępnia
§ repozytorium § usługi do analizy tekstu (i mowy) w języku polskim § zestaw wybranych aplikacji zbudowanych we współpracy
z użytkownikami § wsparcie dla użytkowników – naukowców, jako Centrum
Wiedzy
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Funkcje CTJ CLARIN-PL
§ Rozproszona identyfikacja i autoryzacja użytkowników § oparta na federacjach narodowych § zasada jednego konta i jednego logowania
§ Odpowiedni system składowania (repozytoryjny) § trwałość danych (system archiwizacji) § jednoznaczny opis danych za pomocą trwałych identyfikatorów
(Persistent Identifiers) § metadane o złożonej strukturze (CMDI) § zarządzanie metadanymi zgodnie z przyjętymi standardami, np.
§ Integracja zasobów i usług § w oparciu o usługi sieciowe (Web Services) § dostęp poprzez aplikacje sieciowe § brak konieczności ściągania i instalowania
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Repozytorium DSpace
§ Repozytorium cyfrowe Clarin-PL oparte jest o otwarty system DSpace. Zapisuje, przechowuje, opisuje, indeksuje i udostępnia materiały cyfrowe
§ Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia
Clarin-PL z Clarin ERIC
§ Wsparcie dla systemu CNRI Handle System [handle.net] § pozwala na swobodną zmianę adresów/serwerów
§ Zasoby są widoczne Virtual Language Observatory, który łączy repozytoria z różnych centrów w Europie https://catalog.clarin.eu/vlo/search?1&fq=collection:CLARIN-PL
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Repozytorium DSpace
§ Clarin-PL DSpace posiada liczne rozszerzenia pozwalające na udostępnianie zasobów instytucjom będącym w federacjach tożsamości (AAI) takich jak eduGain
§ AAI to proste logowanie za pomocą jednego loginu i hasła (autoryzuje jednostka macierzysta, nie potrzebne jest przechowywanie haseł)
§ Polska federacja to https://aai.pionier.net.pl/
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Polska federacja uwierzytelniania Warsztaty CLARIN-PL
Wrocław 18-20 V 2015
CLARIN-PL
Polska federacja uwierzytelniania
§ Federacja PIONIER.Id adresowana jest do środowiska naukowo-akademickiego
§ Połączenie z siecią PIONIER albo bezpośrednie, albo za pośrednictwem jednej z sieci członków Konsorcjum PIONIER
§ Warunki techniczne Federacji: § https://aai.pionier.net.pl/dokumenty/PIONIER_Id_Tech.pdf
§ Istnieje możliwość przystąpienia do infrastruktury testowej, aby w praktyce sprawdzić działanie mechanizmów federacji
§ Podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora Federacji
§ Po zweryfikowaniu wszystkich warunków formalnych i technicznych, Operator podejmie decyzję o akceptacji Deklaracji
Warsztaty CLARIN-PL Wrocław
18-20 V 2015
CLARIN-PL
Usługi sieciowe
§ Narzędzia językowe § aplikacje zbudowane w różnorodnych technologiach § złożony proces instalacji § różnorodne interfejsy § trudność w tworzeniu potoków przetwarzania
§ „Wszystko jest usługą sieciową” § Komponent oprogramowanie o ustandaryzowanym interfejsie,