Maszynowe tłumaczenie Polskiego Języka Migowego Projekt WiTKoM Dorota Grądalska VoicePIN.com Sp. z o.o; Akademia Górniczo-Hutnicza, Wydział Informatyki, Elektroniki i Telekomunikacji, Katedra Elektroniki [email protected]Krzysztof Wróbel Akademia Górniczo-Hutnicza, Katedra Informatyki; Uniwersytet Jagielloński, Katedra Lingwistyki Komputerowej [email protected]
19
Embed
Migowego Polskiego Języka Maszynowe tłumaczeniehome.agh.edu.pl/~jgalka/research/publikacje/Witkom raport... · naturalny język osób Głuchych dostępny w poznaniu wzrokowym odrębny
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Maszynowe tłumaczenie Polskiego Języka
MigowegoProjekt WiTKoM
Dorota GrądalskaVoicePIN.com Sp. z o.o;
Akademia Górniczo-Hutnicza, Wydział Informatyki, Elektroniki i Telekomunikacji, Katedra Elektroniki
Projekt realizowany przez konsorcjum naukowe Akademii Górniczo-Hutniczej oraz VoicePIN.com sp. z o.o. w latach 2013-2015 w ramach Programu Badań Stosowanych Narodowego Centrum Badań i Rozwoju.
Głównym celem projektu jest zbadanie możliwości zastosowania algorytmów rozpoznawania obrazu, uczenia maszynowego i przetwarzania języka naturalnego w kontekście wypowiedzi w Polskim Języku Migowym (PJM).
Schematic workflow in WiTKoM project, author: mgr inż. Katarzyna Barczewska
Schematic workflow in WiTKoM project, author: mgr inż. Katarzyna Barczewska
Cechy Polskiego Języka Migowego (PJM)
● naturalny język osób Głuchych
● dostępny w poznaniu wzrokowym
● odrębny i niezależny od języka polskiego
● wyróżniający się gramatyką wizualno-przestrzenną
● zawiera elementy, które nie występują w językach fonicznych (mimika, klasyfikatory kształtu, wielkości, ruchu etc.)
● zróżnicowany regionalnie
● obcy dla słyszących
Szyk zdania w Polskim Języku Migowym - przykłady
1. Na stole obok siebie leżą dwie książki. PJM: [STÓŁ] [KSIĄŻKA] [KSIĄŻKA]
4. Dziewczynka podniosła oczy do góry. PJM: [DZIEWCZYNKA] [PATRZEĆ + klasyfikator ruchu gałek ocznych]
5. Kiedy odbędzie się egzamin? PJM: [EGZAMIN] [KIEDY] + {mimika pytająca}
Cechy Polskiego Języka Migowego (PJM)
● naturalny język osób Głuchych
● dostępny w poznaniu wzrokowym
● odrębny i niezależny od języka polskiego
● wyróżniający się gramatyką wizualno-przestrzenną
● zawiera elementy, które nie występują w językach fonicznych (mimika, klasyfikatory kształtu, wielkości, ruchu etc.)
● zróżnicowany regionalnie
● obcy dla słyszących
Stan wiedzy o PJM
● język słabo poznany, Pozostawał w zasadzie poza obszarem zainteresowania polskiego językoznawstwa aż do połowy lat 90-tych XX w. Badania nad PJM prowadzi, powołana w 2010 r. na Wydziale Polonistyki Uniwersytetu Warszawskiego, Pracownia Lingwistyki Migowej. Obecnym kierownikiem Pracowni jest dr Paweł Rutkowski.
● nieustalony korpus leksykalny,
● jedynie cząstkowe opracowania gramatyki,
● niewielka liczba materiałów źródłowych.
Tłumaczenie maszynowe
Słońce jest żółte. - A nap sárga.Słońce jest niebieskie. - A nap kék.Niebo jest niebieskie. - Az ég kék.
Niebo jest żółte. - Az ég sárga.Trawa jest zielona. - A fű zöld.
Kupiłem zieloną trawę. - Megvettem a zöld fű.
Tłumaczenie maszynowe
Słońce jest żółte. - A nap sárga.Słońce jest niebieskie. - A nap kék.Niebo jest niebieskie. - Az ég kék.
Niebo jest żółte. - Az ég sárga.Trawa jest zielona. - A fű zöld.
Kupiłem zieloną trawę. - Megvettem a zöld fű.
żółte - sárganiebieskie - kékzielone - zöld
słońce - a napniebo - az égtrawa - a fű
Korpus
Przykłady:● Daj mi twoją książkę. - [TWÓJ] [KSIĄŻKA] [DAĆ MI] [.]● Ja nie lubię pisać. - [JA] [PISAĆ] [NIE LUBIĆ] [.]
Ogólne Medyczne Wszystkie
Ilość zdań 48 52 100Średnia ilość słów w zdaniu 6,79 8,88 7,88
Ilość słów 326 462 780
Ilość unikalnych słów 108 203 270
Język polski - narzędzia
● tagger morfosyntaktyczny
forma lemma znaczniki
Daj dać impt:sg:sec:perf
mi ja ppron12:sg:dat:m1:pri:nakc
Twoją twój adj:sg:acc:f:pos
książkę książka subst:sg:acc:f
. . interp
Waszczuk J. (2012). „Harnessing the CRF complexity with domain-specific constraints. The case of morphosyntactic tagging of a highly inflected language”. Mumbai: COLING
Język polski - narzędzia
● parser zależnościowy
Wróblewska A., Woliński M. (2012). Preliminary experiments in Polish dependency parsing." Security and Intelligent Information Systems. Springer Berlin Heidelberg, pp. 279-292.
PJM - narzędzia
brak
Reguły tłumaczenia
● operują na drzewie zależnościowym○ struktura○ własności
Kay, M. (1984). "Functional unification grammar: A formalism for machine translation." Proceedings of the 10th International Conference on Computational Linguistics and 22nd annual meeting on Association for Computational Linguistics. Association for Computational Linguistics.
Przykład
dodaj osobę (“ty”) gdy ujęta w czasowniku
Wyniki
System tłumaczenia dla języka hiszpańskiego osiągnął PER 13,17 na 150 zdaniach z 153 regułami. Statystyczna metoda wytrenowana na 266 zdaniach osiągnęła PER 29,14.
PER (%) Ogólne Medyczne Wszystkie
Brak reguł 42,69 56,04 49,64
30 reguł 19,57 35,45 27,83
San-Segundo R. et al. (2008). "Speech to sign language translation system for Spanish." Speech Communication 50.11, pp. 1009-1020.
Dalsze prace
● dokończenie implementacji zdefiniowanych reguł
● próba statystycznego zamodelowania kolejności znaków w zdaniu na poziomie zależnościowym
Praca finansowana przez Narodowe Centrum Badań i Rozwoju w ramach Programu Badań Stosowanych, projekt nr PBS2/B3/21/2013, pt. „Wirtualny Tłumacz Komunikacji Migowej”.