Rozprawa doktorska mgr in. Mikolaj Leszczuk Analiza moliwoci budowy internetowych aplikacji dostpu do cyfrowych bibliotek wideo Promotor: prof. dr hab. in. Zdzislaw Papir AKADEMIA GÓRNICZO-HUTNICZA WYDZIAL ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI I ELEKTRONIKI KATEDRA TELEKOMUNIKACJI Kraków 2005
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Rozprawa doktorska
mgr in�. Mikołaj Leszczuk
Analiza mo�liwo�ci budowy internetowych aplikacji dost�pu do cyfrowych bibliotek wideo
Promotor: prof. dr hab. in�. Zdzisław Papir
AKADEMIA GÓRNICZO-HUTNICZA WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI I ELEKTRONIKI
1.1. Obszar bada� ............................................................................................................ 19 1.2. Stan rozwoju wybranych podsystemów DVL.......................................................... 20
2.4. Strumieniowanie....................................................................................................... 77 2.4.1. Wpływ opó�nie� w sieci na postrzegan� jako�� usług .................................... 77 2.4.2. Porównanie serwerów strumieniuj�cych.......................................................... 84
2.5. Wnioski .................................................................................................................... 91 3. Medyczna Cyfrowa Biblioteka Wideo............................................................................. 93
3.1. Wst�p do MDVL...................................................................................................... 93 3.1.1. Stan rozwoju wybranych podsystemów MDVL .............................................. 94 3.1.2. Podsumowanie ............................................................................................... 100
3.2. Zastosowanie wybranych rozwi�za� w MDVL ..................................................... 100 3.2.1. Streszczanie w MDVL ................................................................................... 100 3.2.2. Kompresja w MDVL...................................................................................... 102
3.3. Wnioski z bada� MDVL ........................................................................................ 107 4. Wnioski ko�cowe i mo�liwo�ci dalszego rozwoju (M)DVL......................................... 109
Rozgał�zianie2 1 Przesyłanie pojedyncze – ang. unicasting. 2 Rozgał�zianie – ang. multicasting.
DVL nie jest na ogół homogenicznym produktem. W wi�kszo�ci przypadków mamy
do czynienia z integracj� pewnej liczby cz��ci składowych (systemów, podsystemów). Ka�dy
z nich realizuje jakie� wyró�nione zadanie, nierzadko rozwi�zuj�c konkretny problem
koncepcyjny, dopiero za� sprawne współdziałanie modułów daje w efekcie produkt ko�cowy,
jakim jest DVL. W artykule [140] zaproponowany został pewien model ideowy DVL.
Dziedzina bada� zwi�zanych z DVL rozwija si� bardzo szybko i przedstawiony ogólny model
DVL pozostaje wci�� aktualny, mimo �e został on stworzony ju� sze�� lat temu. Rysunek 1.2
za artykułem [140] przedstawia główne systemy i podsystemy DVL. Jak wida�, cztery
główne systemy DVL (a tak�e klasycznej biblioteki) to systemy Tworzenia, Udost�pniania,
Wspomagania u�ytkownika i U�ywania. Ka�dy z systemów składa si� z wielu podsystemów,
takich jak: nabywania, edycji, magazynowania, indeksowania, zapytywania, przegl�dania,
odzyskiwania i zmieniania celu. Kolejno�� czynno�ci, jakie wykonuj� u�ytkownicy
12
tradycyjnych i cyfrowych bibliotek jest podobna. Jednak biblioteki cyfrowe wprowadzaj�
nowe procesy, takie jak digitalizacja, tworzenie cało�ci, kompresja, znakowanie,
transkodowanie i interaktywna nawigacja. Multimedialna zawarto�� DVL wymusza
strumieniow� form� dostarczania sekwencji wizyjnych, d�wi�ku i innych form mediów czasu
rzeczywistego.
Rysunek 1.2. Główne systemy i podsystemy cyfrowej biblioteki wideo (wg [140]), kolor biały – podsystemy
istniej�ce zarówno w bibliotekach tradycyjnych jak i w cyfrowych, kolor czerwony – nowe podsystemy
wprowadzone wraz z powstaniem bibliotek cyfrowych
System tworzenia sekwencji wizyjnych zawiera w sobie mi�dzy innymi podsystemy
digitalizacji i monta�u. Podsystem digitalizacji słu�y przeniesieniu sekwencji wizyjnej z
medium analogowego do cyfrowej pami�ci komputera. Sekwencja wizyjna nagrywana na
ta�mie filmowej lub magnetycznej składa si� sekwencji obrazów zwanych klatkami. Na
ta�mie filmowej w jednej sekundzie mieszcz� si� 24 klatki. W systemie PAL jest ich 25 w
jednej sekundzie, w NTSC – 30 1 . Obecnie coraz cz��ciej spotykamy si� z procesem
bezpo�redniego wgrywania sekwencji obrazów do pami�ci komputerów (bez etapu
przej�ciowego – ta�my analogowej). W takiej sytuacji liczba klatek na sekund� mo�e by�
ustalona dowolnie, cz�sto w celu zmniejszenia obj�to�ci materiału stosuje si� podzielnik 1:2,
czyli odpowiednio 12, 12,5 lub (około) 15 klatek na sekund�. Tradycyjne procesy tworzenia
sekwencji wizyjnych oparte na ta�mie filmowej i magnetycznej zostały zrewolucjonizowane
1 W rzeczywisto�ci jest to 29,97 lub 30.
Znakowanie (Watermarking)
Indeksowanie (Indexing)
Magazynowanie (Storage)
Kompresja (Compression)
Nabywanie (Acquisition)
Digitalizacja (Digitalization)
Monta� (Editing)
Tworzenie cało�ci (Compositing)
TWORZENIE (AUTHORING)
UDOST�PNIANIE (ACCESSIONING)
Streszczanie (Summarization)
WSPOMAGANIE U�YTKOWNIKA (PATRONAGE)
Zapytywanie (Querying)
Przegl�danie (Browsing)
Pozyskiwanie (Retrieval)
Transkodowanie (Transcoding)
U�YWANIE (USAGE)
Strumieniowanie (Streaming)
Zmienianie celu (Repurposing)
Interaktywno�� (Interactivity)
Ogl�danie (Viewing)
13
technikami cyfrowymi. Digitalizacja sekwencji wizyjnych jest obecnie powszechnie
realizowana za pomoc� kamer cyfrowych i komputerowych kart przechwytuj�cych obraz
ruchomy. Dzi�ki mo�liwo�ci zapisu sekwencji wizyjnych w postaci plików cyfrowe
podsystemy (stanowiska) monta�u sekwencji wizyjnych umo�liwiaj� ich monta� przy u�yciu
techniki nieliniowej. Monta�y�ci mog� w nieskomplikowany sposób podzieli�, poszeregowa�
i poł�czy� cyfrow� sekwencj� wizyjn� przy u�yciu stanowiska monta�u nieliniowego.
Dodatkowo, przetwarzanie cyfrowe umo�liwia wprowadzenie wcze�niej niedost�pnej du�ej
liczby efektów i przej��. Na koniec, cyfrowy monta� sekwencji wizyjnych umo�liwia tak�e
ich integracj� z dwu- i trójwymiarowymi elementami graficznymi.
System udost�pniania sekwencji wizyjnych w DVL zawiera podsystemy
streszczania, indeksowania, znakowania, kompresji i magazynowania sekwencji wizyjnych.
Efektem działania procesów systemu udost�pniania jest powstanie trzech zasobów informacji:
zasobu danych wizyjnych, zasobu danych przegl�dania i zasobu metadanych.
Zasób danych wizyjnych zawiera kompresowane sekwencje wizyjne. Zasób danych
przegl�dania zawiera sekwencje wizyjne b�d�ce streszczeniami. Przykładami streszcze�
sekwencji wizyjnych mog� by� wersje sekwencji wizyjnych zapisane w niskiej
rozdzielczo�ci, listy kluczowych scen lub uj��, grafy przej�� mi�dzy scenami lub uj�ciami,
zwiastuny itd. (streszczenia zostan� omówione w dalszej cz��ci dokumentu). Zasób
metadanych zawiera indeks i katalog danych u�ywane do odpowiadania na zapytania
u�ytkowników.
Podsystem streszczania sekwencji wizyjnej generuje dane przegl�dania segmentuj�c i
streszczaj�c sekwencj� wizyjn�. Przegl�danie streszcze� sekwencji wizyjnych jest
nieodł�czn� cz��ci� całego procesu przegl�dania DVL. Warto zda� sobie bowiem spraw� z
faktu, �e r�cznie przegl�danie np. dwugodzinnej sekwencji wizyjnej w poszukiwaniu
interesuj�cych fragmentów zabiera du�o czasu. Tylko dzi�ki ogl�dni�ciu streszczenia
u�ytkownik mo�e zapozna� si� z tre�ci� sekwencji wizyjnej, bez konieczno�ci przesyłania jej
całej przez sie�. Streszczenia ułatwiaj� wi�c proces wygodnego przegl�dania DVL. Istot�
problemu stanowi tutaj umiej�tno�� podzielenia materiału �ródłowego na uj�cia oraz selekcja
uj�� kluczowych dla reprezentacji cało�ci sekwencji wizyjnej. Mechanizmem ułatwiaj�cym
ten proces jest algorytm pozwalaj�cy w sposób automatyczny dokona� analizy uj��
wyst�puj�cych w sekwencji wizyjnej i wyboru najistotniejszych z nich. W przypadku, gdy
sekwencja wizyjna zawiera �cie�k� d�wi�kow�, równie� i ona musi zosta� streszczona [39].
14
W sposób oczywisty, streszczenie musi by� znacz�co krótsze od cało�ci sekwencji
wizyjnej. W pierwszej estymacji, opieraj�c si� na do�wiadczeniu monta�ystów przyjmuje si�,
�e obj�to�� streszczenia powinna by� zmniejszona około 60 razy w stosunku oryginału, czyli
jedna sekunda streszczenia powinna obrazowa� jedn� minut� oryginalnej sekwencji wizyjnej.
Jednocze�nie nieprzyj�te jest tworzenie streszcze� o obj�to�ci krótszej ni� 30 sekund.
W celu tak istotnego, ale tak�e równomiernego zmniejszenia długo�ci oryginalnej
sekwencji wizyjnej mo�na:
1) umieszcza� w streszczeniu co (�rednio) 60. klatk� oryginalnej sekwencji wizyjnej,
2) umieszcza� w streszczeniu co (�rednio) 60. uj�cie oryginalnej sekwencji wizyjnej,
3) skróci� (�rednio) 60 razy ka�de uj�cie oryginalnej sekwencji wizyjnej.
Pierwsza metoda skutkuje powstaniem nowej sekwencji wizyjnej przyspieszonej 60
razy w stosunku do oryginału, co nie jest akceptowalne. W praktyce stosuje si� zatem
poł�czenie metody drugiej i trzeciej. Ogólny algorytm polega na:
1) posortowaniu uj�� od najistotniejszych,
2) ewentualnym skróceniu uj�� (w zale�no�ci od rodzaju uj�cia) do 3-8 sekund,
3) wybraniu takiej liczby „najbardziej interesuj�cych” uj��, aby razem tworzyły one
skrót o wymaganej długo�ci.
Sam za� proces automatycznego przygotowywania reprezentatywnego streszczenia
sekwencji wizyjnej musi polega� na szczegółowej analizie tre�ci, wł�czaj�c w to analiz�
poziomu ruchu obiektów w poszczególnych klatkach sekwencji wizyjnej oraz wykrywanie
granic uj�� (SBD, ang. Shot Boundary Detection) tej sekwencji. Analiza posegmentowanej w
dziedzinie czasu (po wykonaniu SBD) sekwencji wizyjnej staje si� łatwiejsza od analizy całej
sekwencji wizyjnej.
Proces segmentacji, u�ywaj�c technik SBD, zwykle przegl�da i segmentuje w
dziedzinie czasu sekwencj� wizyjn� oraz wybiera klatki kluczowe2. Uj�cia to grupy klatek
powstałe na skutek wł�czania/wył�czania kamery, a tak�e przez celowe wprowadzenie w
procesie monta�u przej�� takich jak wyciemnienia, rozja�nienia, rozproszenia, przetarcia itd.
W celu poprawienia rezultatów SBD, cz�sto istotne jest rozró�nianie płynnych granic uj��
(SB, ang. Shot Boundary) od ruchów kamery, zdj�� panoramicznych, przybli�e�, ruchu 2 W literaturze przedmiotu istniej� dwa poj�cia oznaczane jednym terminem „klatki kluczowej” (ang. key frame). W kontek�cie procesów streszczania i indeksowania, klatk� kluczow� oznacza si� klatk� nios�c� informacj� wizualn� reprezentatywn� merytorycznie dla wszystkich klatek w obr�bie otaczaj�cego klatk� kluczow� uj�cia lub sceny. W kontek�cie procesów kompresji, klatk� kluczow� oznacza si� klatk� nios�c� pełn� informacj� o obrazie (np. klatka typu I w standardach kompresji MPEG-1/MPEG-2) w odró�nieniu od klatek nios�cych jedynie informacje ró�nicowe wzgl�dem klatki kluczowej (np. klatka typu P lub B w standardach kompresji MPEG-1/MPEG-2). Wsz�dzie tam, gdzie z kontekstu nie wynika wprost które poj�cie oznacza u�yty termin klatki kluczowej, autor specyfikuje to dodatkowo.
15
obiektów czy ruchu tła. Proces SBD próbkuje klatki w dziedzinie czasu i analizuje ich
wzajemne zmiany. Po wykonaniu SBD kolejnym etapem segmentacji sekwencji wizyjnej jest
wybranie klatek kluczowych, których mo�na u�y� do stworzenia skrótowej reprezentacji
sekwencji wizyjnej u�ytecznej w procesie przegl�dania. Inn� mo�liwo�ci� generowania
streszcze� sekwencji wizyjnej jest zgrupowanie uj�� w sceny. Scena to grupa kilku,
kilkunastu lub nawet kilkudziesi�ciu uj��. Wszystkie uj�cia w ramach jednej sceny musz�
zosta� sfilmowane w tym samym miejscu i w (mniej wi�cej) tym samym czasie. W literaturze,
niestety, cz�sto mo�na spotka� si� z przypadkami mylenia poj�� sceny i uj�cia. Uj�cia
pogrupowane w sceny umo�liwiaj� zbudowanie reprezentacji struktury sekwencji wizyjnej.
Takie streszczenia sekwencji wizyjnej s� u�yteczne dla celów wizualizacji sekwencji wizyjnej
na wy�szym poziomie abstrakcji oraz dla celów przegl�dania wyników wyszukiwania.
Nale�y zwróci� uwag�, �e SBD mo�e by� u�ywana tak�e i w innych systemach DVL.
Przykładowo, z wyników SBD mog� korzysta� metody ukrywania bł�dów transmisyjnych,
implementowane w podsystemie strumieniowania (cz��ci systemu u�ywania DVL) [114].
������ ������ �������� ������
������� ������ �������� ������
������ ������ �������� ������
������� ������ �������� ������
������ ������ ��������� ������
������� ������ ��������� ������
�����
� ������
������
������
�������
������
Rysunek 1.3. Klatki i uj�cia
Jako�� indeksowania zawarto�ci DVL w sposób bezpo�redni skutkuje pó�niej
łatwo�ci� przegl�dania jej tre�ci. Innymi słowy, im dokładniej tre�� jest indeksowana, tym
DVL nie sprowadza si� wył�cznie do nadania poszczególnym sekwencjom wizyjnym
numerów inwentarzowych i opisania ich kilkoma słowami kluczowymi, jak ma to miejsce w
przypadku cyfrowych bibliotek zawieraj�cych media tradycyjne, np. ksi��ki. Przegl�danie w
ten sposób indeksowanej DVL byłoby dosy� uci��liwe. DVL nie jest tym samym czym jest
biblioteka cyfrowa zawieraj�ca innego rodzaju rekordy. O ile cyfrowe biblioteki tekstów s�
stosunkowo łatwe do indeksowania [173, 174], to DVL same w sobie nie zawieraj� informacji
tekstowych, zwi�zanych z tre�ci� zawartych w nich sekwencji wizyjnych, mog�cych posłu�y�
cho�by za słowa kluczowe. Dodatkowym utrudnieniem mo�e by� fakt, �e naturalnie prostsze
16
jest przegl�danie tekstu od przegl�dania sekwencji wizyjnej. Cho� 80% percepcji zmysłów
człowieka le�y w sferze obrazów widzialnych, to taka a nie inna konstrukcja (dla porównania)
filmów i ksi��ek sprawia, �e znalezienie interesuj�cego nas fragmentu w nieznanym materiale
udaje si� na ogół szybciej w przypadku druku. Wi�kszo�� ksi��ek posiada spis tre�ci oraz
naturalny podział na rozdziały, podrozdziały. W przypadku filmów bardzo cz�sto tego typu
informacje nie s� ju� dost�pne. W klasycznym przypadku indeksowania sekwencji wizyjnych
w DVL, aby dokona� analizy tre�ci sekwencji wizyjnej i aby sekwencja wizyjna
charakteryzowała si� czym� wi�cej ni� tylko nazw�, obj�to�ci� czy rozdzielczo�ci�, istnie�
musi osoba, która dan� sekwencj� wizyjn� opisze i przyporz�dkuje jej słowa kluczowe oraz
jak�� kategori�. Osoba ta musi sekwencj� wizyjn� po prostu obejrze�. Niestety, ogl�dni�cie
całej sekwencji wizyjnej zabiera sporo czasu. Zamiast tego znacznie pro�ciej jest skorzysta� z
algorytmów, pozwalaj�cych w inteligentny sposób automatycznie indeksowa� sekwencje
wizyjne. Dlatego te� DVL powinna posiada� mechanizmy pozwalaj�ce automatycznie
zarówno okre�li� merytoryczn� zawarto�� zapisanych w DVL sekwencji wizyjnych, jak i
pozwoli� na stworzenie logicznej reprezentacji tre�ci biblioteki. W zwi�zku z tym, podsystem
indeksowania sekwencji wizyjnych generuje metadane dla ka�dej sekwencji wizyjnej
analizuj�c ró�nymi technikami cechy jej uj��, cechy jej klatek kluczowych, cechy jej �cie�ki
d�wi�kowej, a tak�e jej streszczenia. Dodatkowo, do zasobu metadanych DVL mog� by�
dodane inne metadane, przykładowo wcze�niej wspomniane informacje bibliograficzne
umo�liwiaj�ce hierarchizowanie sekwencji wizyjnych. Przykłady danych bibliograficznych to
tytuły, słowa kluczowe, daty, opisy, listy z obsad�, informacje procesu produkcji itd.
Znakowanie, w zale�no�ci od u�ytej techniki, mo�e by� realizowane przed lub po
kompresji. Cyfrowe znaki wodne s� sygnaturami osadzonymi w danych wizyjnych słu��cymi
do zabezpieczenia i uwierzytelnienia danych. Cyfrowe znaki wodne mog� by� niewidoczne (a
dokładniej – niezauwa�alne przez ludzkie oko) lub widoczne. Niewidoczne znaki wodne,
osadzaj�ce wybran� przez wła�ciciela sekwencji wizyjnej etykiet�, s� u�ywane do
rozstrzygania praw własno�ci. Jednocze�nie widoczne znaki wodne cz��ciowo zasłaniaj�
fragment obrazu w celu uniemo�liwienia jego nieautoryzowanego u�ycia.
Istnieje wiele mo�liwo�ci kompresji sekwencji wizyjnych. W wi�kszo�ci przypadków
s� to techniki stratne, umo�liwiaj�ce wydajne zmniejszenie ilo�ci magazynowanych danych
oraz dostosowanie strumienia wizyjnego do przepustowo�ci ł�cza dost�powego, jakim
u�ytkownik ł�czy si� z sieci� Internet (modem, ISDN, DSL, CATV). Zalety silnej kompresji
uwidaczniaj� si� szczególnie w przypadkach współdzielenia jednego ł�cza dost�powego przez
17
wielu u�ytkowników. Z punktu widzenia DVL kompresja pozwala jednocze�nie
strumieniowa� wiele sekwencji wizyjnych.
Zadaniem podsystemu magazynowania jest wprowadzanie danych powstałych w
poprzednich podsystemach systemu udost�pniania do wspomnianych ju� trzech zasobów
informacji: zasobu danych wizyjnych, zasobu danych przegl�dania i zasobu metadanych.
Zasób danych wizyjnych cz�sto jest skonstruowany hierarchicznie, tj. składa si� z wielu
typów no�ników informacji takich jak dysk magnetyczny, dysk optyczny czy ta�ma
magnetyczna. Hierarchiczne magazynowanie jest kompromisem pomi�dzy kosztami
magazynowania a szybko�ciami dost�pu.
System wspomagania u�ytkownika DVL zawiera podsystemy zapytywania,
przegl�dania, transkodowania i pozyskiwania sekwencji wizyjnych. Procesy zapytywania,
przegl�dania i pobierania, korzystaj� odpowiednio z: zasobu metadanych, zasobu danych
przegl�dania i zasobu danych wizyjnych. Obsługa ka�dego u�ytkownika przebiega w
odr�bnej sesji, z których ka�da rozpoczyna si� zapytaniem u�ytkownika skierowanym do
zlokalizowanego w DVL mechanizmu obsługuj�cego zapytania. Wyniki zapytania s�
przekazywane do mechanizmu przegl�dania, a nast�pnie do u�ytkownika przesyłane s�
odpowiednie dane z zasobu danych przegl�dania. W tym momencie u�ytkownik mo�e
stwierdzi�, �e znalazł ��dan� sekwencj� wizyjn� b�d� zmodyfikowa� zapytanie i powtarza�
do skutku cykl: zapytanie, przegl�danie wyników, modyfikacja zapytania itd. W momencie
kiedy u�ytkownik wska�e ostateczn� szukan� sekwencj� wizyjn�, mechanizm pozyskiwania
wy�le j� do u�ytkownika b�d� to w formie strumienia, b�d� to jako plik pobierany i
zapisywany na dysku lokalnym komputera u�ytkownika.
Dokonywanie zapyta� (przez podsystem zapytywania) do DVL mo�e by� troch�
skomplikowane z uwag� na audiowizualny charakter zgromadzonych w DVL danych. Bardzo
cz�sto zapytania odnosz� si� do cz��ci sekwencji wizyjnej, a nie do sekwencji wizyjnej jako
cało�ci. Oznacza to, �e indeksowanie dotyczy� musi poszczególnych, identyfikowalnych w
czasie fragmentów sekwencji wizyjnej. Sposobem osi�gni�cia takiego typu indeksowania
mo�e by� indeksowanie wył�cznie kluczowych klatek sekwencji wizyjnej. W takim
przypadku u�ytkownik mo�e sformułowa� zapytanie w formie podania wzorca, czyli
przykładu (QBE, Query By Example), nast�pnie za� podsystem zapytywania jest w stanie
dobra� klatki kluczowe najbardziej podobne do zapytania [67]. Analiza wzorca podanego
jako zapytanie mo�e przykładowo okre�li� poło�enie obszarów kolorów (wzajemne i
18
wzgl�dem brzegów obrazu), co pozwala dalej dobra� najbardziej podobne obiekty
multimedialne w DVL.
Podsystemem, który umo�liwia ró�nym urz�dzeniom klienckim dost�p przez Internet
do DVL jest podsystem transkodowania. Nale�y zauwa�y�, ze obecnie obserwuje si�
ró�norodno�� urz�dze� posiadaj�cych dost�p do sieci Internet, znacz�co ró�ni�cych si�
mo�liwo�ciami wy�wietlania, przetwarzania, magazynowania i komunikowania si�.
Przykładowo, obecnie dost�p do sieci mog� mie� osobiste organizatory (PDA), komputery
nar�czne (HHC), telewizory z przegl�darkami WWW i telefony komórkowe [119]. Jednym z
potencjalnych problemów, jakie mog� wynikn�� przy próbie korzystania z takich urz�dze� z
DVL, s� ich ograniczone mo�liwo�ci obsługi strumieni sekwencji wizyjnych [148]. Dlatego
te� uniwersalny dost�p do DVL dla tego typu urz�dze� mo�e by� uruchomiony dopiero po
zainstalowaniu w DVL lub w sieci transkodera. Transkoder pozwala dostarczy� sekwencj�
wizyjn� w formie ruchomych lub nieruchomych obrazów, samego d�wi�ku czy te� tekstu, z
ró�nymi rozdzielczo�ciami zale�nymi od mo�liwo�ci urz�dzenia klienckiego. Czasami
transkoder musi zatem usun�� ze strumienia wizyjnego cz��� informacji, na przykład
zmniejszy� rozdzielczo�� obrazu [118] lub odrzuci� niektóre klatki strumieniowanej
sekwencji wizyjnej [27].
System u�ywania zawiera cztery podsystemy, z których najbardziej warty omówienia
jest podsystem strumieniowania. Jego zadaniem jest zapewnienie mo�liwie wysokiego
poziomu postrzeganej przez u�ytkownika jako�ci usług (ang. Perceived QoS, Perceived
Quality of Service) [144] wobec niedoskonało�ci medium transmisyjnego, jakim jest Internet.
Nale�y bowiem pami�ta�, �e pakietowe, publiczne ł�cza telekomunikacyjne charakteryzuj�
si� zazwyczaj niskim poziomem wrodzonej jako�ci usług (ang. Intrinsic QoS) [144]. Oznacza
to, �e w sieci takiej mocno ograniczona jest przepustowo��, nale�y spodziewa� si� strat
pakietów, opó�nie�, a tak�e fluktuacji opó�nienia [13]. Na ogólny poziom postrzeganej
jako�ci usług w DVL ma te� wpływ wiele innych czynników, takich jak protokoły
komunikacyjne, system operacyjny czy te� serwery plików. Aktualnie w Internecie
dost�pnych jest wiele protokołów mog�cych słu�y� do przesyłania sekwencji wizyjnych.
Niestety, z uwagi na niegwarantowany (typu best-effort) charakter pracy, �aden z nich nie
zapewnia wrodzonej jako�ci usług w relacji end-to-end [162]. W Internecie u�ywane s�
zarówno poł�czeniowe, jak i bezpoł�czeniowe protokoły transmisyjne. Protokoły
poł�czeniowe, takie jak TCP czy HTTP, pozwalaj� na zestawienie poł�czenia mi�dzy
stacjami i wymian� strumieni danych. Poniewa� protokoły te gwarantuj� dostarczanie
19
pakietów, ale nie gwarantuj� czasu dostarczania, nie s� one zbyt dobrze dostosowane do
strumieniowania sekwencji wizyjnych w czasie rzeczywistym. Protokoły bezpoł�czeniowe
natomiast, takie jak UDP czy RTP, wysyłaj� pakiety tak szybko jak jest to mo�liwe, ale nie
gwarantuj� ich dostarczania. Protokoły bezpoł�czeniowe, mimo �e bardziej dostosowane do
strumieniowania sekwencji wizyjnych, mog� powodowa� powstawanie zatorów w sieci, a w
konsekwencji obni�enie jako�ci pracy innych usług, z którymi współdziel� zasoby sieciowe.
1.1. Obszar bada�
Autor w niniejszej rozprawie stara si� poruszy� tylko cz��� aspektów zwi�zanych z budow� i
rozwojem DVL. W swoich badaniach skupił si� na aspektach streszczania, indeksowania i
kompresji, a tak�e przeprowadził badania w zakresie strumieniowania. Wybrane aspekty w
kontek�cie wszystkich systemów i podsystemów zostały zaznaczone granatow� obwódk�, co
przedstawia Rysunek 1.4.
Rysunek 1.4. Główne systemy i podsystemy cyfrowej biblioteki wideo (według [140])
Wybrane i rozwini�te przez autora podsystemy nie s� funkcjonalnie to�same z
koncepcj� kompletnej DVL. Przykładowo, autor �wiadomie nie badał szczegółowo aspektów
samej budowy aplikacji udost�pniania materiałów wideo z u�yciem interfejsów WWW
pozostawiaj�c te kwestie webmasterom i grafikom. Równie� zagadnieniem nie poruszonym
przez autora jest sama produkcja tre�ci wideo. Jest to jednak tematyka zwi�zana bardziej z
Znakowanie (Watermarking)
Indeksowanie (Indexing)
Magazynowanie (Storage)
Kompresja (Compression)
Nabywanie (Acquisition)
Digitalizacja (Digitalization)
Monta� (Editing)
Tworzenie cało�ci (Compositing)
TWORZENIE (AUTHORING)
UDOST�PNIANIE (ACCESSIONING)
Streszczanie (Summarization)
WSPOMAGANIE U�YTKOWNIKA (PATRONAGE)
Zapytywanie (Querying)
Przegl�danie (Browsing)
Pozyskiwanie (Retrieval)
Transkodowanie (Transcoding)
U�YWANIE (USAGE)
Strumieniowanie (Streaming)
Zmienianie celu (Repurposing)
Interaktywno�� (Interactivity)
Ogl�danie (Viewing)
20
technikami re�yserskimi i filmowymi ni� telekomunikacyjnymi czy informacyjnymi.
Natomiast pozostałe zagadnienia techniczne, nie analizowane w tej rozprawie stanowi� b�d�
punkt wyj�cia do przyszłych bada� naukowych autora.
W drugiej cz��ci rozprawy autor przeprowadził badania nad podsystemami DVL
zawieraj�cej tre�ci nierozrywkowe (z jakimi mo�na spotka� si� w wi�kszo�ci DVL),
mianowicie tre�ci u�ywane w telemedycynie. DVL zawieraj�ca zapisy procedur medycznych
nosi nazw� Medycznej DVL (MDVL). Nale�y zwróci� uwag�, �e niektóre z podsystemów
MDVL, z uwagi na tre�� jak� MDVL przechowuje, powinny by� implementowane w sposób
odmienny od ogólnego schematu DVL.
W przypadku opublikowanych w literaturze bada� zwi�zanych z MDVL,
dotychczasowa uwaga skupiona była wył�cznie na wybranych podsystemach DVL. W
odró�nieniu od DVL, w MDVL nacisk jest poło�ony prawie wył�cznie na podsystemy
kompresji, magazynowania, indeksowania, zapytywania, pozyskiwania i strumieniowania (ze
szczególnym uwzgl�dnieniem aspektów bezpiecze�stwa). Jednocze�nie dedykowane dla
MDVL podsystemy, takie jak podsystem streszczania, praktycznie nie istniej�.
Z uwagi na specyfik� danych medycznych indeksowanie MDVL opiera si� na innych
zasadach ni� indeksowanie DVL. Indeksowanie MDVL jest tematem bardzo obszernym i
mo�e z powodzeniem stanowi� temat osobnych pracy naukowych [24, 108, 123]. Dlatego
temat ten nie został przez autora podj�ty w przypadku MDVL. Inny z podsystemów –
podsystem strumieniowania, w przypadku MDVL nie ró�ni si� koncepcyjnie od
analogicznego systemu dla klasycznej DVL. Ró�nice wyst�puj� jedynie w procesie wdra�ania
podsystemu strumieniowania [110]. Dlatego te�, autor postanowił skoncentrowa� swoje
badania w obszarze wył�cznie dwóch podsystemów MDVL: streszczania i kompresji.
1.2. Stan rozwoju wybranych podsystemów DVL
Autor chciałby zaprezentowa� Czytelnikowi dotychczasowe osi�gni�cia i stan wiedzy
dotycz�cy wybranych dziedzin zwi�zanych z budow� cyfrowych bibliotek wideo. W dalszych
rozwa�aniach omawiane b�d� kwestie sposobów streszczania i indeksowania DVL, oceny
jako�ci kompresji oraz optymalnego wyboru systemu strumieniowania.
1.2.1. Streszczanie
Jak ju� wspomniano powy�ej, na proces streszczania składa si� szereg aspektów zwi�zanych
semantyczn� analiz� tre�ci sekwencji wizyjnej, pozwalaj�c� na dokonanie jej podziału na
21
uj�cia, sceny [68] czy inne fragmenty spójne tematycznie [2] b�d� na zaprezentowanie jej w
postaci hierarchicznej [3, 24, 132, 149] (co wchodzi ju� po cz��ci w zakres zada� podsystemu
indeksowania). Bywa, �e relacje hierarchiczne zachodz� zarówno pomi�dzy fragmentami
jednej sekwencji wizyjnej, jak i pomi�dzy ró�nymi sekwencjami wizyjnymi [91]. Jednym z
istotnych aspektów w dziedzinie tworzenia logicznej reprezentacji sekwencji wizyjnej jest
mo�liwo�� automatycznej SBD. Problem automatycznej SBD był ju� wielokrotnie badany.
Niestety, wi�kszo�� z rozwi�za� jest dosy� skomplikowana i nie znajduje zastosowania w
popularnych produktach. Opracowano wiele metod, jednak�e wci�� brakuje odbicia tej
działalno�ci na rynku aplikacji wideo. Autor znalazł na rynku niewiele programów
realizuj�cych tak� funkcj� (Scenalyzer, VideoWave, VirtualDub, DB2 Video Extender).
Pierwsze trzy programy został przetestowane przez autora, ale otrzymane wyniki nie były
satysfakcjonuj�ce. Generalnie, metody SBD mo�na podzieli� na dwie grupy: operuj�ce na
sekwencjach dekompresowanych i kompresowanych.
Metody SBD operuj�ce na danych dekompresowanych
Wi�kszo�� metod operuj�cych na danych dekompresowanych przegl�da sekwencyjnie
wszystkie klatki sekwencji wizyjnej poszukuj�c SB. Ka�da klatka jest dekompresowana, a
nast�pnie porównywane s� pewne atrybuty klatek, s�siednich lub kilku w obr�bie
przesuwaj�cego si� okna (ang. sliding window). Niektóre z opracowanych metod, jak np.
statystyczne metody porównywania pikseli [122] lub bloków, s� bardzo proste, lecz
stosunkowo efektywne. Niestety, metody te s� zbyt wra�liwe na szybkie ruchy kamery i
obiektów. W zwi�zku z tym, aby wyeliminowa� wra�liwo�� na ruchy obiektów, u�ywane s�
równie� inne, bardziej wyrafinowane metody, jak metody oparte na histogramach [77, 100,
129] lub zmiennych cechach obrazu. Inne techniki polegaj�ce na okre�laniu i porównywaniu
cech klatek (np. wykrytych kraw�dzi) podnosz� skuteczno�� wykrywania płynnych przej��
mi�dzy uj�ciami [140]. Czasami korzysta si� te� z metod opartych na takich parametrach, jak
współczynnik dyspersji [124, 137, 139, 140]. Niektóre algorytmy rozró�niaj� nawet
gwałtowne i płynne przej�cia mi�dzy uj�ciami [7, 109, 164]. Szczegółowy opis metod SBD
operuj�cych na danych dekompresowanych zawarty został w ksi��ce [36]. Jednak najprostsze
metody wci�� b�d� wystarczaj�ce do dokonania ogólnej SBD [140].
Metody SBD operuj�ce na danych kompresowanych
Metody operuj�ce na danych kompresowanych pozwalaj� istotnie przyspieszy� proces SBD.
Dla przykładu, przy sekwencjach wizyjnych kompresowanych kodekami MPEG-1 i MPEG-2,
22
które w procesie kompresji sekwencji wizyjnych u�ywaj� wewn�trzklatkowych transformat,
kwantyzacji i kodowania arytmetycznego, metody operuj�ce na danych kompresowanych
dokonuj� wył�cznie dekompresji arytmetycznej i dekwantyzacji, musz� natomiast dokonywa�
odwrotnej transformaty. Co wi�cej, metody operuj�ce na danych kompresowanych mog�
korzysta� z zapisanych w formacie MPEG-2 informacji mi�dzyklatkowych, takich jak
wektory ruchu, uzyskuj�c informacje o ruchu fragmentów obrazu i kamery [140].
W artykule [166] zaproponowano metod� SBD w kompresowanych sekwencjach
wizyjnych opart� na analizie informacji zawartych w zakresie niskich cz�stotliwo�ci.
Proponowana metoda pobiera odpowiednie współczynniki dyskretnej transformaty
kosinusowej (DCT) bezpo�rednio ze strumienia MPEG-1, a nast�pnie tworzy z nich
pomniejszone kilkudziesi�ciokrotnie wersje klatek. Analiza pomniejszonych klatek
umo�liwia wykrycie zarówno gwałtownych SB, jak i płynnych przej�� mi�dzy uj�ciami,
takich jak wyciemnienia czy rozja�nienia. Koncepcja ta została rozwini�ta w artykułach [25,
164, 165]. Czasami korzysta si� te� z metod opartych na takich parametrach jak �rednia
arytmetyczna zagregowanego ruchu [71, 100, 124, 129].
1.2.2. Indeksowanie
Indeksowanie cyfrowych bibliotek wideo jest dziedzin�, w której pomimo licznych sukcesów,
wielu naukowców wci�� szuka nowych rozwi�za�. Przewiduje si�, �e w najbli�szym czasie
dokonany zostanie przełom w tej dziedzinie [87, 103, 130, 140, 145]. Jak ju� wspomniano
powy�ej, termin indeksowanie w przypadku cyfrowych bibliotek wideo obejmuje szerokie
spektrum zagadnie�. Najcz��ciej jednak tym poj�ciem okre�la si� wyznaczanie słów
kluczowych dla danej sekwencji wizyjnej, a nast�pnie ich odpowiedni zapis w bazie danych
[28]. Jednym z rozwi�za� wspieraj�cych jest u�ycie mechanizmów rozpoznawania mowy [32,
113, 107, 143], tekstu, twarzy, a nawet kształtów.
Rozwój mechanizmów rozpoznawania mowy był pocz�tkowo skierowany na
identyfikacj� prostych polece� wydawanych komputerowi głosowo. Zwykle lista polece�
była predefiniowana i mocno ograniczona [101]. Sukces tego typu aplikacji zaowocował
badaniami w kierunku u�ycia mechanizmów rozpoznawania mowy dla celów indeksowania
rozmów telefonicznych i poczty głosowej. W tym przypadku konieczne ju� było u�ycie
bardziej zaawansowanych technik rozpoznawania mowy, w których lista rozpoznawalnych
słów była albo bardzo obszerna, albo (w przypadku rozpoznawania nie całych słów, lecz
pojedynczych zgłosek) praktycznie nieograniczona [63, 169]. Algorytmy rozpoznawania
mowy pozwalaj� zatem na indeksowanie ka�dej sekwencji d�wi�kowej czy wizyjno-
23
d�wi�kowej posiadaj�cej mówion� �cie�k� d�wi�kow�; obecnie obsługuj� one głównie j�zyk
angielski, ale istniej� ju� implementacje dla innych j�zyków. Osi�gana trafno��
rozpoznawania nie jest idealna (nie przekracza 50-60%), jednak�e, jak twierdz� eksperci
pracuj�cy w laboratoriach firmy IBM (�wiatowy lider w tej dziedzinie), nawet ni�sza trafno��
rozpoznawania mowy jest wystarczaj�ca, by wyłapa� główne słowa kluczowe [10]. Dlatego
integracja mechanizmów rozpoznawania mowy z cyfrow� bibliotek� wideo pozwala osi�gn��
obiecuj�ce rezultaty w zakresie indeksowania jej tre�ci, co zostało potwierdzone w wielu
badaniach, tak�e i autora rozprawy [81].
Nie tylko algorytmy i techniki rozpoznawania mowy mog� by� u�yte przy
indeksowania sekwencji wizyjnych. Dobrych rezultatów spodziewa� si� mo�na tak�e po
rozwi�zaniach opartych na rozpoznawaniu tekstu (znanych czasami jako OCR – ang. Optical
Character Recognition czyli Optycznego Rozpoznawania Znaków). Trzeba pami�ta�, �e na
klatkach sekwencji wizyjnych pojawia si� czasami du�o napisów, które słu�y� mog� jako
słowa kluczowe. R�czne ich spisywanie byłoby bardzo powolne, natomiast technika OCR
pozwala napisy „odczyta�” z obrazu i to ze �redni� szybko�ci� znacznie przewy�szaj�c�
operacj� dokonan� r�cznie.
Technika rozpoznawania tekstu mo�e zatem zosta� u�yta w przypadku indeksowania
wielu rodzajów napisów zawartych w klatkach sekwencji wizyjnych. Istniej� mo�liwo�ci
indeksowania przykładowo napisów informacyjnych (Rysunek 2.21) lub listy dialogowej
pojawiaj�cej si� w dolnej cz��ci klatek sekwencji wizyjnych3 (Rysunek 1.5).
3 Warto jednak zwróci� uwag�, �e obecnie coraz cz��ciej tłumaczenia oryginalnych dialogów wyst�puj� w postaci odr�bnych plików, nie ma zatem potrzeby ich odczytywania za pomoc� technik OCR.
24
Rysunek 1.5. Klatka filmu wraz z napisem (klatka z filmu „Szklana pułapka 3”; ramk� zaznaczono obszar, w
którym rozpoznawany jest tekst)
Efekty rozpoznawania tekstu informacyjnego lub listy dialogowej s� bardzo dobre.
Je�li sekwencja wizyjna zapisana jest w wysokiej rozdzielczo�ci, a napisy s� du�e, to
rozpoznawanie jest bezbł�dne lub prawie bezbł�dne [80]. Technika OCR jest niew�tpliwie
warta uwagi w przypadku indeksowania sekwencji wizyjnych stanowi�cych zawarto��
cyfrowych bibliotek wideo.
Algorytmy OCR ju� dawno temu doczekały si� swoich implementacji komputerowych.
Dost�pne s� zarówno implementacje komercyjne (FineReader), jak i darmowe, typu open-
source (GOCR, OCRAD). Niektóre z implementacji prócz rozpoznawania tekstu
drukowanego posiadaj� równie� mo�liwo�� rozpoznawania tekstu pisanego.
Technika rozpoznawania tekstu zwykle nie mo�e by� u�yta w przypadku ka�dego
napisu widocznego w klatce sekwencji wizyjnej. Przykładowo, litery rozpoznawanego tekst
musi by� odpowiedniej wielko�ci, sam napis za� musi by� wyrównany do kierunku
pionowego lub poziomego.
Wynika st�d, �e systemów OCR mo�emy u�ywa� tylko w szczególnych przypadkach.
Jednocze�nie lepiej jest posiada� cho�by bardzo szcz�tkowe informacje na temat napisów ni�
nie posiada� tych informacji wcale.
W celu indeksowania DVL mog� by� u�yte mechanizmy identyfikuj�ce cechy
charakterystyczne obrazów b�d�cych klatkami sekwencji wizyjnej. Tymi cechami
systemach indeksuj�cych DVL [80], przy zało�eniu posiadania mo�liwie pojemnej bazy
danych wzorców twarzy.
26
1.2.3. Kompresja
W celu efektywnego strumieniowania oraz składowania filmów w bazie wideo konieczna jest
kompresja materiału �ródłowego. Istnieje wiele standardów kompresji cyfrowych sygnałów
wizyjnych, które implementowane s� programowo lub sprz�towo w formie kodeków. W celu
kompresji sygnału wizyjnego nale�y zatem u�y� kodeka, który zwykle w sposób stratny
zmniejszy rozmiar danych wizyjnych, a nast�pnie dane te nale�y zapisa� w jednym z
istniej�cych formatów zapisu. Danym wizyjnym towarzysz� zwykle dane d�wi�kowe, które
nale�y podda� analogicznemu procesowi. Poniewa� na obraz ruchomy przypada zazwyczaj
ponad 90% danych multimedialnych, to wła�nie jego kompresja ma decyduj�cy wpływ na
rozmiar pliku wynikowego oraz pó�niejsz� przepływno�� strumienia multimedialnego [18].
Standardy kompresji cyfrowych sygnałów wizyjnych mo�na podzieli� na rodzin�
standardów4 stosuj�cych wył�cznie kompresj� wewn�trzobrazow� oraz rodzin� standardów
stosuj�cych zarówno kompresj� wewn�trzobrazow� jak i mi�dzyobrazow�. Standardy
kompresji wewn�trzobrazowej, historycznie pierwsze, s� ju� w DVL stosunkowo rzadko
stosowane. Dynamicznie rozwijaj� si� natomiast standardy stosuj�ce kompresj� zarówno
wewn�trzobrazow�, jak i mi�dzyobrazow�. Rozwój tej rodziny standardów mo�na
sklasyfikowa� w postaci czterech generacji standardów. Wszystkie standardy zgromadzone w
jednej generacji wykazuj� si� bardzo zbli�onymi technikami kompresji, nierzadko w praktyce
nawet nie ma mi�dzy nimi ró�nic, z wyj�tkiem oznaczenia i organizacji standaryzuj�cej dany
kodek [135].
4 W odniesieniu do standardów kompresji, w literaturze wyst�puj� okre�lenia „rodzina” oraz „grupa”. Okre�lenia te u�ywane s� zwykle jako synonimy. Autor postanowił trzyma� si� okre�lenia „rodzina” dla podkre�lenia istotnych zwi�zków mi�dzy nale��cymi do niej standardami.
Rysunek 2.1. Przebieg PSNR i AD z wyra�nym miejscem SB
Zaproponowana tutaj metoda byłaby prawidłowa, gdyby warto�� progowa mogła by�
wyznaczona jednoznacznie (wszystkie pary klatek posiadaj�ce PSNR poni�ej pewnej warto�ci
progowej lub AD powy�ej pewnej warto�ci progowej byłyby traktowane jako SB). Niestety,
chocia� bardzo rzadko, to jednak si� zdarza, �e PSNR/AD wewn�trz uj�cia (dla uj�� z
5 Przebieg powstał przez poł�czenie sekwencji wizyjnych „claire” i „suzie” powszechnie u�ywanych do testowania systemów wizyjnych (pobrano po 15 klatek z ka�dej z sekwencji).
41
nakr�conych ruchom� kamer� lub zawieraj�cych wiele ruchomych obiektów) posiada warto��
odpowiednio ni�sz�/wy�sz� ni� PSNR/AD dla SB (przykładowo dla rozmytych SB w formie
przenikania dwóch obrazów). Rysunek 2.2 obrazuje sytuacj�, kiedy współczynniki PSNR i
AD na SB osi�gaj� podobne warto�ci jak wewn�trz pierwszego z uj��, charakteryzuj�cego si�
Rysunek 2.2. Warto�� progowa nie mo�e zosta� ustalona
Z powodu wspomnianego powy�ej opracowany został bardziej wyrafinowany
algorytm. Kluczowym jego parametrem jest nie sama warto�� PSNR czy AD, a dynamika jej
zmian (dPSNR, dAD) przy wykrywaniu zmian obrazu pomi�dzy kolejnymi klatkami
sekwencji (Rysunek 2.3).
6 Przebieg powstał przez poł�czenie sekwencji wizyjnych „husky” i „suzie” powszechnie u�ywanych do testowania systemów wizyjnych (pobrano tylko fragmenty ka�dej z sekwencji)
Rysunek 2.12. Pierwsze klatki niektórych z sekwencji wizyjnych u�ytych do testów
54
U�ycie jednego deskryptora
Autor dokonał przegl�du wybranych deskryptorów8 i wykonał test pozwalaj�cy stwierdzi�,
jaka jest przydatno�� danego deskryptora w algorytmie bisekcyjnym. Autor przygotował
odpowiedni materiał testowy stworzony z konkatenacji ponad 20 znanych sekwencji
wizyjnych 9 [52] (Rysunek 2.12). Poniewa� znane były SB, łatwo mo�na było obliczy�
(Rysunek 2.13):
• minimaln� warto�� ( )maxmin , iid , gdzie mini oraz maxi nale�� do rozł�cznych uj��
(nazywan� dalej warto�ci� minInter ),
• maksymaln� warto�� ( )maxmin , iid , gdzie mini oraz maxi nale�� do wspólnego uj�cia
(nazywan� dalej warto�ci� maxIntra ).
Klatka 1 Klatka 2 Klatka i Klatka i+1
Near
Inter
Intra
Ci�cie
Rysunek 2.13. Okre�lenie warto�ci Intra, Inter i Near
W przypadku gdyby warto�� minInter była zawsze wy�sza od warto�ci maxIntra , w
sposób bardzo prosty mo�liwe byłoby okre�lenie, czy dana para klatek nale�y do tego samego
uj�cia.
Pierwszym etapem badania było wytrenowanie algorytmu, czyli empiryczne ustalenie
progowych warto�ci ( )maxmin , iid . W wyniku trenowania, dla ka�dego z deskryptorów autor
uzyskał minimalne (klasyfikuj�ce par� klatek do wspólnego uj�cia – minInter ) i maksymalne
(klasyfikuj�ce par� klatek do ró�nych uj�� – maxIntra ) warto�ci progowe. Przedstawia je
Tabela 2.1.
8 Deskryptory CSD i HTD nie zostały przeanalizowane z uwagi na trudno�ci implementacyjne. 9 Autor zastosował w tym celu cz�sto u�ywanych sekwencji do testowania systemów wizyjnych [52]: „akiyo”, „granda”, „pamphlet”, „bowing”, „hall_monitor”, „paris”, „carphone”, „hall_objects”, „salesman”, „claire”, „husky”, „sign_irene”, „coastguard”, „mad900”, „silent”, „container”, „miss_am”, „students”, „deadline”, „mother_daughter”, „suzie”, „foremna”, „mthr_dotr”, „trevor”.
55
Tabela 2.1. Warto�ci progowe dla SCD i EHD
Deskryptor minIntra maxIntra minInter
maxInter
SCD 21 533 280 1289
DCD 0 60559340 40157050 100709900
EHD 1,023587 12,08409 4,358877 25,10046
CLD 0 43,34742 22,568174 143,802948
Niestety, w trakcie analizy okazało si�, �e zmienno�� obrazu wewn�trz uj�cia bywa na
tyle du�a, �e poziom Intra jest stosunkowo wysoki. Jednak w przypadku klasyfikowania
dwóch klatek pochodz�cych z dwóch podobnych sobie uj�� poziom Inter mo�e zosta�
ustalony na stosunkowo niskim poziomie. W efekcie warto�� minInter mo�e czasami
(przykładowo dla badanej sekwencji wizyjnej jest to udział 0,068 ogółu przypadków dla SCD
i 0,351 ogółu przypadków dla EHD) by� ni�sza od warto�ci maxIntra (Rysunek 2.14). Jak
zatem wida�, dla ka�dego deskryptorów istnieje przedział warto�ci ( )maxmin , IntraInter , w
którym nie mo�na jednoznacznie zakwalifikowa� pary klatek do wspólnego uj�cia lub
rozł�cznych uj��.
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
SCD DCD EHD CLD
U�yty deskryptor MPEG-7
Znor
mal
izow
ana
„odl
egło�'
”
Intra Inter Near
Rysunek 2.14. Warto�ci �rednie, minimalne i maksymalne Intra, Inter i Near dla ró�nych deskryptorów
MPEG-7; z uwagi na du�e rozbie�no�ci (o kilka rz�dów wielko�ci) pomi�dzy poszczególnymi deskryptorami,
wykresy niezale�nie znormalizowano wzgl�dem warto�ci Intermax dla danego deskryptora
56
Rozwi�zaniem powy�szego problemu jest dwuetapowa SBD – bisekcyjno-
sekwencyjna. W pierwszym etapie dokonywana jest bisekcyjna SBD z u�yciem
deskryptorów, przy czym graniczna warto�� ( )maxmin , iid – taka, która rozró�nia klatki ze
wspólnego i z rozł�cznych uj�� – jest ustawiana tak, aby wykry� wszystkie zarówno
prawdziwe ci�cia, jak i te wykrywane wskutek nadwra�liwo�ci algorytmu.
Nast�pnie przeprowadzany jest proces, który sekwencyjnie sprawdza, czy znalezione
ci�cia s� rzeczywi�cie prawdziwymi ci�ciami. W tym celu wystarczy jedynie (dla danego
ci�cia) obliczy� ( )maxmin , iid , gdzie mini b�dzie ostatni� klatk� poprzedniego uj�cia, a maxi
pierwsz� klatk� nowego uj�cia. W wi�kszo�ci przypadków warto�� ( )maxmin , iid – gdzie mini
oraz maxi s� s�siednimi klatkami wewn�trz uj�cia (nazywana dalej warto�ci� maxNear ), jest
bardzo niewielka w porównaniu do ( )maxmin , iid – gdzie mini oraz maxi s� klatkami
granicznymi. Jednak w przypadku dwóch deskryptorów (DCD i EHD) zdarzaj� si�
sporadyczne przypadki, kiedy maxNear jest wi�ksza od warto�ci minInter . Wówczas albo
�wiadomie trzeba zaakceptowa� pewn� liczb� fałszywych alarmów, albo zrezygnowa� z
danego deskryptora b�d� wprowadzi� bardziej zaawansowan� metod� weryfikacji ci��, np.
podobn� do zaproponowanej w algorytmie sekwencyjnym, analizuj�c� dynamik� zmian
( )maxmin , iid .
Naturalne jest, �e wprowadzenie dwuetapowej SBD powoduje obni�enie szybko�ci
wykrywania. Dzieje si� tak z dwóch powodów:
1) zwi�kszenie czuło�ci wykrywania w fazie bisekcyjnej powoduje wykonanie pewnej
liczy operacji zmierzaj�cych do wykrycia SB, które w rzeczywisto�ci nie istniej�,
2) weryfikacja wykrytych SB w fazie sekwencyjnej niesie za sob� konieczno��
wykonania pewnych operacji dla ka�dej znalezionej SB fazy bisekcyjnej.
U�ycie dwóch deskryptorów
Cz��ciowym rozwi�zaniem problemu klasyfikowania klatek jest u�ycie w tym celu dwóch
deskryptorów MPEG-7. W artykule [11] zaproponowano u�ycie w metodzie sekwencyjnej
potrójnego kryterium klasyfikowania pary nast�puj�cych po sobie klatek jako SB – na
podstawie odpowiednio wysokiej ró�nicy mi�dzy histogramami kolorów i wykrytymi
kraw�dziami oraz jako wynik analizy strumienia MPEG-1. Ostatnie ze wspomnianych
kryteriów zaw��a SBD do sekwencji wizyjnych skompresowanych za pomoc� jednego tylko,
dosy� ju� przestarzałego standardu kompresji. Kombinacja dwóch pozostałych kryteriów
nadal stanowi pewne ulepszenie w stosunku do kryterium pojedynczego. Histogramy kolorów
57
i wykrywanie kraw�dzi mo�na równie� z powodzeniem realizowa� przy u�yciu deskryptorów
MPEG-7, odpowiednio SCD (nale��cego do grupy deskryptorów koloru) i EHD (nale��cego
do grupy deskryptorów tekstury).
Autor postanowił sprawdzi�, czy wspomniana metoda kombinacji kryteriów w
W przypadku standardu kompresji MPEG-1 autor stwierdził, �e dla osi�gni�cia
minimalnej akceptowanej jako�ci CR nie mo�e przekracza� 30 (około 2 Mbit/s dla CIF).
Kompresja sekwencji wizyjnych przeprowadzona w standardzie kompresji MPEG-4 pokazała,
�e w subiektywnym odczuciu dopiero dla CR rz�du 200 (300 kbit/s dla CIF) MOS spada
poni�ej 4,0. W przypadku kodeka Windows Media 8, w wyniku bada� autor ustalił, �e
absolutnie maksymalnym CR, dla którego jako�� obrazu jest akceptowalna jest warto�� 90
77
(670 kbit/s dla CIF). Kodek RealVideo 9, umo�liwia kompresj� z jako�ci� 0,4≥MOS dla
50≤CR (1,2 Mbit/s dla CIF).
2.4. Strumieniowanie
Jako�� procesu strumieniowania jest silnie uzale�niona od warunków panuj�cych w sieci,
czyli wrodzonej jako�ci usług. Niektóre efekty (ograniczona przepustowo��, o ile jest znana)
mo�na przewidzie� i zapobiega� ich skutkom stosuj�c odpowiedni� kompresj� sekwencji
wizyjnych. Jednak parametry takie jak opó�nienie i jego fluktuacje nie s� mo�liwe do
przewidzenia. W niniejszym podrozdziale autor przedstawia wyniki bada� nad wpływem
opó�nie� na postrzegan� jako�� usług, co pozwala prawidłowo konfigurowa� aplikacje
(przede wszystkim odbiornik) u�ywane w procesie strumieniowania. Zaprezentowane s� te�
wyniki porównawcze wydajno�ci pracy konkretnych rozwi�za� serwerów strumieniuj�cych.
Wpływ liczby strumieniowanych transmisji na obci��enie procesora serwera, zaj�to�� jego
pami�ci i obci��enie sieci s� miarami pozwalaj�cymi na porównanie rozwi�za� serwerów
strumieniuj�cych.
2.4.1. Wpływ opó)nie( w sieci na postrzegan� jako�' usług
Opó�nienia sieciowe s� istotnym parametrem wrodzonego poziomu usług wpływaj�cym na
warunki strumieniowania sekwencji wizyjnych. O ile w przypadku aplikacji VC
podstawowym problemem jest ju� samo opó�nienie sieciowe (gdy� wzrost jego warto�ci
powoduje wydłu�enie czasu reakcji rozmówcy), o tyle dla aplikacji typu DVL jedynie
fluktuacja opó�nienia mo�e powodowa� problemy. Samo opó�nienie powoduje wył�cznie
jednorazowe odsuni�cie w czasie momentu odtwarzania sekwencji wizyjnej na terminalu
u�ytkownika. Fluktuacja opó�nienia powoduje natomiast zmniejszanie si� lub zwi�kszanie
ilo�ci danych wizyjnych w buforach danych, co w granicznych przypadkach mo�e skutkowa�
nieci�gło�ci� odtwarzania sekwencji wizyjnej. Poni�ej autor przedstawił wpływ fluktuacji
opó�nienia na odbieran� przez u�ytkowników jako�� obrazu przesyłanych sekwencji
wizyjnych.
Badane �rodowisko
W celu okre�lenia wpływu fluktuacji na jako�� transmitowanego obrazu wideo, autor dokonał
pewnych zało�e� dotycz�cych �rodowiska, w jakim badany b�dzie ten wpływ. Najbardziej
popularne obecnie rozwi�zania strumieniuj�ce oparte s� na stosie protokołów RTSP/TCP/IP
78
(dla sterowania strumieniowaniem) oraz (UDP+RTP)/IP (dla samych danych). Sukces
protokołu RTSP w systemach strumieniowania wynika zarówno z jego dobrych parametrów
technicznych, jak i marketingowego wsparcia ze strony du�ych korporacji (Microsoft, Apple,
RealNetworks). Wobec tego autor zało�ył, �e wpływ fluktuacji rozwa�any b�dzie w takim
wła�nie �rodowisku. Przykładem konkretnego rozwi�zania jest tutaj u�yty w czasie testów
system: Helix (firmy RealNetworks) składaj�cy si� z serwera (nadajnika) Helix DNA Server
i klienta (odbiornika) RealPlayer. Autor zało�ył dodatkowo, �e wszelkie parametry
konfiguracyjne oprogramowania klienckiego zostan� pozostawione w nastawach domy�lnych,
gdy� zdecydowana wi�kszo�� u�ytkowników (nie widz�c ku temu potrzeby lub nie posiadaj�c
odpowiedniej wiedzy) nie zmienia standardowych parametrów. Przy takich wła�nie
standardowych ustawieniach odtwarzacz przed rozpocz�ciem odtwarzania zapełnia
30-sekundowy bufor danych, a przez cały czas odtwarzania na bie��co go uzupełnia.
Wydawałoby si� wi�c, �e nawet 30 sekund chwilowego opó�nienia w przesyle obrazu nie
spowoduje problemów z płynno�ci� jego odtwarzania. Je�li jednak od momentu wysłania z
serwera strumieniuj�cego pakietu do jego odebrania w odtwarzaczu minie wi�cej ni� 4
sekundy (czyli opó�nienie toru transmisyjnego wynosi ponad 4 sekundy), powoduje to
zał�czenie si� mechanizmów time-out11 i podj�cie przez system strumieniuj�cy odpowiednich
działa�12.
Zało�enia teoretyczne
Bior�c pod uwag� powy�sze zało�enia autor wysun�ł przypuszczenie, �e wpływ fluktuacji nie
b�dzie obserwowany, o ile całkowite, chwilowe opó�nienie toru transmisyjnego nie b�dzie
nigdy przekracza� 4 sekund. Autor postulował, �e dla opó�nie� (w tym fluktuacji)
mieszcz�cych si� w 4 sekundach nie b�dzie widocznych efektów w obrazie ruchomym
wy�wietlanym na ekranie komputera klienta systemu.
Praktyczne potwierdzenie zało�e�
W celu weryfikacji powy�szych zało�e� i w celu praktycznego zbadania wpływu fluktuacji na
postrzegan� jako�� usług strumieniowania wizyjnego, autor przeprowadził do�wiadczenie
11 W systemie strumieniowania Helix, oboj�tnie od wybranych protokołów transmisyjnych (poł�czeniowych lub bezpoł�czeniowych), ustanawiany jest kanał zwrotny o niewielkiej przepływno�ci (z odtwarzacza do serwera), przekazuj�cy do serwera informacje o odebranych przez odtwarzacz pakietach wideo. 12 Granica 4 sekund ma znaczenie w przypadku oczekiwania na pierwsze dane z serwera wideo. Brak ich w ci�gu 4 sekund jest sygnałem do zaprzestania transmisji przy u�yciu aktualnego protokołu transmisyjnego wraz z prób� u�ycia innego protokołu transmisyjnego. W tym przypadku u�ytkownik zaobserwuje niekorzystne efekty wizualne.
79
polegaj�ce na wpi�ciu w tor transmisyjny emulatora NEWUDPL 13 zaburze� pracy sieci.
Do�wiadczenie przeprowadzono zakłócaj�c strumieniow� transmisj� (UDP+RTP)/IP 14 ,
przebiegaj�c� z serwera wideo Helix DNS Server do klienta RealPlayer. Emulator pracował w
warstwie IV, zakłócaj�c (opó�niaj�c o zmienn� warto��) datagramy UDP przesyłane z
serwera do odtwarzacza. W celu dokonania pomiarów stworzono architektur� składaj�c� si� z
trzech komputerów (serwera, rutera z emulatorem, klienta), któr� przedstawiaj� Rysunek 2.28
i Rysunek 2.29.
Rysunek 2.28. Ogólna architektura stanowiska laboratoryjnego
Nale�y zwróci� uwag�, �e od klasycznej architektury dost�pu sieciowego do serwera
strumieniuj�cego ró�ni si� ona jedynie zainstalowanym w ruterze i wpi�tym w tor
transmisyjny emulatorem fluktuacji. Emulator odbierał na okre�lonym porcie datagramy z
serwera strumieniuj�cego, emulował ł�cze o przepływno�ci 10 Mbit/s, opó�niał pakiety o od
0 do maksymalnie kilkunastu sekund (przy buforze kolejki równym 16 KB), a nast�pnie
wysyłał do okre�lonego portu komputera-klienta.
13 NEWUDPL – Network Emulator With UDP Link (emulator sieci z ł�czem UDP). Jest to narz�dzie pozwalaj�ce sztucznie emulowa� rozmaite warunki przeł�czania pakietów UDP. Emulator odbiera pakiety UDP na okre�lonym porcie, a nast�pnie opó�nia je, niektóre usuwa, zniekształca ich zawarto��, zamienia kolejno�� wysyłania i emuluje sko�czon� przepływno�� ł�cza przez kolejkowanie pakietów. Emulator jest u�yteczny w testowaniu efektywno�ci sieci, protokołów lub kodeków. 14 System strumieniowania Helix umo�liwia strumieniowanie z przesyłaniem pojedynczym przy u�yciu stosów protokołów: RTSP/TCP/IP (sterowanie) i (UDP+RTP)/IP (dane), RTSP/TCP/IP (sterowanie) TCP/IP (dane) oraz HTTP/TCP/IP (sterowanie i dane). Autor dokonał pomiarów wył�cznie dla pierwszego przypadku. Poj�cie fluktuacji dla protokołu TCP/IP traci obecnie na znaczeniu, gdy� zdecydowana wi�kszo�� współcze�nie u�ywanych i rozwijanych systemów operacyjnych w istotnym stopniu „wygładza” zmienno�� opó�nie� pakietów TCP/IP.
80
IP
TCP UDP
NAT
Emulator TCP UDP
Serwer
IP IP
TCP UDP Odtwarzacz
Serwer Ruter Klient
149.156.114.195
149.156.114.195
149.156.114.195 149.156.114.227 192.168.1.1
192.168.1.24
192.168.1.24
192.168.1.24
7070 7070
554
149.156.114.227
192.168.1.1
192.168.1.1 149.156.114.227
Poł�czenie steruj�ce TCP
Strumie� wizyjny UDP
Sprz��enie zwrotne UDP
Rysunek 2.29. Szczegółowa architektura testu laboratoryjnego
Jak ju� wspomniano, konfiguracja klienta systemu (RealPlayer) została ustawiona w
pozycjach domy�lnych. Jedyn� zmian� było wymuszenie transmisji UDP na okre�lonych
portach. Nie wpływa to w �aden sposób na prac� systemu, lecz umo�liwia prac� emulatorowi
zaburze� pracy sieci, któremu mo�na na stałe przypisa� okre�lone porty UDP: odbiorcze i
nadawcze. Zwykle bowiem port UDP jest ustalany dynamicznie, a wi�c emulator musiałby
by� ka�dorazowo rekonfigurowany.
Wyniki
Przeprowadzona emulacja potwierdziła sygnalizowany we wst�pie brak wpływu fluktuacji na
wygl�d wy�wietlanego obrazu na komputerze klienta systemu. W przypadku wyst�powania
opó�nie� transmisyjnych ilo�� danych w buforze odtwarzacza zaczyna si� zmniejsza�, zawsze
jednak jest ich w nim kilkukrotnie wi�cej ni� wynosi warto�� niedoboru zwi�zanego z
chwilowym opó�nieniem transmisyjnym. W chwili gdy fluktuacja przyjmuje ni�sze warto�ci,
bufor ponownie jest zapełniany.
Warto zwróci� uwag�, �e w trakcie bada� okazało si�, �e niemo�liwe było rzetelne
zbadanie wpływu fluktuacji w sytuacjach, w których przyjmuje ona znaczne warto�ci, a
przesyłane strumienie charakteryzuj� si� wysok� przepływno�ci�. Zwi�zane to było z
ograniczonym rozmiarem bufora danych w emulatorze, wynosz�cym 16 KB. W przypadku
gdy emulator, emuluj�c wysok� warto�� fluktuacji, zaczynał przetrzymywa� w buforze dane
dla strumieni o wysokiej przepływno�ci, zdarzało si�, �e bufor si� przepełniał i cz���
pakietów była bezpowrotnie tracona, co oczywi�cie tym razem miało ju� bardzo wyra�ny
wpływ na jako�� obrazu. Jest to wina samego emulatora, która jednak w praktyce mo�e
znale�� odzwierciedlenie w rzeczywistych sytuacjach – przypadek, w którym po chwilowym
81
zwi�kszeniu si� opó�nienia, zaczyna si� ono zmniejsza�, czyli ruter jest „zalewany” liczb�
pakietów przekraczaj�c� mo�liwo�� ich obsługi i buforowania.
Warunek dla maksymalnej przepływno�ci strumienia (przy danych wielko�ciach
bufora i chwilowego opó�nienia) mo�na zapisa� wzorem w nast�puj�cej postaci:
[ ] [ ][ ]sD
KBbskbit
≤8
υ (2.20)
gdzie:
υ – przepływno��,
b – bufor,
D – opó�nienie.
82
Po podstawieniu odpowiednich warto�ci, mo�na doj�� do wniosku (potwierdzonego w
testach), �e graniczne przepływno�ci strumienia i chwilowego opó�nienia transmisyjnego
przy buforze o pojemno�ci 16 KB przedstawiaj� si� nast�puj�co (Tabela 2.5):
Tabela 2.5. Graniczne przepływno�ci strumieni dla danych granicznych opó�nie� chwilowych
Graniczna
przepływno��
strumienia
[kbit/s]
Graniczne
opó�nienie
chwilowe
[s]
12 10,667
16 8,000
26 4,923
28 4,571
32 4,000
56 2,286
64 2,000
128 1,000
150 0,853
256 0,500
384 0,333
512 0,250
768 0,167
Wi�kszo�� warto�ci w lewej kolumnie tabeli przedstawia najbardziej popularne
przepływno�ci strumieni u�ywane przy strumieniowaniu.
Przy okazji bada� autor zauwa�ył, �e w zwi�zku z tym, �e strumie� wizyjny nigdy nie
jest idealnie jednostajny, zachowanie �redniej przepływno�ci na granicy mo�liwo�ci bufora
mo�e spowodowa� okazjonalne gubienie pojedynczych pakietów podczas chwilowego
wzrostu przepływno�ci, wyst�puj�cego akurat w przypadku dopełniania si� bufora.
Fluktuacje przepływno�ci strumienia dobrze obrazuje poni�szy wykres, na którym
słupkami bł�dów zaznaczono minimalne i maksymalne warto�ci przepływno�ci strumienia
wizyjnego.
83
0
100
200
300
400
500
600
700
800
0 100 200 300 400 500 600 700 800
Przepustowo�' emulowanego kanału [kbit/s]
Prz
epły
wno
�' n
a w
yj�c
iu ru
tera
[kbi
t/s]
Rysunek 2.30. �rednia, minimalna i maksymalna przepływno�� strumienia na wyj�ciu rutera w funkcji
zało�onej przepustowo�ci emulowanego kanału
Wnioski
Przeprowadzone przez autora badania pokazuj� brak wpływu fluktuacji dla strumieniowej
transmisji wideo w systemie Helix, o ile warto�� chwilowego opó�nienia nie przekracza 4
sekund, a odtwarzacz posiada� b�dzie standardow� nastaw� wymuszaj�c� 30-sekundowy
bufor danych. W praktyce typowe opó�nienia dla ł�czy o przepływno�ciach, dla których
mo�liwe jest racjonalne strumieniowanie, wyst�puj�ce nawet w publicznych sieciach bez
�adnych gwarancji QoS, obserwowane s� zwykle na maksymalnym poziomie rz�du
dziesi�tnych cz��ci sekundy (pojedynczych setek milisekund). W praktyce Internetu wi�ksze
opó�nienie (i wi�ksza jego fluktuacja) zwykle towarzyszy mniejszym przepływno�ciom,
uniemo�liwiaj�cym strumieniowanie obrazu. Wobec powy�szego poziom fluktuacji, która
wraz z opó�nieniem stałym przekroczy 4 sekundy wydaje si� nierealny, a co za tym idzie – z
powodzeniem mo�na mówi� o braku realnego wpływu fluktuacji na jako�� obrazu wideo.
Autor przewiduje, �e podobne efekty uzyskałoby si� przy próbach z u�yciem innych
popularnych systemów strumieniowania, takich jak Windows Media czy QuickTime, gdy� i
one posiadaj� (co najmniej kilkusekundowe) bufory danych.
84
2.4.2. Porównanie serwerów strumieniuj�cych
Ostatnim z zada� badawczych zwi�zanych ze strumieniowaniem sekwencji wizyjnych było
porównanie wydajno�ci serwerów strumieniuj�cych. Pod tym poj�ciem autor rozumie:
• wpływ liczby strumieniowanych transmisji na obci��enie procesora serwera,
• wpływ liczby strumieniowanych transmisji na zaj�to�� pami�ci serwera,
• wpływ liczby strumieniowanych transmisji na obci��enie sieci.
W celu przeprowadzenia bada�, czyli dokonania maksymalnie wiarygodnego
porównania, autor wyselekcjonował trzy rozwi�zania (pakiety programowe) pozwalaj�ce
na strumieniowanie sekwencji wizyjnych:
1. RealNetworks HelixTM Universal Server 9.0.2.766 – firmy RealNetworks – dalej
oznaczany jako HUS – umo�liwia strumieniowanie ró�nych formatów, cho�
ukierunkowany jest przede wszystkim na firmowy standard RealMedia,
2. Darwin Streaming Server 4.1.3 – firmy Apple – dalej oznaczany jako DSS–
umo�liwia strumieniowanie ró�nych formatów, cho� ukierunkowany jest przede
wszystkim na firmowy standard QuickTime,
3. Windows Media Services 9 – firmy Microsoft – dalej oznaczany jako WMS–
umo�liwia strumieniowanie ró�nych formatów, cho� ukierunkowany jest przede
wszystkim na firmowy standard Windows Media,
Wszystkie z wymienionych rozwi�za� mog� by� zainstalowane i uruchomione na
platformie: Intel Pentium/Microsoft Windows, na której przeprowadzone zostały badania15.
Komputer posiadał procesor Pentium-III 800 MHz. WMS jest dost�pny wył�cznie w wersji
dla systemu operacyjnego Microsoft Windows Server 2003 Enterprise Edition, a zatem pod
kontrol� tego systemu operacyjnego był uruchamiany. DSS nie pracuje w �rodowisku
Windows Server 2003, w zwi�zku z czym na komputerze zainstalowano drugi system
operacyjny: Microsoft Windows 2000 Professional, i pod jego kontrol� uruchamiano DSS.
HUS pracował w obu systemach operacyjnych – testy wykonano dla systemu Windows
Server 2003. Komputer strumieniuj�cy wyposa�ony był w interfejs ETHERNET o
przepływno�ci 100 Mbit/s. Komputery klienckie posiadały interfejsy sieciowe o takich
samych parametrach, cało�� poł�czona została przy u�yciu sieci przeł�czanej, co
minimalizuje wpływ innych urz�dze� wpi�tych do tego samego segmentu sieci. W trakcie
bada�, w komputerze strumieniuj�cym ograniczono do niezb�dnego minimum wszelk� inn�
aktywno�� sieciow� oraz wszelkie procesy pracuj�ce w tle.
15 Wersje instalacyjne dla innych platform sprz�towych i programowych te� s� dost�pne.
85
Nast�pnym krokiem było przygotowanie materiału testowego. W tym celu
przygotowano w postaci cyfrowej około 90-minutowy zapis sekwencji wizyjnej, który
kompresowano i zapisano za pomoc� nast�puj�cych kodeków i formatów zapisu:
• Kodek: MPEG-1, format: MPEG-1
• Kodek: MPEG-4, format: MPEG-4
• Kodek: Windows Media 9, format: Windows Media Video
• Kodek: RealVideo 9, format: RealMedia
• Kodek: MPEG-1, format: QuickTime
• Kodek: Sorenson Video 3, format: QuickTime
Niestety, nie istnieje uniwersalny kodek i format zapisu sekwencji wizyjnych, który
mógłby by� strumieniowany przez wszystkie trzy rozwi�zania serwera wideo. Nawet tak
dobrze znany kodek i format jak standard MPEG-1, bezpo�rednio obsługiwany jest jedynie
przez Helix Universal Server (po dodaniu do niego odpowiednich znaczników QuickTime,
strumieniowa� go mo�e te� Darwin Streaming Server). Troch� lepiej sytuacja przedstawia si�
w przypadku kodeka i formatu standardu MPEG-4 – tutaj oba wspomniane wy�ej serwery
bezpo�rednio go obsługuj�. Najwi�cej ogranicze� wyst�puje w przypadku rozwi�zania firmy
Microsoft, które obsługuje wył�cznie własn� rodzin� kodeków i formatów Windows Media
(sk�din�d jednak, bardzo efektywnych w kompresji).
Testow� sekwencj� wizyjn� kompresowano ustawiaj�c parametry kodeka na strumie�
wyj�ciowy o przepływno�ci 1 Mbit/s. W trakcie badania podł�czano kolejno nowych klientów
do serwera strumieniuj�cego, przesyłaj�c do nich strumienie z u�yciem stosów protokołów
RTSP/TCP/IP (sterowanie) i (UDP+RTP)/IP (dane). Dodatkowo, w przypadku serwera
Windows Media Services przeprowadzono badanie dla stosu protokołów MMS/TCP/IP
(sterowanie) i (UDP+RTP)/IP (dane), gdy� rozwi�zanie to posiada tak� opcj�.
Obci��enie procesora
Autor badał obci��enie procesora w dwojaki sposób: jako udział zada� wywołanych przez
serwer strumieniuj�cy w ogólnym czasie procesora oraz jako ogólne obci��enie czasu
procesora wszystkimi uruchomionymi w systemie zadaniami. Pierwsze badanie pokazuje
bezpo�redni wpływ pracy serwera strumieniuj�cego na obci��enie komputera. Drugie badanie
miało na celu zbadanie tak�e po�redniego wpływu innych czynników na obci��enie
komputera.
86
Obci��enie zadaniami serwera strumieniuj�cego
Rysunek 2.31 przedstawia wykres obrazuj�cy wzrost obci��enia komputera procesami
sprawiaj�c� wra�enie przypadkowej. Wi�kszo�� z tych uszeregowa� była wynikiem oceny
jednego lekarza, co mo�e po prostu �wiadczy� o niedbało�ci jego oceny. Autor odrzucił te
wyniki. Wyniki pomiarów (CR i uszeregowania) zamieszczono w Dodatku (Tabela I).
Autor zdaje sobie spraw� z faktu, �e wyznaczona w ten sposób warto�� maxCR mo�e
by� zawsze podwa�ona jako zbyt optymistyczna, gdy� dla innego przypadku medycznego
mogłoby by� konieczne ustalenie bardziej restrykcyjnego maxCR . Autor postanowił zatem
bardzo ostro�nie i zdroworozs�dkowo wyznacza� warto�ci maxCR , raczej zaostrzaj�c kryteria.
Poniewa� autor pragn�ł wyznaczy� uniwersalny maxCR akceptowalny przez lekarza,
konieczne było zało�enie najgorszego mo�liwego przypadku (danych o najwi�kszej
wra�liwo�ci na kompresj�). Dlatego autor do dalszych bada� przyj�ł, �e jako�ci� graniczn�
jest jako�� odpowiadaj�ca kompresji w standardzie MPEG-4 [46] z CR równym 93.
Etap 2 – obiektywna ocena kodeka MPEG-4
Po przeprowadzeniu pewnej liczby testów oceny subiektywnej, wykonanej przez lekarzy,
autor wykonał testy obiektywne korzystaj�c z OMW [117] i miary Hosaki [40] (u�rednionych
po wszystkich klatkach analizowanej sekwencji). Konfrontuj�c wyniki testów subiektywnych
i obiektywnych wyznaczył maksymalne warto�ci współczynników OMW i miary Hosaki,
powy�ej których obraz nie jest ju� obrazem o jako�ci nierozró�nialnej przez lekarza od
oryginału.
16 W zało�eniu CR miały by� jednakowe dla wszystkich sekwencji wizyjnych. W praktyce w procesie kompresji trudno jest uzyska� dokładnie zamierzony jej CR.
104
Jako wynik testów autor otrzymał warto�ci stopnia zniekształce� kompresowanych
obrazów (w stosunku do obrazu oryginalnego). Dla OMW był to wektor OMW o
współczynnikach: 1W , 2W , 3W , 4W , 5W i 6W . Dla miary Hosaki było to pole pod wykresem
Hosaki HP .
Etap 3 – obiektywna ocena innych kodeków
Korzystaj�c ze wspomnianego wcze�niej zało�enia o uniwersalno�ci OMW i miary Hosaki,
autor wybrał kilka najbardziej popularnych, nowoczesnych kodeków sygnałów wizyjnych, w
tym równie� takie kodeki, które prócz kompresji stratnej, posiadaj� mo�liwo�� dokonywania
kompresji bezstratnej. Przykładami takich kodeków s�: H.264 i MJPEG2000. Prócz kodeków
o otwartym algorytmie kompresji/dekompresji autor przeprowadził badania dla
niestandaryzowanych kodeków komercyjnych (Windows Media 9, RealVideo 10).
Posiadaj�c ustalone maksymalne warto�ci współczynników OMW i miary Hosaki,
autor powtórzył badania dla wybranych kodeków korzystaj�c ju� ze zdecydowanie prostszych
organizacyjnie testów obiektywnych opartych na OMW i mierze Hosaki.
Dla obiektywnej, uniwersalnej (niezale�nej od rodzaju danych medycznych) oceny
wybranych kodeków autor przyj�ł nast�puj�c� metod� okre�lenia, czy dana kompresowana
sekwencja wizyjna spełnia wymagania nierozró�nialno�ci od oryginału. Za tak� autor uwa�a
sekwencj� wizyjn�, dla której u�redniona po wszystkich klatkach sekwencji wizyjnej warto��
ka�dego z sze�ciu współczynników wektora nie przekracza odpowiadaj�cych im
warto�ci maksymalnych. W ten sposób postawiony warunek zaostrza kryteria pozwalaj�ce
uzna� dan� sekwencj� wizyjn� jako nierozró�nialn� od oryginału pod wzgl�dem
jako�ciowym.
Tabela 3.1 i Tabela 3.2 przedstawiaj� wyniki tych bada�. W tabelach czcionk�
pogrubion� oznaczono wyniki spełniaj�ce warunek nierozró�nialno�ci sekwencji
rekonstruowanej od sekwencji oryginalnej.
105
Tabela 3.1. Wyznaczony stopie� pogorszenia si� obrazu według OMW dla poszczególnych CR i ró�nych
kodeków
Kodek CR 1W 2W 3W 4W 5W 6W
MPEG-4 ~96 10,89 291 7,29 5,19 9,05 47,59
MJPEG 2000 Lossless ~2 0,00 0 0,00 0,00 0,00 0,00
MJPEG 2000 ~21 0,36 49 5,32 2,28 0,01 0,11
MPEG-2 ~96 8,46 1019 3,08 5,01 27,89 23,59
H.263+ ~96 1,90 158 8,41 3,98 0,34 1,09
H.264 Lossless ~7 0,00 0 0,00 0,00 0,00 0,00
~96 1,75 103 7,22 5,02 0,26 0,89
~100 1,76 104 7,26 4,63 0,26 0,90
~104 1,77 106 7,33 4,32 0,27 0,93
~112 1,79 111 7,43 3,66 0,27 0,95
H.264
~128 1,83 120 7,61 3,27 0,29 0,99
Windows Media 9 ~96 1,09 131 7,69 5,24 0,09 0,45
RealVideo 10 ~96 10,36 755 6,58 4,56 10,04 26,01
Oczywi�cie najpro�ciej jest porówna� bezstratne standardy kompresji. Z definicji nie
wprowadzaj� one �adnych zniekształce� w kompresowanych sekwencjach wizyjnych,
jedynym kryterium porównawczym jest zatem CR , które zwykle osi�ga bardzo niskie
warto�ci. Zdecydowanie najlepsze rezultaty w�ród tej grupy standardów osi�ga standard
H.264 Lossless ( 7=CR ).
Jedynym testowanym standardem kompresji, który nie stosuje kompresji
mi�dzyklatkowej, był standard MJPEG 2000. W wersji bezstratnej kompresja jest mo�liwa
tylko z niskim 2=CR , jednak w wersji stratnej mo�na osi�gn�� 21=CR przy zachowaniu
warunku nierozró�nialno�ci od oryginału. Wci�� jednak jest to niski CR w porównaniu do
osi�gni�tego przy nierozró�nialnej od oryginału kompresji w standardzie MPEG-4 ( 93=CR ,
czyli 96≈CR ).
W�ród standardów kompresji trzeciej generacji przetestowane zostały MPEG-2 i
H.263+. Kompresja w standardzie MPEG-2 z 96≈CR pozwoliła uzyska� stosunkowo niskie
ilo�ci bł�dów z wyj�tkiem maksymalnych bł�dów w punkcie – 2W i normalizowanej energii
bł�du z wa�eniem cz�stotliwo�ciowym – 5W . Kompresja w standardzie H.263+ z
96≈CR pozwoliła osi�gn�� podobne rezultaty jak MPEG-4, z wyj�tkiem bł�dów
skorelowanych w oknie 5×5, dosy� du�ych dla H.263+.
106
Mo�liwo�� osi�gni�cia wy�szych CR przy zachowaniu warunku nierozró�nialno�ci
od oryginału mogłyby zapewni� wył�cznie kodeki najnowszej, czwartej generacji (H.264,
WM9). Dla standardu kompresji H.264 rzeczywi�cie jest mo�liwa kompresja z 100≈CR
przy jednoczesnym utrzymaniu wszystkich współczynników OMW poni�ej warto�ci
krytycznych. Niestety, dla kodeka Windows Media 9, kompresja ju� przy 96≈CR powoduje
przekroczenie warto�ci krytycznych przez współczynniki 3W i 4W .
Dodatkow� trudno�ci�, jak� niesie u�ycie metod oceny jako�ci obrazów nieruchomych
w przypadku sekwencji wizyjnych jest brak uwzgl�dniania przez te metody aspektów
płynno�ci ruchu obiektów. Problem ten uwidocznił si� szczególnie w przypadku próby oceny
kodeka RealVideo 10. Kodek ten, w odró�nieniu od pozostałych testowanych kodeków, nie
stosuje stałej liczby klatek na sekund� (FPS, ang. Frames Per Second) przy kompresji
sekwencji wizyjnych. W zale�no�ci od aktywno�ci ruchowej obiektów FPS fluktuuje. W
zwi�zku z powy�szym nie ma bezpo�redniego, jednoznacznego odwzorowania klatek
sekwencji oryginalnej i rekonstruowanej. Przy porównywaniu ich autor musiał dokonywa�
interpolacji.
Analiza wyników otrzymanych za pomoc� OMW przyniosła zaskakuj�c� obserwacj�.
Przy wzro�cie CR wzrost współczynnika 4W nie zawsze jest monotoniczny. Autor tłumaczy
to jako efekt u�redniania współczynników po wszystkich klatkach analizowanej sekwencji
wizyjnej. O ile bowiem wzrost 4W spowodowany wzrostem CR jest obserwowany dla
obrazów nieruchomych (do oceny których stworzono OMW), o tyle spadek jako�ci ró�nych
klatek kompresowanej sekwencji wizyjnej mo�e post�powa� z ró�n� szybko�ci�.
107
Tabela 3.2. Wyznaczony stopie� pogorszenia si� obrazu według miary Hosaki dla poszczególnych CR i ró�nych
kodeków
Kodek CR HP
MPEG-4 ~96 8,18
MJPEG 2000 Lossless ~2 0,00
MJPEG 2000 ~21 0,08
MPEG-2 ~96 16,30
~96 0,21
~128 0,37 H.263+
~256 2,57
H.264 Lossless ~7 0,00
~96 0,08
~128 0,10
~256 0,24 H.264
~512 0,26
~96 0,14
~128 0,31
~256 0,72 Windows Media 9
~512 5,95
RealVideo 10 ~96 15,65
Porównanie kodeków przez zastosowanie miary Hosaki przyniosło zaskakuj�ce
rezultaty. Opieraj�c si� na nich mo�na by doj�� do wniosku, �e dla niektórych kodeków
kompresja z nawet bardzo wysokim CR umo�liwia uzyskiwanie sekwencji wizyjnych, które
po rekonstrukcji spełniaj� wymogi nierozró�nialno�ci od oryginału. Jednak subiektywna,
wizualna analiza tych sekwencji dokonana przez autora przeczy wynikom otrzymanym za
pomoc� miary Hosaki, co stawia pod znakiem zapytania mo�liwo�� jej zastosowania w takich
warunkach pracy.
3.3. Wnioski z bada� MDVL
W niniejszym podrozdziale autor przedstawia wnioski, jakie wyci�gn�ł po zako�czeniu bada�
wybranych podsystemów MDVL.
Autor pokazał, �e u�ycie metody bisekcyjnej dla danych medycznych umo�liwia
przeprowadzanie bardzo szybkiego procesu SBD. Korzy�ci z zastosowania bisekcyjnej SBD
s� znacznie wyra�niejsze dla danych medycznych (MDVL) ni� dla danych rozrywkowych
(DVL). Podobnie jak w przypadku DVL, tak i w MDVL dodatkowo metoda bisekcyjna mo�e
108
zosta� przyspieszona dzi�ki ponownemu u�ywaniu raz ju� analizowanych klatek sekwencji
wizyjnej.
Z bada� podsystemu kompresji MDVL mo�na wyci�gn�� kilka wniosków. Autor
stwierdził, �e dla danych obrazowania procedur bronchoskopowych mo�liwe jest stosowanie
standardu trzeciej generacji MPEG-4 przy kompresji sekwencji wizyjnych wspieraj�cych
procesy diagnostyczne o ile 96≈CR lub jest ni�sze. Pozostałe standardy kompresji trzeciej
generacji nie dawały satysfakcjonuj�cych rezultatów. Autor potwierdził, �e u�ycie kodeków
starszych generacji oraz kodeków bezstratnych równie� nie umo�liwia kompresji z jako�ci�
diagnostyczn� i równoczesnego osi�gni�cia 96≈CR . Mo�liwo�� osi�gni�cia wy�szych CR
satysfakcjonuj�c� szybko�� działania oraz diagnostyczn� jako�� obrazu.”
została udowodniona.
4.2. Mo�liwo�ci dalszego rozwoju
Autor zamierza prowadzi� dalsze badania w zakresie wszystkich czterech podsystemów DVL
rozwa�anych w rozprawie.
W zakresie podsystemu streszczania autor przewiduje badania głównie w dziedzinie
SBD, jak równie� dalszy rozwój stworzonego przez siebie algorytmu bisekcyjnej SBD.
Główny nacisk zostanie poło�ony na stworzenie maksymalnie wiarygodnych mechanizmów
klasyfikuj�cych pary klatek do uj��. Autor zamierza równie� przeprowadzi� badania
pozwalaj�ce wyeliminowa� jedn� z istotnych wad metody bisekcyjnej – absolutnej
konieczno�ci zapewnienia niepowtarzalno�ci cech charakterystycznych w jednej sekwencji
wizyjnej. Nale�y zauwa�y�, �e niespełnienie tego warunku mo�e powodowa� (cho� nie
zawsze) pomijanie niektórych uj��. Mo�liwym rozwi�zaniem problemu jest wymuszenie
braku klasyfikowania dwóch klatek jako nale��cych do tego samego uj�cia, je�li przedział
czasu jaki je dzieli znacznie przekracza wyznaczone empirycznie maksymalne znane długo�ci
uj�� (zwykle rz�du kilku sekund; autor nie natrafił na publikacje dotycz�ce analizy długo�ci
uj��, cho� prowadzone s� w tej dziedzinie badania). Przy znajomo�ci struktury formatu w
jakim zapisana jest sekwencja wizyjna, metod� bisekcyjn� mo�na tak�e dodatkowo
przyspieszy� preferuj�c do dekompresji klatki kluczowe. Autor zamierza równie�
przeprowadzi� dokładniejsze badania nad wpływem ilo�ci analizowanych pikseli na trafno��
SBD. Z uwagi bowiem na konieczno�� wykonania wielu powtórze� algorytmu SBD,
dotychczas przeprowadzone badania zostały wykonane dla AD, czyli najprostszej (a zarazem
najszybszej) miary wykrywaj�cej zmiany obrazu. Dlatego te� wyniki nawet przy analizie
wszystkich pikseli nie s� najwy�sze. Mo�na jedynie przypuszcza�, �e dla innych, bardziej
wydajnych metod SBD, wyniki b�d� podobne.
W ramach projektu OASIS Archive [112], autor wraz ze współpracownikami zamierza
rozwin�� metody indeksowania DVL. B�d� to przede wszystkim metody korzystaj�ce z
111
algorytmów rozpoznawania mowy. W tym celu b�d� u�yte istniej�ce implementacje,
planowane s� równie� implementacje autorskie oparte na standardzie MPEG-7. Autor
przewiduje te� prowadzenie bada� nad mo�liwo�ci� indeksowania tre�ci DVL za pomoc�
algorytmów klasyfikowania i podobie�stwa d�wi�ków (znów opieraj�c si� na standardzie
MPEG-7) oraz rozpoznawania mówców.
W dziedzinie kompresji autor zamierza skorzysta� z wyników swoich bada� przy
rozbudowie aplikacji MDVL. Szczególny nacisk zostanie poło�ony na mo�liwo�ci
transkodowania sekwencji wizyjnych zapisanych zgodnie ze standardem DICOM na inne
standardy kompresji. Autor chciałby równie� kontynuowa� badania nad okre�laniem
sposobów kodowania sekwencji wizyjnych, nie wprowadzaj�cych bł�dów
uniemo�liwiaj�cych u�ycie sekwencji w procesach diagnostycznych. Autor jest bowiem
�wiadomy, �e porównanie jako�ci sekwencji kompresowanych ró�nymi kodekami okazało si�
bardzo trudnym zadaniem, gdy� ró�ne kodeki wprowadzaj� ró�ne typy zniekształce�. Na
pytanie, czy zwi�kszenie si� ilo�ci jednej grupy bł�dów jest rekompensowane przez
zmniejszenie si� ilo�ci pozostałych dwóch grup bł�dów, autor chce odpowiedzie� przez
u�ycie miary OMW, ponown� weryfikacj� kodeków metodami subiektywnymi oraz
przydzielenie wag ( 1α , …, 6α ) współczynnikom wektora OMW ( 1W , …, 6W ) w taki sposób,
aby maksymalnie zwi�kszy� korelacj� skalarnego ekwiwalentu OMW ze �rednimi
warto�ciami ocen subiektywnych. Dokładniejsza korelacja mo�e ju� najprawdopodobniej
odbywa� si� z uwzgl�dnieniem jednego tylko, konkretnego typu obrazowanych danych
medycznych. Dodatkowo, autor chciałby zbada� mo�liwo�ci u�ycia deskryptorów MPEG-7
do oceny ró�nego typu zniekształce� wprowadzanych w procesie kompresji.
Autor zamierza te� skupi� swoje zainteresowanie na dziedzinie strumieniowania w
rozproszonym �rodowisku serwerów strumieniuj�cych. Te badania b�d� prowadzone w
ramach projektu OASIS Archive.
112
LITERATURA
[1] Adami D., Marchese M., Ronga L. S.: „TCP/IP-Based Multimedia Applications and Services over Satellite Links: Experience from an ASI/CNIT Project”, IEEE Personal Communications, 2001, vol. 8, no.3, s. 20-27.
[2] Adjeroh D. A., Lee M. C.: „Scene-Adaptive Transform Domain Video Partitioning”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 58-69.
[3] Aghabari Z., Kaneko K., Makinouchi A.: „Content-Trajectory Approach for Searching Video Databases”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 4, s. 516-531.
[4] Ashbrook A. P., Rockett P. I., Thacker N. A.: „Multiple Shape Recognition using Pairwise Geometric Histogram Based Algorithms”, Proc. IEEE Image Processing, Edynburg, Wielka Brytania, 1995.
[5] Ashbrook A. P., Thacker N. A., Rockett P. I., Brown C. I.: „Robust Recognition of Scaled Shapes Using Pairwise Geometric Histograms”, Proc. BMVC’1995, Birmingham, Wielka Brytania, 1995, s. 503-512.
[6] Ashbrook A. P., Thacker N. A., Rockett P. I.: „Scaling Properties of Pairwise Geometric Histograms”, Proc. for SCIA’1995, Uppsala, Szwecja, 1995, s. 271.
[7] Benini S., Xu L. Q., Leonardi R.: „Using Lateral Ranking for Motion-Based Video Shot Retrieval and Dynamic Content Characterisation”, Proc. Fourth International Workshop on Content-Based Multimedia Indexing CBMI’2005, 2005, Ryga, Łotwa.
[8] Boavida F., Monteiro E., Orvalho J.: Protocols and Systems for Interactive Distributed Multimedia. Springer-Verlag, Berlin 2002.
[9] Brown C. I., Thacker N. A., Yates R. B.: „A VLSI Architecture for Wavelet Transforms”, Proc. IEEE Image Processing, Edynburg, Wielka Brytania, 1995.
[10] Brown W., Srinivasan S., Coden A., Ponceleon D., Cooper J. W., Amir A.: „Toward speech as a knowledge resource”, IBM Systems Journal, 2001, vol. 40, no. 4, s. 985-1001.
[11] Browne P., Smeaton A. F., Murphy N., O’Connor N., Marlow S., Berrut C.: „Evaluating and Combining Digital Video Shot Boundary Detection Algorithms”, Proc. of the Fourth Irish Machine Vision and Information Processing Conference, Belfast, Irlandia Północna, 2000.
[12] Buchowicz A., Ignasiak K.: „System wyszukiwania danych multimedialnych w architekturze J2EE”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004.
[13] Chao H. J., Guo X.: Quality of Service Control in High-Speed Networks, John Wiley & Sons, Chichester 2001.
113
[14] Chelba C.: „Portability of syntactic structure for language modeling”, Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing ICASSP’2001, Salt Lake City, USA, 2001, vol. 1.
[15] Cuggia M., Mougin F., Le Beux P.: „Indexing method of digital audiovisual medical resources with semantic Web integration”, International Journal of Medical Informatics, 2005, 74, s. 169-177.
[16] Dafonte C., Gómez A., Castro A., Arcay B.: „A proposal for Improving ICU assistance through Intelligent Monitoring and Supervision”, ACM Technology and Health Care, 2002, vol. 10, no. 6, s. 464-466.
[17] Dimitrova N., Zhang H. J., Shahraray B., Sezan I., Huang T., Zakhor A.: „Applications of Video-Content Analysis and Retrieval”, IEEE Multimedia, 2002, vol. 9, no. 3, s. 42-55.
[18] Doma�ski M., Bartkowiak M.: „Multimedia – przełom technologiczny”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2005, Kraków, 2005, s. 209-215.
[19] Duplaga M., Juszkiewicz K., Leszczuk M., Marek M., Papir Z.: „Design of Medical Digital Video Library”, Proc. Fourth International Workshop on Content-Based Multimedia Indexing CBMI’2005, 2005, Ryga, Łotwa.
[20] Eskicioglu A. M., Fisher P. S.: „Image Quality Measures and Their Performance”, IEEE Transactions on Communications, 1995, vol. 43, no. 12, s. 2959-2965.
[21] Eskicioglu A. M.: „Quality Measurement for Monochrome Compressed Images in the Past 25 Years”, Proc. of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) Conference, vol. 4, Istambuł, Turcja, 2000, s.1907-1910.
[22] eTesting Labs: „Microsoft: Video Quality Comparison Study”, Test report prepared under contract from Microsoft Corporation, 2001.
[23] Evans A. C., Thacker N. A., Mayhew J. E. W.: „The Use of Geometric Histograms for Model Based Object Recognition”, Proc. 4th BMVC, Guildford, Wielka Brytania, 1993, s. 429-438.
[24] Fan J., Elmagarmid A. K., Zhu X., Aref W. G., Wu L.: „ClassView: Hierarchical Video Shot Classification, Indexing, and Accessing”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 70-86.
[25] Farag W. E., Abdel-Wahab H.: „ A new paradigm for analysis of MPEG compressed videos”, Journal of Network and Computer Applications, 2002, vol. 5, no. 2, s. 109-127.
[26] Frost V. S.: „Quantifying the Temporal Characteristics of Networks Congestion Events for Multimedia Services”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 458-465.
[27] Fung K. T., Chan Y. L., Siu W. C.: „Low-Complexity and High-Quality Frame Skipping Transcoder for Continuous Presence Multipoint Video Conferencing”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 31-46.
[28] Gali�ski G., Skarbek W.: „Struktura indeksu w multimedialnych systemach wyszukiwawczych”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004.
114
[29] Gandsas A., McIntire K., Palli G., Park A.: „Live streaming video for medical education: a laboratory model”, J. Laparoendosc. Adv. Surg. Tech. A., 2002, vol. 12, no. 5, s. 377-382.
[30] Ghinea G., Thomas J. P.: „Quality of Perception: User Quality of Service in Multimedia Presentations”, IEEE Transactions on Multimedia, 2005, vol. 7, no. 4, s. 786-789.
[31] Gisondi M. A., Mahadevan S. V., Sovndal S. S., Gilbert G. H.: „19 Emergency Department Orientation Utilizing Web-based Streaming Video”, Academic Emergency Medicine, 2003, vol. 10, no. 8, s. 920.
[32] Gorin A. L., Alonso T., Riccardi G., Wright J. H.: „Automated Natural Spoken Dialog”, IEEE Computer, 2002, vol. 35, no. 4, s. 51-56.
[33] Green S. M., Voegeli D., Harrison M., Phillips J., Knowles J., Weaver M., Shephard K.: „Evaluating the use of streaming video to support student learning in a first-year life sciences course for student nurses”, Nurse Education Today, 2003, vol. 23, s. 255-261.
[34] Greene P. S.: „Streaming Video for the Annals Internet Readers”, Ann. Thorac. Surg., 1998, vol. 65, s. 1188-1189.
[35] Hamilton N. M., Frade I., Duguid P., Furnace J., Kindley A. D.: „Digital video for networked CAL delivery”, J. Audiovisual Media in Medicine, 1995, vol. 18, no. 2, s. 59-63.
[36] Hanjali� A.: Content-based Analysis of Digital Video. Kluwer Academic Publishers, Boston 2004.
[37] Ho W. K. H., Cheuk W. K., Lun D. P. K.: „Content-Based Scalable H.263 Video Coding for Road Traffic Monitoring”, IEEE Transactions on Multimedia, 2005, vol. 7, no. 4, s. 615-623.
[38] Hong D. P., Albuquerque C., Oliveira C., Suda T.: „Evaluating the Impact of Emerging Streaming Media Applications on TCP/IP Performance”, IEEE Communications Magazine, 2001, vol. 39, no. 4, s. 76-82.
[39] Hori C., Furui S.: „A New Approach to Automatic Speech Summarization”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 368-378.
[40] Hosaka K.: „A new picture quality evaluation method”, Proc. International Picture Coding Symposium, Tokio, Japonia, 1986, s. 17-18.
[41] Hunter J., Witana V., Antoniades M.: „A Review of Video Streaming Over Internet”, DSTC Technical Report TR97-10, 1997.
[42] IEC Standard 61834: Recording – Helical-scan digital video cassette recording system using 6.35 mm magnetic tape for consumer use (525-60, 625-50, 1125-60 and 1250-50 systems), 2001.
[43] ISO Standard IS 11172-2: Information technology – Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s – Part 2: Video, 11/2003.
[44] ISO Standard IS 13818-2: Information technology – Generic coding of moving pictures and associated audio information: Video, 04/2002.
115
[45] ISO Standard IS 14496-10: Information technology – Coding of audio-visual objects – Part 10: Advanced Video Coding, 09/2004.
[46] ISO Standard IS 14496-2: Information technology – Coding of audio-visual objects – Part 2: Visual, 06/2004.
[47] ISO/IEC Standard IS 10918-1: Information technology – Digital compression and coding of continuous-tone still images: Requirements and guidelines, 03/2005.
[48] ISO/IEC Standard IS 15444-3: Information technology – JPEG 2000 image coding system – Part 3: Motion JPEG 2000, 12/2003.
[49] ISO/IEC Standard TR 15938: Information technology – Multimedia content description interface, 06/2005.
[50] ITU-R Recommendation BT.1129: Subjective assessment of standard definition digital television (SDTV) systems, 02/1998.
[51] ITU-R Recommendation BT.1210: Test materials to be used in subjective assessment, 02/2004.
[52] ITU-R Recommendation BT.500: Methodology for the Subjective Assessment of the Quality of Television Pictures, 06/2002.
[53] ITU-R Recommendation H.120: Codecs for videoconferencing using primary digital group transmission, 03/1993.
[54] ITU-R Recommendation H.261: Video codec for audiovisual services at p × 64 kbit/s, 03/1993.
[55] ITU-R Recommendation H.262: Information technology – Generic coding of moving pictures and associated audio information: Video, 04/2002.
[56] ITU-R Recommendation H.263: Video coding for low bit rate communication, 01/2005.
[57] ITU-R Recommendation H.264: Advanced video coding for generic audiovisual services, 03/2005.
[58] ITU-R Recommendation J.80: Transmission of component-coded digital television signals for contribution-quality applications at bit rates near 140 Mbit/s, 09/1993.
[59] ITU-R Recommendation J.81: Transmission of component-coded digital television signals for contribution-quality applications at the third hierarchical level of ITU-T Recommendation G.702, 03/1998.
[60] ITU-R Recommendation T.81: Information technology – Digital compression and coding of continuous-tone still images – Requirements and guidelines, 09/1992.
[61] ITU-T Recommendation P.830: Subjective performance assessment of telephone-band and wideband digital codecs, 02/1996.
[62] ITU-T Recommendation P.VQ: Two criteria for video test scene selection, 12/1994.
[63] Jeffay K., Hang H. J.: Readings in Multimedia Computing and Networking. Morgan Kaufmann Publishers, San Francisco 2002.
[64] Joshi M. A., Khambete M. B.: „Adaptive vector quantization based on quality criterion using Hosaka plot”, Proc. IEEE TENCON’1999, Cheju, Korea, 1999, s. 754-756.
116
[65] Juszkiewicz K., Leszczuk M.: „Medyczna cyfrowa biblioteka wideo”, Proc. VI Konferencja Internetu i Telematyki Medycznej, Kraków, 2002, s. 16.
[66] Juszkiewicz K.: Skalowanie z cz��ciow� dekompresj� strumienia wideo MPEG-2. Rozprawa doktorska, Kraków 2004.
[67] Kashino K., Kurozumi T., Murase H.: „A Quick Search Method for Audio and Video Signal Based on Histogram Pruning”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 348-357.
[68] Kender J. R., Yeo B. L.: „Video Scene Segmentation Via Continuous Video Coherence”, Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition CVPR’1998, Santa Barbara, USA, 1998, s. 367-377.
[69] Korkmaz T., Krunz M. M.: „Routing Multimedia Traffic With QoS Guarantees”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 429-443.
[70] Krakowskie Centrum Telemedycyny: “Zaawansowane usługi medyczne i telediagnostyczne”, http://www.telemedycyna.krakow.pl/
[71] Krunz M., Tripathi S. K.: „Scene-Based Characterization of VBR MPEG-Compressed Video Traffic”, Proc. ACM Sigmetrics’97, Seattle, USA, 1997.
[72] Kubaty M., Mi�kowicz M., Hoło� K., Miernikowski P.: „Platforma symulacyjna do detekcji zmian obrazów”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2005, Kraków 2005.
[73] Kucharski K.: „Methods of Face Recognition – Tutorial”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa, 2004, s. 103-113.
[74] Kumar S. A., Pal H.: „Digital Video Recording of Cardiac Surgical Procedures”, Annals of Thoracic Surgery, 2004, vol. 77, no. 3, s. 1063-1065.
[75] Langner J: „Leaves Recognition – a leaf image recognition based on a neuronal network”, http://damato.light-speed.de/lrecog/
[76] Lavitan R. M., Goldman T. S., Bryan D. A., Shofer F., Harlich A.: „Training With Video Imaging Improves the Initial Intubation Success Rates of Paramedic Trainees in an Operating Room Setting”, Ann. Emerg. Med., 2001, vol. 37, s. 46-50.
[77] Lee H. Y., Lee H. K., Ha Y. H.: „Spatial Color Descriptor for Image Retrieval and Video Segmentation“, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 358-367.
[78] Leszczuk M., Pacyna P., Papir Z.: „Video Content Streaming Service Using IP/RSVP Protocol Stack”, Proc. IEEE Workshop on Internet Applications WIAPP’99, San Jose, USA, 1999, s. 89-93.
[79] Leszczuk M., Papir Z.: „Developing of Digital Video Libraries Indexed by a Speech Recognition Engine”, Proc. AI’2001, Innsbruck, Austria, 2001, s. 107-113.
[80] Leszczuk M., Papir Z.: „Expansion of Functionality of Digital Video Libraries by Integration with Speech/Text Recognition and Video Streaming Engines”, Proc. ICIMADE’2001, Fargo, USA, 2001, s. 151-162.
[81] Leszczuk M., Papir Z.: „Integration of a Voice Recognition-based Indexing with Multimedia Applications”, Proc. PROMS’2000, Kraków, 2000, s. 375-381.
117
[82] Leszczuk M.: „Accessing Digital Video Libraries from Mobile Terminals in 3G Networks”, Proc. Advanced Technologies, Applications and Market Strategies for 3G ATAMS’2001, Kraków, 2001, s. 164-171.
[83] Leszczuk M.: „Construction of Selected Components of Medical Digital Video Library”, Proc. E-NEXT Working Group 3 CDN Workshop, Sophia Antipolis, Francja, 2004.
[84] Leszczuk M.: „Strona domowa Mikołaja Leszczuka”, http://www.kt.agh.edu.pl/~miklesz.
[85] Leszczuk M.: „Usage of Bisection Method for Shot Detection in Video Content for Digital Video Library”, Proc. 11th Open European Summer School: „Networked Applications” EUNICE’2005, Colmenarejo (Madryt), Hiszpania, 2005, s. 218-221.
[86] Leung J., D’Onofrio G., Duncan B., Trepp R., Vasques N, Schriver J.: „Apply Streaming Audio and Video Technology to Enhance Emergency Physician Education”, Acad. Emerg. Med., 2002, vol. 9, no. 10, s. 1059.
[87] Li. C. S., Stone H. S.: „Digital Library Using Next Generation Internet“, IEEE Communications Magazine, 2000, vol. 37, no. 1, s. 70-71.
[88] Liang Y. J., Färber N., Girod B.: „Adaptive Playout Scheduling and Loss Concealment for Voice Communication Over IP Networks”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 4, s. 532-544.
[89] Liu J., Li B., Zhang Y. Q.: „An End-to-End Adaptation Protocol for layered Video Multicast Using Optimal Rate Allocation”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 87-102.
[90] Lohan F., Defee I., Hakulinen H.: „Networked Multimedia System Based on Open Architecture”, Proc. IEEE 2001 ICCE International Conference on Consumer Electronics, Saloniki, Grecja, 2001, s. 344-345.
[91] Lombardo A., Morabito G., Schembra G.: „Modeling Intramedia and Intermedia Relationships In Multimedia Network Analysis Through Multiple Timescale Statistics”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 142-157.
[92] Lowe H. J.: „The New Telemedicine Paradigm: Using Internet-Based Multimedia Electronic Medical Record Systems To Support Wide-Area Clinical Care Delivery”, Proc. Telemedicine and Telecommunications: Options for the New Century, Bethesda, USA, 2001.
[93] Lu Y., Zhang H., Wenyin L., Hu C.: „Joint Semantics and Feature Based Image Retrieval Using Relevance Feedback”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 339-347.
[94] Ma�kowiak S.: „Model weryfikacyjny trójwarstwowego skalowalnego kodera wizyjnego wykorzystuj�cego struktury koderów MPEG-2”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRIT’2001, Pozna�, 2001, s. 7.3-1-7.3-4.
[95] Malassagne B., Mutter D., Leroy J., Smith M., Soler L., Marescaux J.: „Teleeducation in Surgery: European Institute for Telesurgery Experience”, World Journal of Surgery, 2001, vol. 25, s. 1490-1494.
[96] Manber U., Wu S.: „Fast Text Searching with Errors”, Technical Report TR 91-11, 1991.
118
[97] Manber U., Wu S.: „Fast text searching: allowing errors”, Communications of the ACM, 1992, vol. 35, no. 10, s. 83-91.
[98] Manjunath B. S., Salembier P., Sikora T.: Introduction to MPEG-7 Multimedia Content Description Interface. John Wiley & Sons, Chichester 2002.
[99] Martinian E., Sundberg C. E. W.: „Decreasing Distortion Using Low Delay Codes for Bursty Packet Loss Channels”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 285-292.
[100] Mashat A., Kara M.: „Performance evaluation of a scene-based model for VBR MPEG traffic”, [w]: System Performance Evaluation: Methodologies and Application, CRC Press, 2000, s. 123-142.
[101] Medl A., Marsic I., Andre M., Liang Y., Shaikh A., Burdea G., Wilder J., Kulikowski C., Flanagan J.: „Multimodal Man-Machine Interface for Mission Planning”, Proc. AAAI Spring Symposium on Intelligent Environments, Stanford, USA, 1998, s. 41-47.
[102] Megret R, Jolion J. M.: „Tracking Scale-Space Blobs for Video Description”, IEEE Multimedia, 2002, vol. 9, no. 2, s. 34-43.
[103] Mintzer F., „Developing Digital Libraries of Cultural Content“, IEEE Communications Magazine, vol. 37, no. 1, 2000, s. 72-78.
[104] Miron H., Blumenthal E. Z.: „Bridging analog and digital video in the surgical setting”, J. Catarat. Refract. Surg., 2003, vol. 29, no. 10, s. 1874-1877.
[105] Mitchell J., Pennebaker W., Fogg C., LeGall D. J.: MPEG video compression standard, International Thomson Publishing, Nowy Jork 1996, s. 58.
[106] Miyahara M., Kotani K., Algazi V. R.: „Objective Picture Quality Scale (PQS) For Image Coding”, IEEE Trans. on Communications, 1998, vol. 46, no. 9, s. 1215-1226.
[107] Moreno P. J., Van Thong J. M., Logan B., Jones G. J. F.: „From Multimedia Retrieval to Knowledge Management”, IEEE Computer, 2002, vol. 35, no. 4, s. 58-66.
[108] Müller H, Michoux N., Bandon D., Geissbuhler A.: „A review of content-based image retrieval systems in medical applications – clinical benefits and future decisions“, International Journal of Medical Informatics, 2004, vol. 73, s. 1-23.
[109] Naci U., Hanjali� A.: „A Unified Framework for Fast and Effective Shot Transition Detection Based on Analysis of Spatiotemporal Video Data Blocks”, Proc. Fourth International Workshop on Content-Based Multimedia Indexing CBMI’2005, 2005, Ryga, Łotwa.
[110] Nagatuma H.: „Development of an Emergency Medical Video Multiplexing Transport System (EMTS): Timing At the Nation-Wide Prehospital Care in Ambulance”, Journal of Medical System, 2003, vol. 27, no. 3, s. 225-232.
[111] NEMA Standard PS 3-2004: Digital Imaging and Communications in Medicine (DICOM), 10/2004.
[112] OASIS Archive Project: „OASIS Archive – Open Archiving System with Internet Sharing”, http://www.oasis-archive.info/
[113] Padmanabhan M., Picheny M.: „Large-Vocabulary Speech Recognition Algorithms”, IEEE Computer, 2002, vol. 35, no. 4, s. 42-50.
119
[114] Pei S. C., Chou Y. Z.: „Novell Error Concealment Method With Adaptive Prediction to the Abrupt and Gradual Scene Changes”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 158-173.
[115] Po L. M., Wong K. M.: „A New Palette Histogram Similarity Measure for MPEG-7 Dominant Color Descriptor”, Proc. IEEE International Conference on Image Processing 2004 ICIP’2004, Singapur, 2004, vol. 3, s. 1533-1536.
[116] Potamianos J., Luettin, C. Neti, „Hierarchical discriminant features for audio-visual LVCSR”, Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, 2001 ICASSP’2001, Salt Lake City, USA, 2001, vol. 1, s. 165-168.
[117] Przelaskowski A.: Falkowe metody kompresji danych obrazowych. Oficyna Wydawnicza Politechniki Warszawskiej, Warszawa 2002, s. 149-190.
[118] Raghupathy A., Chandrachoodan N., Liu K. J. R.: „Algorithm and VLSI Architecture for High Performance Adaptive Video Scaling”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 4, s. 489-502.
[119] Rapeli J.: „UMTS: Targets, System Concept, and Standardization in a Global Framework”, IEEE Personal Communications, 1995, vol. 2, no. 1, s. 20-28.
[120] Reynolds P. A., Mason R.: „On-line video media for continuing professional development in dentistry”, Computers and Education, 2002, vol. 35, no. 1, s. 65-98.
[121] Riocreux P. A., Thacker N. A., Yates R. B.: „An Analysis of Pairwise Geometric Histograms for View-Based Object Recognition”, Proc. BMVC, York, Wielka Brytania, 1994.
[122] Roberts J., Mocci U., Virtamo J.: Broadband network tele-traffic. Springer-Verlag, Berlin 1996, s. 20-25.
[123] Rodríguez A., Guil N., Shotton D. M., Trelles O.: „Automatic Analysis of the Content of Cell Biological Videos and Database Organization of Their Metadata Descriptors”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 119-128.
[124] Rose O.: „Simple and efficient models for variable bit rate MPEG video traffic”, Performance Evaluation, 1997, vol. 30, s. 69-85.
[125] Rosser J., Herman B., Ehrenwerth C.: „An overview of video streaming on the Internet and its application to surgical education”, Surg. Endosc., 2001, vol. 15, s. 624-629.
[126] Rubis Project: „Healthcare Telematics Projects”, Rubis Project Final Report, 2001, s. 17-19.
[127] Sahouria E., Zakhor A.: „Content Analysis of Video Using Principal Components”, Proc.1998 International Conference on Image Processing, vol. 3, Chicago, USA, 1998, s. 541-545.
[128] Saiedian H., Zari M., Naeem M.: „Understanding and Reducing Web Delays”, IEEE Computer Journal, 2001, vol. 34, no. 12, s. 30-37.
[129] Sang-Jo Y., Seong-Dae K.: „Traffic modeling and QoS prediction for MPEG-coded video services over ATM networks using scene level statistical characteristics”, Journal of High-Speed Networks, 1999, vol. 8, no. 3, s. 211-224.
120
[130] Senior A. W.: „Recognizing faces in broadcast video”, Proc. IEEE workshop on Real-Time Analysis and Tracking of Face and Gesture in Real-Time Systems, Kerkira (Korfu), Grecja, 1999, s. 105-110.
[131] Sicurello F.: „Towards standards for management and transmission of medical data in web technology”, Proc. Workshop on Standardization in E-Health, Genewa, Szwajcaria, 2003.
[132] Skarbek W., Galinski G., Wnukowicz K.: „Tree Based Multimedia Indexing – a Survey”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004, s. 77-85.
[133] Skarbek W., Kucharski K.: „Tutorial on Face and Eye Detection by AdaBoost Method”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004, s. 93-101.
[134] Skarbek W.: „MPEG-7”, Proc. IX Konferencja PLOUG’2003, Ko�cielisko, 2003, s. 102-119.
[135] Skarbek W.: Multimedia – algorytmy i standardy. PLJ, Warszawa 1998.
[136] Smith J. R., Chang S. F.: „Interoperable Content-based Access of Multimedia in Digital Libraries”, Proc. DELOS Workshop: Information Seeking, Searching and Querying in Digital Libraries, Zurych, Szwajcaria, 2001.
[137] Smith J. R., Chang S. F.: „Searching for Images and Videos on the World-Wide Web”, CU/CTR Technical Report 459-96-25, 1996.
[138] Smith J. R., Chang S. F.: „VisualSEEk: a fully automated content-based image query system”, Proc. ACM Intern. Conf. Multimedia (ACMMM), Boston, USA, 1996, s. 87-98.
[139] Smith J. R., Chang S.-F.: „An Image and Video Search Engine for the World-Wide Web”, Proc. Symposium on Electronic Imaging: Science and Technology - Storage & Retrieval for Image and Video Databases V EI’1997, San Jose, USA, 1997, s. 84-95.
[140] Smith J. R.: „Digital Video Libraries and the Internet”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 92-97.
[141] SMPTE Standard 306M: Television Digital Recording – 6.35-mm Type D-7 Component Format – Video Compression at 25 Mb/s – 525/60 and 625/50, 2002.
[142] Sonera MediaLab: „MPEG-7 White Paper”, 2003.
[143] Srinivasan S., Brown E. W.: „Is Speech Recognition Becoming Mainstream?”, IEEE Computer, 2002, vol. 35, no. 4, s. 38-41.
[144] Stankiewicz R., Jajszczyk A.: „Sposoby zapewnienia gwarantowanej jako�ci usług w sieciach IP”, Przegl�d Telekomunikacyjny, 2002, vol. LXXV, no. 2, s. 110-118.
[145] Stone H. S.: „Image Libraries and the Internet“, IEEE Communications Magazine, 2000, vol. 37, no. 1, s. 99-106.
[146] Strom J.: „Overcoming Barriers for Teaching and Learning”, Proc. Int. Symp. Educational Conferencing, Banff, Kanada, 2002.
[147] Sulkowski B., Sulkowska A.: „Application of a Monte Carlo Method to Calculate some Functions of Images”, Proc. International Conference on E-he@lth in Common Europe, Kraków, 2003, s. 439-446.
121
[148] Sweet W., „Cell phones answer internet's call”, IEEE Spectrum, 2000, vol. 37, no. 8, s. 42-46.
[149] Taskiran C., Chen J. Y., Albion A., Torres L., Bouman C., A., Delp E. J.: „ViBE: A Compressed Video Database Structures for Active Browsing and Search”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 103-118.
[150] Thacker N. A., Bromiley P. A.: „MSc Machine Vision Course : Practicals”, 2005-005 Technical Memo, 2005.
[151] Thacker N. A., Riocreux P. A., Yates R. B.: „Assessing the Completeness Properties of Pairwise Geometric Histograms”, Image and Vision Computing, 1995, vol. 13, no. 5, s. 423-429.
[152] Tong S. R., Lee S. C.: „Delivery of Compressed Videos From Video Server Employing Cycle-Based Data Block Retrieval Discipline”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 403-415.
[153] Tryfonas C., Varma A.: “Efficient Algorithms for Computation of the Loss Curve of Video Sources”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 416-428.
[154] Westermann G. U.: A Persistent Typed Document Object Model for the Management of MPEG-7 Media Descriptions. Rozprawa doktorska, Wiede�, Austria, 2004.
[155] Wiecha J. M., Gramling R., Joachim P., Vanderschmidt H.: „Collaborative e Learning Using Streaming Video and Asynchronous Discussion Boards to Teach the Cognitive Foundation of Medical Interviewing: A Case Study”, J. Med. Internet Res., 2003, vol. 5, no. 2, s. e13.
[156] Winkler S.: Digital Video Quality Vision Models and Metrics. John Wiley & Sons, Chichester 2005.
[157] Wnukowicz K.: „Deskryptor rozkładu dominuj�cych temperatur barwowych obrazu”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004.
[158] Wnukowicz K.: „Dominant Color Temperature Descriptor – Properties and Data Structure for Efficient Searching”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004, s. 86-92.
[159] Wong K. M., Cheung C. H., Liu T. S., Po L. M.: „Dominant color image retrieval using Merged Histogram”, Proc. of IEEE International Symposium on Circuit and Systems 2003 ISCIT’2003, Bangkok, Tajlandia, 2003, vol. 2, s. 908-911.
[160] Wong K. M., Cheung C. H., Po L. M.: „Merged-Color Histogram for color image retrieval”, Proc. IEEE International Conference on Image Processing 2002 ICIP’2002, Rochester, USA, 2002, vol. 3, s. 949-952.
[161] Wong K. M., Po L. M.: „MPEG-7 Dominant Color Descriptor based relevance feedback using Merged Palette Histogram”, Proc. IEEE International Conference on Acoustics, Speech and Signal Processing 2004 ICASSP’2004, Montreal, Kanada, 2004, vol. 3, s. 433-436.
[162] Wydrowski B., Zukerman M.: „QoS in Best-Effort Networks”, IEEE Communications Magazine, 2002, vol. 40, no. 12, s. 44-49.
[163] Xu L. Q., Li Y.: „Video Classification Using Spatial-Temporal Features And Pca”, Proc. IEEE Inter. Conf. on Multimedia and Expo ICME’2003, Baltimore, USA, 2003.
122
[164] Yeo B. L., Liu B.: „A unified approach to temporal segmentation of motion JPEG and MPEG compressed video”, Proc. IEEE International Conference on Multimedia Computing and Systems, 1995, s. 81-88.
[165] Yeo B. L., Liu B.: „On the extraction of DC sequence from MPEG compressed video”, Proc. IEEE International Conference on Image Processing, vol. 2, 1995, s. 260-263.
[166] Yeo B. L., Liu B.: „Rapid scene analysis on compressed video”, IEEE Transactions on Circuits and Systems for Video Technology, 1995, vol. 5, no. 6, s. 533-544.
[167] Yoma N. B., Hood J., Busso C.: „A Real-Time Protocol for the Internet Based on the Least Mean Square Algorithm”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 174-184.
[168] Yu Y., Cheng I., Basu A.: „Optimal Adaptive Bandwidth Monitoring for QoS Based Retrieval”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 466-472.
[169] Yuk D., Flanagan J.: „Telephone Speech Recognition using Neural Networks and Hidden Markov Models”, Proc. IEEE International Conference on Acoustics, Speech & Signal Processing, Phoenix, USA, 1999, vol. 1, s. 157-160.
[170] Zhu X., Aref W. G., Fan J., Catlin A. C., Elmagarmid A. K.: „Medical Video Mining for Efficient Database Indexing, Management and Access”, Proc. The 19th International Conference on Data Engineering, Bangalore, Indie, 2003, s 569-580.
[171] Zhu X., Fan J., Aref W. G., Elmagarmid A. K.: „ClassMiner: Mining medical video content structure and events towards efficient access and scalable skimming”, Proc. The 10th ACM International Conference on Multimedia, Juan-les-Pins, Francja, 2002, s. 79-80.
[172] Zollo S. A., Kienzle M. G., Henshaw Z., Crist L. G., Wakefield D. S.: „Tele-Education in a Telemedicine Environment: Implications for Rural Health Care and Academic Medical Centers”, J. Med. Systems, 1999, vol. 23, no. 2, s. 107-122.
[173] Lawrence S., Lee Giles C.: „Searching the Web: General and Scientific Information Access”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 116-122.
[174] Weinstein P. C., Birmingham W. P., Durfee E. H.: „Agent-Based Digital Libraries: Decentralization and Coordination”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 110-115.
[175] Wong S. T. C., Tjandra D.: „A Digital Library for Biomedical Imaging on the Internet”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 84-91.
123
WYKAZ LITERATURY WYBRANYCH ZAGADNIE,
Zagadnienia dotycz�ce wszystkich DVL
Zagadnienia ogólne
Lawrence S., Lee Giles C.: „Searching the Web: General and Scientific Information Access”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 116-122.
Leszczuk M., Pacyna P., Papir Z.: „Video Content Streaming Service Using IP/RSVP Protocol Stack”, Proc. IEEE Workshop on Internet Applications WIAPP’99, San Jose, USA, 1999, s. 89-93.
Leszczuk M., Papir Z.: „Integration of a Voice Recognition-based Indexing with Multimedia Applications”, Proc. PROMS’2000, Kraków 2000, s. 375-381.
Lu Y., Zhang H., Wenyin L., Hu C.: „Joint Semantics and Feature Based Image Retrieval Using Relevance Feedback”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 339-347.
OASIS Archive Project: „OASIS Archive – Open Archiving System with Internet Sharing”, http://www.oasis-archive.info/
Smith J. R.: „Digital Video Libraries and the Internet”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 92-97
Weinstein P. C., Birmingham W. P., Durfee E. H.: „Agent-Based Digital Libraries: Decentralization and Coordination”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 110-115.
Streszczanie sekwencji wizyjnych
Adjeroh D. A., Lee M. C.: „Scene-Adaptive Transform Domain Video Partitioning”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 58-69.
Aghabari Z., Kaneko K., Makinouchi A.: „Content-Trajectory Approach for Searching Video Databases”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 4, s. 516-531.
Benini S., Xu L. Q., Leonardi R.: „Using Lateral Ranking for Motion-Based Video Shot Retrieval and Dynamic Content Characterisation”, Proc. Fourth International Workshop on Content-Based Multimedia Indexing CBMI’2005, 2005, Ryga, Łotwa.
Boavida F., Monteiro E., Orvalho J.: Protocols and Systems for Interactive Distributed Multimedia, Springer-Verlag, Berlin 2002.
Browne P., Smeaton A. F., Murphy N., O’Connor N., Marlow S., Berrut C.: „Evaluating and Combining Digital Video Shot Boundary Detection Algorithms”, Proc. of the Fourth Irish Machine Vision and Information Processing Conference, Belfast, Irlandia Północna, 2000.
124
Doma�ski M., Bartkowiak M.: „Multimedia – przełom technologiczny”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2005, Kraków 2005, s. 209-215.
Duplaga M., Juszkiewicz K., Leszczuk M., Marek M., Papir Z.: „Design of Medical Digital Video Library”, Proc. Fourth International Workshop on Content-Based Multimedia Indexing CBMI’2005, 2005, Ryga, Łotwa.
Fan J., Elmagarmid A. K., Zhu X., Aref W. G., Wu L.: „ClassView: Hierarchical Video Shot Classification, Indexing, and Accessing”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 70-86.
Farag W. E., Abdel-Wahab H.: „ A new paradigm for analysis of MPEG compressed videos”, Journal of Network and Computer Applications, 2002, vol. 5, no. 2, s. 109-127.
Hanjali� A.: Content-based Analysis of Digital Video. Kluwer Academic Publishers, Boston 2004.
Hori C., Furui S.: „A New Approach to Automatic Speech Summarization”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 368-378.
ITU-R Recommendation BT.500: Methodology for the Subjective Assessment of the Quality of Television Pictures, 06/2002.
Kender J. R., Yeo B. L.: „Video Scene Segmentation Via Continuous Video Coherence”, Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition CVPR’1998, Santa Barbara, USA, 1998, s. 367-377.
Krunz M., Tripathi S. K.: „Scene-Based Characterization of VBR MPEG-Compressed Video Traffic”, Proc. ACM Sigmetrics’97, Seattle, USA, 1997.
Kubaty M., Mi�kowicz M., Hoło� K., Miernikowski P.: „Platforma symulacyjna do detekcji zmian obrazów”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2005, Kraków 2005.
Lee H. Y., Lee H. K., Ha Y. H.: „Spatial Color Descriptor for Image Retrieval and Video Segmentation“, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 358-367.
Leszczuk M.: „Strona domowa Mikołaja Leszczuka”, http://www.kt.agh.edu.pl/~miklesz
Leszczuk M.: „Usage of Bisection Method for Shot Detection in Video Content for Digital Video Library”, Proc. 11th Open European Summer School: „Networked Applications” EUNICE’2005, Colmenarejo (Madryt), Hiszpania, 2005, s. 218-221.
Lombardo A., Morabito G., Schembra G.: „Modeling Intramedia and Intermedia Relationships In Multimedia Network Analysis Through Multiple Timescale Statistics”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 142-157.
Manjunath B. S., Salembier P., Sikora T.: Introduction to MPEG-7 Multimedia Content Description Interface. John Wiley & Sons, Chichester 2002.
Mashat A., Kara M.: „Performance evaluation of a scene-based model for VBR MPEG traffic”, [w]: System Performance Evaluation: Methodologies and Application, CRC Press, 2000, s. 123-142.
Mitchell J., Pennebaker W., Fogg C., LeGall D. J.: MPEG video compression standard, International Thomson Publishing, Nowy Jork 1996, s. 58.
Naci U., Hanjali� A.: „A Unified Framework for Fast and Effective Shot Transition Detection Based on Analysis of Spatiotemporal Video Data Blocks”, Proc. Fourth International Workshop on Content-Based Multimedia Indexing CBMI’2005, 2005, Ryga, Łotwa.
125
Po L. M., Wong K. M.: „A New Palette Histogram Similarity Measure for MPEG-7 Dominant Color Descriptor”, Proc. IEEE International Conference on Image Processing 2004 ICIP’2004, Singapur, 2004, vol. 3, s. 1533-1536.
Przelaskowski A.: Falkowe metody kompresji danych obrazowych. Oficyna Wydawnicza Politechniki Warszawskiej, Warszawa 2002, s. 149-190.
Roberts J., Mocci U., Virtamo J.: Broadband network tele-traffic. Springer-Verlag, Berlin 1996, s. 20-25.
Rose O.: „Simple and efficient models for variable bit rate MPEG video traffic”, Performance Evaluation, 1997, vol. 30, s. 69-85.
Sang-Jo Y., Seong-Dae K.: „Traffic modeling and QoS prediction for MPEG-coded video services over ATM networks using scene level statistical characteristics”, Journal of High-Speed Networks, 1999, vol. 8, no. 3, s. 211-224.
Skarbek W., Galinski G., Wnukowicz K.: „Tree Based Multimedia Indexing – a Survey”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004, s. 77-85.
Skarbek W.: „MPEG-7”, Proc. IX Konferencja PLOUG’2003, Ko�cielisko, 2003, s. 102-119.
Smith J. R., Chang S. F.: „Searching for Images and Videos on the World-Wide Web”, CU/CTR Technical Report 459-96-25, 1996.
Smith J. R., Chang S.-F.: „An Image and Video Search Engine for the World-Wide Web”, Proc. Symposium on Electronic Imaging: Science and Technology - Storage & Retrieval for Image and Video Databases V EI’1997, San Jose, USA, 1997, s. 84-95.
Smith J. R.: „Digital Video Libraries and the Internet”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 92-97.
Sulkowski B., Sulkowska A.: „Application of a Monte Carlo Method to Calculate some Functions of Images”, Proc. International Conference on E-he@lth in Common Europe, Kraków 2003, s. 439-446.
Taskiran C., Chen J. Y., Albion A., Torres L., Bouman C., A., Delp E. J.: „ViBE: A Compressed Video Database Structures for Active Browsing and Search”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 103-118.
Wong K. M., Cheung C. H., Liu T. S., Po L. M.: „Dominant color image retrieval using Merged Histogram”, Proc. of IEEE International Symposium on Circuit and Systems 2003 ISCIT’2003, Bangkok, Tajlandia, 2003, vol. 2, s. 908-911.
Wong K. M., Cheung C. H., Po L. M.: „Merged-Color Histogram for color image retrieval”, Proc. IEEE International Conference on Image Processing 2002 ICIP’2002, Rochester, USA, 2002, vol. 3, s. 949-952.
Wong K. M., Po L. M.: „MPEG-7 Dominant Color Descriptor based relevance feedback using Merged Palette Histogram”, Proc. IEEE International Conference on Acoustics, Speech and Signal Processing 2004 ICASSP’2004, Montreal, Kanada, 2004, vol. 3, s. 433-436.
Yeo B. L., Liu B.: „A unified approach to temporal segmentation of motion JPEG and MPEG compressed video”, Proc. IEEE International Conference on Multimedia Computing and Systems, 1995, s. 81-88.
Yeo B. L., Liu B.: „On the extraction of DC sequence from MPEG compressed video”, Proc. IEEE International Conference on Image Processing, vol. 2, 1995, s. 260-263.
126
Yeo B. L., Liu B.: „Rapid scene analysis on compressed video”, IEEE Transactions on Circuits and Systems for Video Technology, 1995, vol. 5, no. 6, s. 533-544.
Indeksowanie sekwencji wizyjnych
Ashbrook A. P., Rockett P. I., Thacker N. A.: „Multiple Shape Recognition using Pairwise Geometric Histogram Based Algorithms”, Proc. IEEE Image Processing, Edynburg, Wielka Brytania, 1995.
Ashbrook A. P., Thacker N. A., Rockett P. I., Brown C. I.: „Robust Recognition of Scaled Shapes Using Pairwise Geometric Histograms”, Proc. BMVC’1995, Birmingham, Wielka Brytania, 1995, s. 503-512.
Ashbrook A. P., Thacker N. A., Rockett P. I.: „Scaling Properties of Pairwise Geometric Histograms”, Proc. for SCIA’1995, Uppsala, Szwecja, 1995, s. 271.
Brown C. I., Thacker N. A., Yates R. B.: „A VLSI Architecture for Wavelet Transforms”, Proc. IEEE Image Processing, Edynburg, Wielka Brytania, 1995.
Brown W., Srinivasan S., Coden A., Ponceleon D., Cooper J. W., Amir A.: „Toward speech as a knowledge resource”, IBM Systems Journal, 2001, vol. 40, no. 4, s. 985-1001.
Buchowicz A., Ignasiak K.: „System wyszukiwania danych multimedialnych w architekturze J2EE”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004.
Chelba C.: „Portability of syntactic structure for language modeling”, Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing ICASSP’2001, Salt Lake City, USA, 2001, vol. 1.
Dimitrova N., Zhang H. J., Shahraray B., Sezan I., Huang T., Zakhor A.: „Applications of Video-Content Analysis and Retrieval”, IEEE Multimedia, 2002, vol. 9, no. 3, s. 42-55.
Evans A. C., Thacker N. A., Mayhew J. E. W.: „The Use of Geometric Histograms for Model Based Object Recognition”, Proc. 4th BMVC, Guildford, Wielka Brytania, 1993, s. 429-438.
Gali�ski G., Skarbek W.: „Struktura indeksu w multimedialnych systemach wyszukiwawczych”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004.
Gorin A. L., Alonso T., Riccardi G., Wright J. H.: „Automated Natural Spoken Dialog”, IEEE Computer, 2002, vol. 35, no. 4, s. 51-56.
ISO/IEC Standard TR 15938: Information technology – Multimedia content description interface, 06/2005.
Jeffay K., Hang H. J.: Readings in Multimedia Computing and Networking. Morgan Kaufmann Publishers, San Francisco 2002.
Kucharski K.: „Methods of Face Recognition – Tutorial”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004, s. 103-113.
Langner J: „Leaves Recognition – a leaf image recognition based on a neuronal network”, http://damato.light-speed.de/lrecog/
Lee H. Y., Lee H. K., Ha Y. H.: „Spatial Color Descriptor for Image Retrieval and Video Segmentation“, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 358-367.
127
Leszczuk M., Papir Z.: „Expansion of Functionality of Digital Video Libraries by Integration with Speech/Text Recognition and Video Streaming Engines”, Proc. ICIMADE’2001, Fargo, USA, 2001, s. 151-162.
Leszczuk M., Papir Z.: „Integration of a Voice Recognition-based Indexing with Multimedia Applications”, Proc. PROMS’2000, Kraków, 2000, s. 375-381.
Li. C. S., Stone H. S.: „Digital Library Using Next Generation Internet“, IEEE Communications Magazine, 2000, vol. 37, no. 1, s. 70-71.
Manber U., Wu S.: „Fast Text Searching with Errors”, Technical Report TR 91-11, 1991.
Manber U., Wu S.: „Fast text searching: allowing errors”, Communications of the ACM, 1992, vol. 35, no. 10, s. 83-91.
Manjunath B. S., Salembier P., Sikora T.: Introduction to MPEG-7 Multimedia Content Description Interface. John Wiley & Sons, Chichester 2002.
Medl A., Marsic I., Andre M., Liang Y., Shaikh A., Burdea G., Wilder J., Kulikowski C., Flanagan J.: „Multimodal Man-Machine Interface for Mission Planning”, Proc. AAAI Spring Symposium on Intelligent Environments, Stanford, USA, 1998, s. 41-47.
Megret R, Jolion J. M.: „Tracking Scale-Space Blobs for Video Description”, IEEE Multimedia, 2002, vol. 9, no. 2, s. 34-43.
Mintzer F., „Developing Digital Libraries of Cultural Content“, IEEE Communications Magazine, vol. 37, no. 1, 2000, s. 72-78.
Moreno P. J., Van Thong J. M., Logan B., Jones G. J. F.: „From Multimedia Retrieval to Knowledge Management”, IEEE Computer, 2002, vol. 35, no. 4, s. 58-66.
Padmanabhan M., Picheny M.: „Large-Vocabulary Speech Recognition Algorithms”, IEEE Computer, 2002, vol. 35, no. 4, s. 42-50.
Potamianos J., Luettin, C. Neti, „Hierarchical discriminant features for audio-visual LVCSR”, Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, 2001 ICASSP’2001, Salt Lake City, USA, 2001, vol. 1, s. 165-168.
Riocreux P. A., Thacker N. A., Yates R. B.: „An Analysis of Pairwise Geometric Histograms for View-Based Object Recognition”, Proc. BMVC, York, Wielka Brytania, 1994.
Sahouria E., Zakhor A.: „Content Analysis of Video Using Principal Components”, Proc.1998 International Conference on Image Processing, vol. 3, Chicago, USA, 1998, s. 541-545.
Senior A. W.: „Recognizing faces in broadcast video”, Proc. IEEE workshop on Real-Time Analysis and Tracking of Face and Gesture in Real-Time Systems, Kerkira (Korfu), Grecja, 1999, s. 105-110.
Skarbek W., Kucharski K.: „Tutorial on Face and Eye Detection by AdaBoost Method”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004, s. 93-101.
Smith J. R., Chang S. F.: „Interoperable Content-based Access of Multimedia in Digital Libraries”, Proc. DELOS Workshop: Information Seeking, Searching and Querying in Digital Libraries, Zurych, Szwajcaria, 2001.
Smith J. R., Chang S. F.: „VisualSEEk: a fully automated content-based image query system”, Proc. ACM Intern. Conf. Multimedia (ACMMM), Boston, USA, 1996, s. 87-98.
Smith J. R.: „Digital Video Libraries and the Internet”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 92-97.
128
Sonera MediaLab: „MPEG-7 White Paper”, 2003.
Srinivasan S., Brown E. W.: „Is Speech Recognition Becoming Mainstream?”, IEEE Computer, 2002, vol. 35, no. 4, s. 38-41.
Stone H. S.: „Image Libraries and the Internet“, IEEE Communications Magazine, 2000, vol. 37, no. 1, s. 99-106.
Thacker N. A., Bromiley P. A.: „MSc Machine Vision Course : Practicals”, 2005-005 Technical Memo, 2005.
Thacker N. A., Riocreux P. A., Yates R. B.: „Assessing the Completeness Properties of Pairwise Geometric Histograms”, Image and Vision Computing, 1995, vol. 13, no. 5, s. 423-429.
Westermann G. U.: A Persistent Typed Document Object Model for the Management of MPEG-7 Media Descriptions. Rozprawa doktorska, Wiede�, Austria, 2004.
Wnukowicz K.: „Deskryptor rozkładu dominuj�cych temperatur barwowych obrazu”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004.
Wnukowicz K.: „Dominant Color Temperature Descriptor – Properties and Data Structure for Efficient Searching”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004, s. 86-92.
Xu L. Q., Li Y.: „Video Classification Using Spatial-Temporal Features And Pca”, Proc. IEEE Inter. Conf. on Multimedia and Expo ICME’2003, Baltimore, USA, 2003.
Yuk D., Flanagan J.: „Telephone Speech Recognition using Neural Networks and Hidden Markov Models”, Proc. IEEE International Conference on Acoustics, Speech & Signal Processing, Phoenix, USA, 1999, vol. 1, s. 157-160.
Kompresja sekwencji wizyjnych
Adami D., Marchese M., Ronga L. S.: „TCP/IP-Based Multimedia Applications and Services over Satellite Links: Experience from an ASI/CNIT Project”, IEEE Personal Communications, 2001, vol. 8, no.3, s. 20-27.
Boavida F., Monteiro E., Orvalho J.: Protocols and Systems for Interactive Distributed Multimedia. Springer-Verlag, Berlin 2002.
Doma�ski M., Bartkowiak M.: „Multimedia – przełom technologiczny”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2005, Kraków 2005, s. 209-215.
Eskicioglu A. M., Fisher P. S.: „Image Quality Measures and Their Performance”, IEEE Transactions on Communications, 1995, vol. 43, no. 12, s. 2959-2965.
Eskicioglu A. M.: „Quality Measurement for Monochrome Compressed Images in the Past 25 Years”, Proc. of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) Conference, vol. 4, Istambuł, Turcja, 2000, s.1907-1910.
eTesting Labs: „Microsoft: Video Quality Comparison Study”, Test report prepared under contract from Microsoft Corporation, 2001.
Ghinea G., Thomas J. P.: „Quality of Perceptron: User Quality of Service in Multimedia Presentations”, IEEE Transactions on Multimedia, 2005, vol. 7, no. 4, s. 786-789.
129
Ho W. K. H., Cheuk W. K., Lun D. P. K.: „Content-Based Scalable H.263 Video Coding for Road Traffic Monitoring”, IEEE Transactions on Multimedia, 2005, vol. 7, no. 4, s. 615-623.
Hosaka K.: „A new picture quality evaluation method”, Proc. International Picture Coding Symposium, Tokio, Japonia, 1986, s. 17-18.
IEC Standard 61834: Recording – Helical-scan digital video cassette recording system using 6.35 mm magnetic tape for consumer use (525-60, 625-50, 1125-60 and 1250-50 systems), 2001.
ISO Standard IS 11172-2: Information technology – Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s – Part 2: Video, 11/2003.
ISO Standard IS 13818-2: Information technology – Generic coding of moving pictures and associated audio information: Video, 04/2002.
ISO Standard IS 14496-10: Information technology – Coding of audio-visual objects – Part 10: Advanced Video Coding, 09/2004.
ISO Standard IS 14496-2: Information technology – Coding of audio-visual objects – Part 2: Visual, 06/2004.
ISO/IEC Standard IS 10918-1: Information technology – Digital compression and coding of continuous-tone still images: Requirements and guidelines, 03/2005.
ISO/IEC Standard IS 15444-3: Information technology – JPEG 2000 image coding system – Part 3: Motion JPEG 2000, 12/2003.
ITU-R Recommendation BT.1129: Subjective assessment of standard definition digital television (SDTV) systems, 02/1998.
ITU-R Recommendation BT.1210: Test materials to be used in subjective assessment, 02/2004.
ITU-R Recommendation BT.500: Methodology for the Subjective Assessment of the Quality of Television Pictures, 06/2002.
ITU-R Recommendation H.120: Codecs for videoconferencing using primary digital group transmission, 03/1993.
ITU-R Recommendation H.261: Video codec for audiovisual services at p × 64 kbit/s, 03/1993.
ITU-R Recommendation H.262: Information technology – Generic coding of moving pictures and associated audio information: Video, 04/2002.
ITU-R Recommendation H.263: Video coding for low bit rate communication, 01/2005.
ITU-R Recommendation H.264: Advanced video coding for generic audiovisual services, 03/2005.
ITU-R Recommendation J.80: Transmission of component-coded digital television signals for contribution-quality applications at bit rates near 140 Mbit/s, 09/1993.
ITU-R Recommendation J.81: Transmission of component-coded digital television signals for contribution-quality applications at the third hierarchical level of ITU-T Recommendation G.702, 03/1998.
ITU-R Recommendation T.81: Information technology – Digital compression and coding of continuous-tone still images – Requirements and guidelines, 09/1992.
130
ITU-T Recommendation P.830: Subjective performance assessment of telephone-band and wideband digital codecs, 02/1996.
ITU-T Recommendation P.VQ: Two criteria for video test scene selection, 12/1994.
Joshi M. A., Khambete M. B.: „Adaptive vector quantization based on quality criterion using Hosaka plot”, Proc. IEEE TENCON’1999, Cheju, Korea, 1999, s. 754-756.
Juszkiewicz K.: Skalowanie z cz��ciow� dekompresj� strumienia wideo MPEG-2. Rozprawa doktorska, Kraków 2004.
Ma�kowiak S.: „Model weryfikacyjny trójwarstwowego skalowalnego kodera wizyjnego wykorzystuj�cego struktury koderów MPEG-2”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRIT’2001, Pozna� 2001, s. 7.3-1-7.3-4.
Martinian E., Sundberg C. E. W.: „Decreasing Distortion Using Low Delay Codes for Bursty Packet Loss Channels”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 285-292.
Przelaskowski A.: Falkowe metody kompresji danych obrazowych. Oficyna Wydawnicza Politechniki Warszawskiej, Warszawa 2002, s. 149-190.
Skarbek W.: Multimedia – algorytmy i standardy. PLJ, Warszawa 1998.
SMPTE Standard 306M: Television Digital Recording – 6.35-mm Type D-7 Component Format – Video Compression at 25 Mb/s – 525/60 and 625/50, 2002.
Winkler S.: Digital Video Quality Vision Models and Metrics. John Wiley & Sons, Chichester 2005.
Zapytywanie o sekwencje wizyjne
Kashino K., Kurozumi T., Murase H.: „A Quick Search Method for Audio and Video Signal Based on Histogram Pruning”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 348-357.
Transkodowanie sekwencji wizyjnych
Fung K. T., Chan Y. L., Siu W. C.: „Low-Complexity and High-Quality Frame Skipping Transcoder for Continuous Presence Multipoint Video Conferencing”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 31-46.
Raghupathy A., Chandrachoodan N., Liu K. J. R.: „Algorithm and VLSI Architecture for High Performance Adaptive Video Scaling”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 4, s. 489-502.
Rapeli J.: „UMTS: Targets, System Concept, and Standardization in a Global Framework”, IEEE Personal Communications, 1995, vol. 2, no. 1, s. 20-28.
Sweet W., „Cell phones answer internet's call”, IEEE Spectrum, 2000, vol. 37, no. 8, s. 42-46.
Strumieniowanie sekwencji wizyjnych
Chao H. J., Guo X.: Quality of Service Control in High-Speed Networks, John Wiley & Sons, Chichester 2001.
131
Frost V. S.: „Quantifying the Temporal Characteristics of Networks Congestion Events for Multimedia Services”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 458-465.
Hong D. P., Albuquerque C., Oliveira C., Suda T.: „Evaluating the Impact of Emerging Streaming Media Applications on TCP/IP Performance”, IEEE Communications Magazine, 2001, vol. 39, no. 4, s. 76-82.
Hunter J., Witana V., Antoniades M.: „A Review of Video Streaming Over Internet”, DSTC Technical Report TR97-10, 1997.
Korkmaz T., Krunz M. M.: „Routing Multimedia Traffic With QoS Guarantees”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 429-443.
Leszczuk M., Pacyna P., Papir Z.: „Video Content Streaming Service Using IP/RSVP Protocol Stack”, Proc. IEEE Workshop on Internet Applications WIAPP’99, San Jose, USA, 1999, s. 89-93.
Leszczuk M., Papir Z.: „Expansion of Functionality of Digital Video Libraries by Integration with Speech/Text Recognition and Video Streaming Engines”, Proc. ICIMADE’2001, Fargo, USA, 2001, s. 151-162.
Liang Y. J., Färber N., Girod B.: „Adaptive Playout Scheduling and Loss Concealment for Voice Communication Over IP Networks”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 4, s. 532-544.
Liu J., Li B., Zhang Y. Q.: „An End-to-End Adaptation Protocol for layered Video Multicast Using Optimal Rate Allocation”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 87-102.
Pei S. C., Chou Y. Z.: „Novell Error Concealment Method With Adaptive Prediction to the Abrupt and Gradual Scene Changes”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 158-173.
Saiedian H., Zari M., Naeem M.: „Understanding and Reducing Web Delays”, IEEE Computer Journal, 2001, vol. 34, no. 12, s. 30-37.
Stankiewicz R., Jajszczyk A.: „Sposoby zapewnienia gwarantowanej jako�ci usług w sieciach IP”, Przegl�d Telekomunikacyjny, 2002, vol. LXXV, no. 2, s. 110-118.
Tong S. R., Lee S. C.: „Delivery of Compressed Videos From Video Server Employing Cycle-Based Data Block Retrieval Discipline”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 403-415.
Tryfonas C., Varma A.: “Efficient Algorithms for Computation of the Loss Curve of Video Sources”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 416-428.
Wydrowski B., Zukerman M.: „QoS in Best-Effort Networks”, IEEE Communications Magazine, 2002, vol. 40, no. 12, s. 44-49.
Yoma N. B., Hood J., Busso C.: „A Real-Time Protocol for the Internet Based on the Least Mean Square Algorithm”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 174-184.
Yu Y., Cheng I., Basu A.: „Optimal Adaptive Bandwidth Monitoring for QoS Based Retrieval”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 466-472.
132
Zagadnienia specyficzne dla MDVL
Zagadnienia ogólne
Duplaga M., Juszkiewicz K., Leszczuk M., Marek M., Papir Z.: „Design of Medical Digital Video Library”, Proc. Fourth International Workshop on Content-Based Multimedia Indexing CBMI’2005, 2005, Ryga, Łotwa.
Juszkiewicz K., Leszczuk M.: „Medyczna cyfrowa biblioteka wideo”, Proc. VI Konferencja Internetu i Telematyki Medycznej, Kraków 2002, s. 16.
Krakowskie Centrum Telemedycyny: „Zaawansowane usługi medyczne i telediagnostyczne”, http://www.telemedycyna.krakow.pl/
Leszczuk M.: „Accessing Digital Video Libraries from Mobile Terminals in 3G Networks”, Proc. Advanced Technologies, Applications and Market Strategies for 3G ATAMS’2001, Kraków 2001, s. 164-171.
Leszczuk M.: „Construction of Selected Components of Medical Digital Video Library”, Proc. E-NEXT Working Group 3 CDN Workshop, Sophia Antipolis, Francja, 2004.
Leszczuk M.: „Strona domowa Mikołaja Leszczuka”, http://www.kt.agh.edu.pl/~miklesz
Wong S. T. C., Tjandra D.: „A Digital Library for Biomedical Imaging on the Internet”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 84-91.
Streszczanie sekwencji wizyjnych
Zhu X., Aref W. G., Fan J., Catlin A. C., Elmagarmid A. K.: „Medical Video Mining for Efficient Database Indexing, Management and Access”, Proc. The 19th International Conference on Data Engineering, Bangalore, Indie, 2003, s 569-580.
Zhu X., Fan J., Aref W. G., Elmagarmid A. K.: „ClassMiner: Mining medical video content structure and events towards efficient access and scalable skimming”, Proc. The 10th ACM International Conference on Multimedia, Juan-les-Pins, Francja, 2002, s. 79-80.
Indeksowanie sekwencji wizyjnych
Fan J., Elmagarmid A. K., Zhu X., Aref W. G., Wu L.: „ClassView: Hierarchical Video Shot Classification, Indexing, and Accessing”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 70-86.
Müller H, Michoux N., Bandon D., Geissbuhler A.: „A review of content-based image retrieval systems in medical applications – clinical benefits and future decisions“, International Journal of Medical Informatics, 2004, vol. 73, s. 1-23.
Rodríguez A., Guil N., Shotton D. M., Trelles O.: „Automatic Analysis of the Content of Cell Biological Videos and Database Organization of Their Metadata Descriptors”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 119-128.
Kompresja sekwencji wizyjnych
Cuggia M., Mougin F., Le Beux P.: „Indexing method of digital audiovisual medical resources with semantic Web integration”, International Journal of Medical Informatics, 2005, 74, s. 169-177.
133
Dafonte C., Gómez A., Castro A., Arcay B.: „A proposal for Improving ICU assistance through Intelligent Monitoring and Supervision”, ACM Technology and Health Care, 2002, vol. 10, no. 6, s. 464-466.
Gandsas A., McIntire K., Palli G., Park A.: „Live streaming video for medical education: a laboratory model”, J. Laparoendosc. Adv. Surg. Tech. A., 2002, vol. 12, no. 5, s. 377-382.
Gisondi M. A., Mahadevan S. V., Sovndal S. S., Gilbert G. H.: „19 Emergency Department Orientation Utilizing Web-based Streaming Video”, Academic Emergency Medicine, 2003, vol. 10, no. 8, s. 920.
Green S. M., Voegeli D., Harrison M., Phillips J., Knowles J., Weaver M., Shephard K.: „Evaluating the use of streaming video to support student learning in a first-year life sciences course for student nurses”, Nurse Education Today, 2003, vol. 23, s. 255-261.
Greene P. S.: „Streaming Video for the Annals Internet Readers”, Ann. Thorac. Surg., 1998, vol. 65, s. 1188-1189.
Hamilton N. M., Frade I., Duguid P., Furnace J., Kindley A. D.: „Digital video for networked CAL delivery”, J. Audiovisual Media in Medicine, 1995, vol. 18, no. 2, s. 59-63.
Hosaka K.: „A new picture quality evaluation method”, Proc. International Picture Coding Symposium, Tokio, Japonia, 1986, s. 17-18.
ISO Standard IS 11172-2: Information technology – Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s – Part 2: Video, 11/2003.
ISO Standard IS 13818-2: Information technology – Generic coding of moving pictures and associated audio information: Video, 04/2002.
ISO Standard IS 14496-2: Information technology – Coding of audio-visual objects – Part 2: Visual, 06/2004.
ITU-R Recommendation H.262: Information technology – Generic coding of moving pictures and associated audio information: Video, 04/2002.
ITU-R Recommendation T.81: Information technology – Digital compression and coding of continuous-tone still images – Requirements and guidelines, 09/1992.
Kumar S. A., Pal H.: „Digital Video Recording of Cardiac Surgical Procedures”, Annals of Thoracic Surgery, 2004, vol. 77, no. 3, s. 1063-1065.
Lavitan R. M., Goldman T. S., Bryan D. A., Shofer F., Harlich A.: „Training With Video Imaging Improves the Initial Intubation Success Rates of Paramedic Trainees in an Operating Room Setting”, Ann. Emerg. Med., 2001, vol. 37, s. 46-50.
Leung J., D’Onofrio G., Duncan B., Trepp R., Vasques N, Schriver J.: „Apply Streaming Audio and Video Technology to Enhance Emergency Physician Education”, Acad. Emerg. Med., 2002, vol. 9, no. 10, s. 1059.
Lowe H. J.: „The New Telemedicine Paradigm: Using Internet-Based Multimedia Electronic Medical Record Systems To Support Wide-Area Clinical Care Delivery”, Proc. Telemedicine and Telecommunications: Options for the New Century, Bethesda, USA, 2001.
Malassagne B., Mutter D., Leroy J., Smith M., Soler L., Marescaux J.: „Teleeducation in Surgery: European Institute for Telesurgery Experience”, World Journal of Surgery, 2001, vol. 25, s. 1490-1494.
134
Miron H., Blumenthal E. Z.: „Bridging analog and digital video in the surgical setting”, J. Catarat. Refract. Surg., 2003, vol. 29, no. 10, s. 1874-1877.
NEMA Standard PS 3-2004: Digital Imaging and Communications in Medicine (DICOM), 10/2004.
Przelaskowski A.: Falkowe metody kompresji danych obrazowych. Oficyna Wydawnicza Politechniki Warszawskiej, Warszawa 2002, s. 149-190.
Reynolds P. A., Mason R.: „On-line video media for continuing professional development in dentistry”, Computers and Education, 2002, vol. 35, no. 1, s. 65-98.
Rosser J., Herman B., Ehrenwerth C.: „An overview of video streaming on the Internet and its application to surgical education”, Surg. Endosc., 2001, vol. 15, s. 624-629.
Rubis Project: „Healthcare Telematics Projects”, Rubis Project Final Report, 2001, s. 17-19.
Sicurello F.: „Towards standards for management and transmission of medical data in web technology”, Proc. Workshop on Standardization in E-Health, Genewa, Szwajcaria, 2003.
Skarbek W.: Multimedia – algorytmy i standardy. PLJ, Warszawa 1998.
Strom J.: „Overcoming Barriers for Teaching and Learning”, Proc. Int. Symp. Educational Conferencing, Banff, Kanada, 2002.
Wiecha J. M., Gramling R., Joachim P., Vanderschmidt H.: „Collaborative e Learning Using Streaming Video and Asynchronous Discussion Boards to Teach the Cognitive Foundation of Medical Interviewing: A Case Study”, J. Med. Internet Res., 2003, vol. 5, no. 2, s. e13.
Zollo S. A., Kienzle M. G., Henshaw Z., Crist L. G., Wakefield D. S.: „Tele-Education in a Telemedicine Environment: Implications for Rural Health Care and Academic Medical Centers”, J. Med. Systems, 1999, vol. 23, no. 2, s. 107-122.
Zagadnienie strumieniowania
Nagatuma H.: „Development of an Emergency Medical Video Multiplexing Transport System (EMTS): Timing At the Nation-Wide Prehospital Care in Ambulance”, Journal of Medical System, 2003, vol. 27, no. 3, s. 225-232.
135
DODATEK
Tabela I. Dokładne wyniki pomiarów (uszeregowania) medycznych sekwencji wizyjnych
CR ID zbioru ID lekarza
1. 2. 3. 4. 5. 6. 7. 8. Uwagi
1 1 93 63 32 28 1 123 228 213
1 2 28 32 63 93 1 123 228 213
1 3 93 63 1 28 32 123 228 213
1 4 32 28 93 63 1 123 213 228
1 5 32 28 93 123 63 213 1 228 Odrzucone
1 6 28 93 32 1 63 123 213 228
1 7 64 32 28 93 1 123 213 228
1 8 32 93 123 63 228 28 213 1 Odrzucone
2 1 1 26 31 62 118 212 307 300
2 2 1 26 31 62 118 212 307 300
2 3 31 26 1 118 62 212 307 300
2 4 1 26 31 62 118 212 307 300
2 5 31 1 26 62 118 212 300 307
2 6 1 26 31 62 118 212 307 300
2 7 26 1 31 118 62 212 300 307
2 8 1 31 118 26 300 62 307 212 Odrzucone
3 1 1 31 33 63 124 240 353 359
3 2 1 31 63 33 124 240 359 353
3 3 31 1 63 33 124 240 359 353
3 4 1 33 31 63 124 240 359 353
3 5 1 33 31 63 124 240 359 353
3 6 1 33 31 124 63 240 353 359
3 7 1 33 63 31 124 240 359 353
3 8 1 124 353 33 359 240 31 63 Odrzucone
136
Tabela II. �rednie warto�ci Recall, Precision i Accuracy (wraz z analiz� statystyczn�) w zale�no�ci od udziału