SVEUČILIŠTE JOSIPA JURJA STROSSMAYERA U OSIJEKU ODJEL ZA FIZIKU DALIBOR KOPRIVNJAK DIGITALNA POHRANA SLIKE I ZVUKA Diplomski rad Osijek, 2010.
SVEUČILIŠTE JOSIPA JURJA STROSSMAYERA U OSIJEKU
ODJEL ZA FIZIKU
DALIBOR KOPRIVNJAK
DIGITALNA POHRANA SLIKE I ZVUKA
Diplomski rad
Osijek, 2010.
ii
SVEUČILIŠTE JOSIPA JURJA STROSSMAYERA U OSIJEKU
ODJEL ZA FIZIKU
DALIBOR KOPRIVNJAK
DIGITALNA POHRANA SLIKE I ZVUKA
Diplomski rad
Predložen Odjelu za fiziku Sveučilišta J. J. Strossmayera u Osijeku
radi stjecanja zvanja profesora fizike i tehničke kulture s informatikom
Osijek, 2010.
iii
Sadržaj
1. Uvod .............................................................................................................................................. 1
2. Slika ............................................................................................................................................... 2
2.1. Analiza i prikaz digitalne slike .................................................................................................. 2
2.2. Kompresija slike ........................................................................................................................ 4
2.3. JPEG - transformacijska kompresija ......................................................................................... 6
2.4. Mirne slike ................................................................................................................................. 9
2.5. Boja ......................................................................................................................................... 11
2.6. Ljudski vid i doživljaj boje ...................................................................................................... 11
3. Zvuk ............................................................................................................................................. 13
3.1. Digitalizacija i kompresija zvuka ............................................................................................ 13
3.2. Analogna pohrana zvuka ......................................................................................................... 13
3.3. Digitalna pohrana zvuka .......................................................................................................... 14
3.4. Kodiranje i kompresija audio signala ...................................................................................... 16
3.4.1. Kodiranje govora ................................................................................................................. 16
3.4.2. Kodiranje audio signala ....................................................................................................... 17
3.5. MPEG-1 Audio Layer 3 (MP3) oblik zapisa .......................................................................... 17
3.6. Ograničenja i nedostaci MP3 formata ..................................................................................... 21
4. Video zapis .................................................................................................................................. 22
4.1. MPEG norme za kodiranje videa ............................................................................................ 22
4.2. Profili i razine .......................................................................................................................... 23
4.2.1. MPEG-4 ............................................................................................................................... 24
4.2.2. Tehnički opis MPEG-4 standarda ........................................................................................ 24
4.2.3. Audio kodiranje ................................................................................................................... 26
4.2.4. Video kodiranje ................................................................................................................... 27
4.3. Profili i razine kod MPEG-4 ................................................................................................... 29
4.4. Vrste okvira ............................................................................................................................. 30
4.5. Video – pokretne slike ............................................................................................................. 31
4.6. Standardi video signala ........................................................................................................... 31
5. Pohrana medija ........................................................................................................................... 33
5.1. Formati za snimanje video zapisa ........................................................................................... 33
5.2. Formati za snimanje audio zapisa ........................................................................................... 34
5.3. Blu-Ray ................................................................................................................................... 38
5.3.1. Fizička izvedba Blu-ray diska ............................................................................................. 41
iv
5.4. Budućnost digitalne pohrane ................................................................................................... 41
6. Zaključak ..................................................................................................................................... 43
7. Literatura .................................................................................................................................... 44
8. Popis oznaka i kratica ................................................................................................................. 45
9. Životopis ...................................................................................................................................... 47
v
Sveučilište J. J. Strossmayera u Osijeku Diplomski rad
Odjel za fiziku
DIGITALNA POHRANA SLIKE I ZVUKA
DALIBOR KOPRIVNJAK
Sažetak
U ovom radu su pobliže opisane tehnike obrade i pohrane digitalnog signala. Teorijska
obrada započinje s analizom vizualnog signala, odnosno slike, njenom kompresijom i doživljajem
boja. Naredni dio analizira audio signal, odnosno zvuk, njegovu kompresiju, pohranu i kodiranje.
Završni dio analizira video signal, norme i razine kodiranja, te standarde video signala.
Detaljnija obrada se vrši na trenutno najzastupljenijim oblicima obrade pojedinog signala, JPEG
formatu za sliku, MP3 formatu za zvuk i MPEG-4 formatu za video signal.
(47 stranica, 20 slika, 3 tablice, 11 literaturnih navoda)
Rad je pohranjen u knjižnici Odjela za fiziku
Ključne riječi: slika / JPEG / zvuk / MP3 / video / MPEG-4
Mentor: dr.sc. Davor Kirin
Komentor: dr.sc. Igor Lukačević
Ocjenjivači: doc.dr.sc. Zvonko Glumac
mr.sc. Stjepan Hrpka
Rad prihvaćen: 22.03.2010.
vi
Josip Juraj Strossmayer University in Osijek Bachelor of Science Thesis
Department of Physics
DIGITAL IMAGE AND SOUND STORAGE
DALIBOR KOPRIVNJAK
Abstract
This bachelor thesis describes technics for processing and storage of digital signal.
Theoreticlay part starts with visual signal analysis, image compression and color experience. Vave
following audio signal analysis, compression, storage and coding. Final chapter analyzes video
signal, coding forms and levels and video signal standards.
Detailed analysis deals with currently most used processing technics for every signal, JPEG format
for images, MP3 format for sound and MPEG-4 format for video signal.
(47 pages, 20 figures, 3 tables, 11 references)
Thesis deposited in Department of Physics library
Keywords: image / JPEG / sound / MP3 / video / MPEG-4
Supervisor: dr.sc. Davor Kirin
Co - supervisor: dr.sc. Igor Lukačević
Reviewers: doc.dr.sc. Zvonko Glumac
mr.sc. Stjepan Hrpka
Thesis accepted: March 22nd
, 2010
1
1. Uvod
Govoreći o multimediji podrazumijevamo integraciju svih postojećih oblika medijalnih
komuniciranja (digitalni tekst, grafika, fotografija, animacija, video i stereo zvuk.)
Interaktivna multimedija omogućava dvosmjerno komuniciranje u odnosu na TV na koji nemamo
utjecaja. Postoji mišljenje da multimedija postaje alat koji podjednako uspješno koristi poslovni i
umjetnički svijet. Multimedija se može opisati i kao nova filozofija u pristupu računalu koja
ravnopravno koristi sve načine interakcije (tipkovnica, miš, olovka, slika, kretnja, zvuk) [1].
Multimedijalni sadržaji kombiniraju oblike medijalnih komuniciranja, a za njihovu reprodukciju
ranije su korištena vrlo različita sredstva. U posljednje vrijeme za reprodukciju multimedijalnih
zapisa najčešće koristi multimedijalno računalo, a za pohranu podataka CD-ROM ili Internet.
Multimedija predstavlja bilo koju kombinaciju dva ili više medija, predstavljenih u digitalnoj formi,
dovoljno integriranih da mogu biti prikazani preko jedinstvenog sučelja ili ih je moguće obraĎivati
pomoću jedne računalne aplikacije. Pri tome, barem jedan od medija mora biti vremenski definiran,
poput zvuka ili video zapisa.
Distribucija multimedije može se vršiti na više načina:
• on line putem preko mreže od jednog računala do krajnjeg korisnika ili bežičnim sustavima
putem WLAN mreže, te mobilne telefonije
• off line putem preko CD ROM-ova, DVD-a ili kombinacijom CD-a sa poveznicama na
WWW.
Multimedijalni elementi imaju svoje mjesto u mnogim područjima primjene računala. Od web
stranica do programskih paketa namijenjenih igri i učenju predškolske djece.
2
2. Slika
2.1. Analiza i prikaz digitalne slike
Čovjek prima informacije preko svojih čula, ali čulo vida nadmašuje sva ostala svojim velikim
informacijskim kapacitetom. Kratkim razgledanjem neke slike čovjek može primiti količinu
informacija koju bi primio višesatnim slušanjem verbalnog opisa te iste slike. Zato je prijenos slike
na daljinu postao važan faktor efikasnog rada, učenja i zabave suvremenog čovjeka.
Slika može biti prikazana na dva načina: može biti pokretna i mirna. Slika je pokretna kada postoji
pokret u slici, odnosno kada se izgled slike mijenja u vremenu. Na primjer, kod PAL[a]
televizijskog
sustava slike se izmjenjuju 25 puta u sekundi što stvara doživljaj kontinuiranog pokreta u ljudskom
oku. Nije potreban veći broj promjena, jer je ljudsko oko relativno tromo i ne zapaža promjene brže
od navedene. Slike prikazuju kako se intenzitet svjetlosti mijenja po površini. No, svjetlo nije jedini
parametar koji se koristi u znanstvenim prikazima nekih slika. Na primjer, slika može prikazivati:
temperature nekog integriranog kruga, brzine krvi u pacijentovoj arteriji, emisije X-zraka iz
udaljenih galaksija, pomicanja tla za vrijeme zemljotresa, itd. Ove egzotične slike se obično
pretvaraju u konvencionalne slike (tj. slike koje prikazuju promjenu intenziteta svjetla), tako da ih
čovjek može vidjeti njemu smislenim oblicima. Mirne slike sadrže informacije u prostornoj domeni
(engl. spatial domain), što je ekvivalent za vremensku domenu kod informacija (signala) koje se
mijenjaju u ovisnosti o vremenu. Kod mirnih slika, dakle, frekvencija kao pojam koji inače
označava broj promjena (perioda) u vremenu [Hz][b]
gubi svoj smisao, te je stoga potrebno uvesti
pojam prostorne frekvencije.
Vizualna rezolucija p∙v predstavlja broj elemenata slike unutar 1° vizualnog kuta ([element
slike/1°]), a ovisi o udaljenosti promatrača (L [cm]) i o rezoluciji zaslona (p [element slike/cm]),
kako je to shematski prikazano slikom 1. S druge strane, prostorna frekvencija slike v je definirana
kao broj promjena (perioda) unutar 1° vizualnog kuta ([perioda/1°]).
3
Slika 1. Prikaz veze udaljenosti promatrača i područja zaslona obuhvaćenog sa 1° vizualnog kuta
x L tg (1) cm/1
p∙v p∙x p∙L tg (1) element slike /1
Ako bi se na promatranom području zaslona naizmjenično mijenjali crno-bijeli elementi slike, tada
bi na tom dijelu bila tzv. maksimalna frekvencija, koja se definira kao vizualna rezolucija podijeljen
brojem 2:
𝜈𝑚𝑎𝑥 =𝑝∙𝑣
2perioda / 1
Vidi se da se maksimalna frekvencija mijenja u ovisnosti o vizualnoj rezoluciji zaslona i o njegovoj
udaljenosti od promatrača.
Razmak i broj elemenata slike po jedinici duljine ovise o tome koji bi detalji trebali biti viĎeni, prije
nego o formalnim ograničenjima koja su odreĎena teoremom uzorkovanja. Točnije, ako na slici
imamo puno detalja potrebna nam je veća količina elemenata slike po jedinici duljine, tako da ta
količina nije fiksno odreĎena kao što je to frekvencija uzorkovanja kod, npr. televizijske slike.
monitor L
x
10
1
0
4
2.2. Kompresija slike
Prijenos podataka i njihovo skladištenje zahtijevaju odreĎeno vrijeme, memorijski prostor a time i
novac. Što se više podataka obraĎuje, to cijena sve više raste. Unatoč tome, većina digitalnih
podataka nije smještena u svom najkompaktnijem obliku. Oni se prije stavljaju u oblik koji nam je
najpogodniji za korištenje, kao što su: ASCII[c]
tekstovi, binarni kodovi koji mogu biti pokrenuti
odmah na računalu, zasebni podaci dobiveni pomoću sustava za razna mjerenja i sl. Obično su svi ti
podaci, koji se lako pokreću, u prosjeku dva puta veći nego što je potrebno za njihovo prikazivanje.
Kompresija podataka je opći izraz za različite algoritme i računalne aplikacije koji su razvijeni kako
bi se riješio navedeni problem.
Računalne aplikacije za kompresiju se koriste u slučajevima kada želimo pretvoriti podatke iz oblika
u kojima ih je najlakše koristiti u oblik koji je najpogodniji za njihov prijenos i skladištenje.
S druge strane postoje računalne aplikacije za dekompresiju koji vraćaju informacije iz
komprimiranih oblika u njihov prvobitni oblik.
Tablica 1. prikazuje dva različita načina na koja se algoritmi kompresije podataka mogu podijeliti. U
tablici metode su podijeljene u dvije skupine: bez gubitaka (engl. lossless) i sa gubicima (engl.
lossy).
Kompresija bez gubitaka označava postupak u kojem je nakon primjene odgovarajućeg algoritma za
dekompresiju na komprimirani podatak, konačni dobiveni podatak identičan originalnom podatku.
Ovakvi načini kompresije su neophodni u mnogim slučajevima, kao što su npr. kompresija
tekstualnih podataka, EXE datoteka i sl. U tim slučajevima se ne može dozvoliti zamjena ili gubitak
niti jednog jedinog bita, jer se kasnije najvjerojatnije ne bi mogla pokrenuti. S druge strane, datoteke
koje sadrže npr. sliku ne moraju biti savršeno očuvane kako bi se uskladištile ili prenosile.
Digitalizacija signala unosi odreĎenu količinu šuma. Ako se naprave takve promjene na podacima
koje unesu male količine dodatnog šuma u originalni podatak, neće se napraviti velika šteta na
kvaliteti signala. Tehnike komprimiranja koje dopuštaju takve načine degradacije podataka, nazivaju
se tehnike sa gubicima. Ova razlika je bitna zato što su tehnike sa gubicima puno uspješnije pri
komprimiranju nego tehnike bez gubitaka. Što je veći stupanj kompresije (engl. compression ratio),
to se dodaje više šuma u komprimirane podatke [2].
5
Bez gubitaka S gubicima
Run – length
Huffmanov kod
Delta
LZW
CS&C
JPEG
MPEG
Tablica 1. Algoritmi kompresije podataka
Drugi način klasifikacije podataka je prikazan u Tablici 2. Većina programa za komprimiranje
podataka radi na način da uzima blok podataka iz datoteke originala, komprimira ga na svoj način, i
potom takav komprimirani blok snima u izlaznu datoteku. Jedna od metoda kompresije (prikazana u
Tablici 2) je CS&Q[d]
(engl. coarser sampling and/or quantization). Na primjer, neka se komprimira
digitalizirani valni oblik, kao što je audio signal digitaliziran s 12 bita. Mogli bismo učitati 2 bliska
uzorka/bloka iz datoteke originala (24 bita), odbacimo jedan od ta dva uzorka potpuno, odbacimo i 4
najmanje značajna bita i upišemo preostalih 8 bita u izlaznu datoteku. S 24 ulazna bita i 8 izlaznih
bitova smo uveli kompresijski omjer od 3:1 koristeći pri tome algoritam s gubicima. Ovo je vrlo
učinkovit način komprimiranja premda se čini vrlo grub. Koristi se u JPEG[e]
koderu za
komponente boje u YUV[f]
sustavu. Kako je oko manje osjetljivo na promjene boje, ovakav način
kompresije ne unosi vizualno značajne degradacije kvalitete slike [2].
U Tablici 2 je prikazano da CS&Q ima odreĎene vrijednosti ulazne i odreĎene vrijednosti izlazne
veličine blokova, tj. odreĎena vrijednost broja bitova se učitava iz ulazne datoteke originala i od
toga manja odreĎena vrijednost broja bitova se ispisuje u izlaznu datoteku. Neke druge metode, s
druge strane, omogućuju i to da se i ulazni i izlazni broj bitova mogu mijenjati.
U tablici 2 nisu prikazane kompresijske metode JPEG i MPEG[g]
, jer koriste više različitih
algoritama, te se ne mogu svrstati u ovako jednostavne kategorije.
Metoda Veličina bloka
ulazni izlazni
CS&Q
Huffmanova
Aritmetička
Run length, LZW
fiksan fiksan
fiksan promjeniv
promjenjiv promjeniv
promjenjiv fiksan
Tablica 2. Kompresije podataka uz promjenivu veličinu bloka
6
2.3. JPEG - transformacijska kompresija
Razvijene su mnoge metode koje koriste kompresiju sa gubicima. Grupa takvih tehnika, nazvana
transformacijska kompresija, se pokazala kao najvrjednija. Najbolji primjer transformacijske
kompresije je utjelovljen u popularnom JPEG standardu za kodiranje slike.
JPEG je kratica od Joint Photographers Experts Group koja je donijela navedeni standard.
Transformacijska kompresija je zasnovana na jednostavnoj pretpostavci: kada se napravi Fourierova
(ili neku druga) transformacija signala, dobiveni koeficijenti transformacije ne prikazuju više
intenzitet boje/svjetline slike, već prikazuju frekvencijske komponente slike, tzv. koeficijente
transformacije [3].
U tom slučaju, kada se dobiju podaci o frekvencijama umjesto o razinama boje, može se
manipulirati slikom u sasvim drugačijoj domeni nego što je bila početna (mijenja se slika u
frekvencijskoj umjesto u prostornoj domeni).
S frekvencijama slike se bolje manipulira nego s razinama boja, jer se zna kakvo one imaju značenje
za sliku. One su stoga “objektivniji pokazatelji” strukture slike.
Zna se da su za slike komponente nižih frekvencija signala bitnije od viših frekvencija, i stoga
uklanjajući 50% bitova od visokofrekvencijskih komponenata slike, slika se srozava samo za
otprilike 5% u odnosu na original. Na takav način ne bi mogli razmišljati i u originalnoj, odnosno
prostornoj domeni slike.
Iz navedenog se može zaključiti da se mogu komprimirati bolje one slike koje imaju manje izražene
visoke frekvencije. Ako imaju značajne amplitude viših frekvencija (ako imaju puno finih detalja i
rubova) tada ih se ne može dobro komprimirati, a da im se kvaliteta pri tome ne narušava u velikoj
mjeri. Naravno, slike koje imaju slabo izražene visoke frekvencije, odnosno slike s malo detalja i
rubova, moći će se dobro komprimirati. Tada se mogu ukloniti postojeće visoke frekvencije, a da
previše ne utječe na kvalitetu slike. Različite matematičke transformacije su ispitane kako bi se
odredila najpogodnija za komprimiranje podataka: Karhunen-Loeve transformacija osigurava
najbolji mogući kompresijski odnos, no teška je za implementiranje; Fourierovu transformaciju je
vrlo lako koristiti, ali ne osigurava primjerenu kompresiju. Diskretna kosinusna transformacija
(skraćeno, DCT[h]
) zbog jednostavnosti primjene, postojanja brzog algoritma za proračun, te
transformacije slike iz prostorne u frekvencijsku domenu prihvaćena je kao najpogodnija
transformacija za kompresiju slike. Kao što Fourierova transformacija koristi sinusne i kosinusne
7
valove za prikazivanje signala, DCT koristi samo kosinusne valove. Postoji više verzija DCT koje se
neznatno razlikuju.
S druge strane, JPEG standard propisuje postupak kompresije na sljedeći način. Slika se prvo dijeli
na blokove veličine 8x8. Kada se traži DCT nekog bloka podataka veličine 8x8 (kao što je to slučaj
sa slikom), dobije se spektar podataka koji je, takoĎer, veličine 8x8. Drugim riječima, 64 broja
originalnog bloka se “mijenja” u druga 64 broja. Sve nove dobivene vrijednosti su realne, odnosno,
nema kompleksnih brojeva kao što je to slučaj običnom Fourierovom transformacijom. TakoĎer,
kao i u Fourierovoj analizi, svaka vrijednost u spektru je amplituda funkcije baze. Te funkcije za
blokove veličine 8x8 su dane s
𝑏 𝑥, 𝑦 = 𝑐𝑜𝑠 2𝑥 + 1 𝑢𝜋
16 𝑐𝑜𝑠
2𝑦 + 1 𝑣𝜋
16
Jednadžba prikazuje DCT funkciju baze. Varijable x i y su indeksi prostorne domene, dok su u i v
indeksi frekvencijskog spektra (prostorne frekvencije). Ovo vrijedi za 8x8 DCT, čineći na taj način
da indeksi u i v poprimaju vrijednosti 0 do 7.
Slika 2. DCT bloka podataka 8x8
8
Niske frekvencije su u prikazu spektra danom na slici 2 smještene u gornjem lijevom kutu, dok su
visoke frekvencije u donjem desnom. Istosmjerna komponenta je smještena u krajnjem gornjem
lijevom kutu, tj. u točki (0,0). Osnovna funkcija za točku (0,1) je jedna polovina periode kosinusnog
vala u jednom smjeru, dok je u drugom smjeru konstantna. To isto vrijedi i za točku (1,0), samo što
je sve zakrenuto za 90°. Ovaj postupak je zorno prikazan slikom 2.
DCT ima jednu polovinu periode od svoje funkcije baze, tj. S[0,1] i S[1,0]. Kako je to prikazano na
prethodnoj slici, vidi se da se ti valovi “lagano kreću” s jedne strane matrice na drugu. S druge
strane, najniže frekvencije u Fourierovoj transformaciji se sastoje od cijelih perioda. Slike gotovo
uvijek sadrže područja u kojima se svjetlina postupno mijenja, i stoga koristeći osnovne funkcije,
koje odgovaraju tom osnovnom uzorku slike, dobivamo bolju kompresiju.
Slika 3. Blok shema DCT kodera
Kvantizacija
Svaki se DCT koeficijent dijeli sa njemu odgovarajućom veličinom definiranom u kvantizacijskoj
tablici. Ona može može pratiti karakteristiku osjetljivosti ljudskog oka (veći korak kvantizacije za
više frekvencije). Kvantizacija unosi pogrešku (gubitke) u sliku, a sadržaj tablice moguće je
prilagoditi aplikaciji. Povećanjem koeficijenata tablice (kvantizacijskih koraka) povećava se stupanj
kompresije (prikazano na slici 3).
Entropijsko kodiranje - kodiranje bez gubitaka
DC koeficijenti se kodiraju zasebno primjenom DPCM[i]
(engl. Differential PCM). Kodira se razlika
izmeĎu DC koeficijenta danog bloka i DC koeficijenta prethodnog bloka.
9
AC koeficijenti kodiraju se u 3 koraka:
1. cik-cak skeniranje
2. Run-length kodiranje - znakovi koji se često pojavljuju u nizu kodiraju se sa dva simbola: prvi
simbol označava koji je to znak, a drugi simbol označava koliko je istih znakova u nizu
3. Huffmanovo kodiranje - temelji se na pridjeljivanju kraćih simbola grupi znakova koja ima veću
vjerojatnost pojavljivanja (potrebne su kodne tablice)
4. aritmetičko kodiranje - za razliku od Huffmanovog kodiranja, grupa znakova koja se kodira
nema fiksnu duljinu.
2.4. Mirne slike
Mirne slike su digitalne slike, digitalizirane skenerom ili digitalnom kamerom, rentgenske slike,
stvorene hvatanjem video okvira, kreirane grafičkim paketom (aplikacijom za izradu različitih
grafičkih radova, tehničke dokumentacija, obrade slika i sl.), generirane računalnim programom iz
matematičkih funkcija, te pohranjene u digitalnim zbirkama.
Slika 4. Ljudsko oko Slika 5. Kamera
Ljudsko oko slika 4, sfera je promjera oko 20 mm. Sastoji se od rožnice (cornea), mrežnice (retina),
šarenice (iris) i leće (lens). Na principu graĎe oka, izraĎuju se kamere, slika 5.
Mrežnica je prekrivena receptorima:
• Čunjići (cones). Ima ih 6 –7 milijuna. Smješteni su u središnjem dijelu mrežnice, a svaki je
povezan s jednim živcem radi raspoznavanja detalja. Osjetljivi na boju i zaduženi za vid pri
dobrom osvjetljenju (photopic vision).
10
• Štapići (rods). Ima ih 75-150 milijuna, te ih je više vezano na isti živac. Nisu osjetljivi na
boje, ali su osjetljivi na plavi i zeleni dio vidljivog spektra pri niskom intenzitetu svjetla
(scotopic vision).
Fovea (plitka udubina najosjetljivija na svjetlost, odgovorna za oštar središnji vid) nalazi se u
središtu žute pjege, velične je 1.5𝑚𝑚 ∙ 1.5 𝑚𝑚, s gustoćom oko 150000 receptora po mm². U
području fovee centralis se nalazi oko 307000 receptora.
No koliko ovi podaci zvučali savršeno, oko ne percipira uvijek „točne“ boje. Razlog tome je
jednostavan – mozak. On stavlja boje u kontekst, tj. prepoznajemo boju objekta i ako je on u sjeni i
ako je na svjetlu. Zato promatrajući sliku 6, mozak uzima u obzir sjenu koja prekriva polje i prema
tome odreĎuje koje je to polje boje. Čini se da boja pravokutnika prelazi iz svjetlije u tamniju jer
mozak usporeĎuje taj pravokutnik s okolinom koja prelazi iz tamnije u svjetliju.
Slika 6. Optička iluzija boja [8]
Snimanje i prikaz slike
• Ovisno o vrsti slike (rentgen, ultrazvuk, fotoparat,...) koristimo senzore koji detektiraju
energiju izračenu u području elektromagnetskog spektra izvora
• Odziv senzora ovisi o intezitetu zračenja izvora i o refleksiji (ili eventualno apsorpciji) ove
energije od strane objekta koji snimamo
• Sliku možemo prikazati kao dvodimenzionalnu funkciju 𝑓 𝑥, 𝑦 , gdje su x i y prostorne
koordinate
• Kada je slika stvorena fizikalnim procesom, 𝑓 𝑥, 𝑦 ovisi o intezitetu zračenja izvora 𝑖 𝑥, 𝑦
i o količini reflektiranog zračenja 𝑟 𝑥, 𝑦
),(),(),( yxryxiyxf
11
2.5. Boja
Boja je složeni fenomen sa svojim objektivnom i subjektivnom vanjštinom, no nije uvijek
neophodna u slikama. Postoje slike bez boje koje zahtijevaju manje memorije, te su imune na razlike
u prikazu boja na različitim zaslonima.
Boja je subjektivni osjet stvoren u mozgu. Za elektroničku produkciju i manipulaciju bojom trebamo
matematički model (slika 7), koji povezuje subjektivni doživljaj boje sa mjerljivim i ponovljivim
fizikalnim fenomenom. Ipak, vidljivu svjetlost predstavlja elektromagnetski val valnih duljina
izmeĎu 380 nm i 730 nm. Val je odreĎenog intenziteta, a distribucija spektralne snage izvora
definira intenzitet pojedine spektralne komponente.
Slika 7. Matematički model prikaza boja
2.6. Ljudski vid i doživljaj boje
Ljudska mrežnica sastoji se od dvije vrste receptorskih stanica :
• Štapića, koji su neosjetljivi na boju i omogućavaju vid kod niskih intenziteta svjetlosti, te
• Čunjića, kojih postoje 3 vrste, svaka osjetljiva na drugu valnu duljinu. To dovodi do
tristimulus teorije gdje se svaka boja može definirati sa samo 3 komponente različitih težina.
Aditivne primarne boje čine crvena (R – red, 700 nm), zelena (G – green, 546 nm), plava
(B – blue, 436 nm).
Primari RGB (crvena, plava i zelena) koriste se za dobivanje boja aditivnim miješanjem.
12
Za računalne zaslone ne postoji standard odreĎivanja boja (valne duljine) koje odgovaraju ovim
primarima, ali najčešće se koristi preporuka za HDTV[j]
(High Definition TV - televiziju visoke
kvalitete).
Posljedica nepostojanja standarda su velike razlike u prikazu boja na različitim zaslonima, obzirom
da RGB primarima nije moguće prikazati sve valne duljine koje oko vidi.
13
3. Zvuk
3.1. Digitalizacija i kompresija zvuka
Zvuk je u analognom svijetu kontinuirani niz iskazan u vremenu i odreĎenog raspona. Raspon je
moguće približno izmjeriti u bilo kojoj vremenskoj točki [10].
Kod digitalnog zvuka, signal je definiran za točnu vremensku točku te može imati čvrsto definiran
broj vrijednosti. Frekvencijski uzorci od 44.1 KHz i 48 KHz u potpunosti ispunjavaju zahtjeve
rekonstrukcije zvučnih signala u čujnom području čovjeka od 20 KHz.
Prednosti digitalnog zvuka pred analognim su te što se dinamičko područje (razlika najslabijeg i
najglasnijeg zvuka koji se može reproducirati) proširuje na više od 90 dB, kod procesiranja je
moguće ispravljanje pogrešaka, te ubacivanje efekata.
U današnjim sustavima globalne/lokalne komunikacije izuzetnu važnost ima prijenos govora, a sve
više i prijenos audio informacije. Pod audio informacijom podrazumijevamo širi spektar zvukova u
odnosu na govor, što uključuje glazbu, šumove iz prirode, umjetno stvorene zvukove i sl. S obzirom
na razlike ova dva tipa informacije razvijeni su ureĎaji za kodiranje za govor i ureĎaji za kodiranje
za audio, koji koristeći saznanja o svojstvima pojedine informacije, kao i ljudskog vokalnog trakta i
ljudskog slušnog sustava, osiguravaju visoki stupanj kompresije uz zadržavanje kvalitete signala.
Početkom 19. st. napravljen je značajan iskorak u razvoju telekomunikacija. Alexander Graham Bell
razvio je prvi ureĎaj za prijenos govora, dok je u isto vrijeme Thomas Alva Edison napravio prvi
ureĎaj za pohranu audio zapisa tzv. "fonograf". To su bili počeci razvoja pohrane audio informacije i
prijenosa govora. Od Edisonova izuma započeo je razvoj audio industrije pohrane zvuka, a Bellov
izum potakao je razvoj govorne komunikacije na daljinu, telefonije (analogne). Danas audio
informacije zauzimaju važno mjesto u ljudskom životu; od zabave i edukacije do znanstveno-
istraživačkih i medicinskih usluga.
3.2. Analogna pohrana zvuka
Pohranjivanje zvuka u analognom obliku vezano je za pretvorbu energije zvučnog vala u
modifikaciju oblika nekog materijala na kojega se on sprema. U početku su to bili zvučno-
mehanički pretvarači zasnovani na fizičkom pomaku alata za preinaku/promjenu oblika zapisanog
14
materijala, pomicani membranom na kojoj se nalazi. To je ujedno bila i Edisonova zamisao kod
"fonografa" koji je, posredstvom stožastog šupljeg cilindra (lijevka), energiju zvučnog vala
pojačavao pretvarajući je u fizikalnu veličinu pritiska, koji je pak razlikom pritisaka na objema
stranama membrane pomicao/deformirao membranu na kojoj se nalazila igla. Igla je svojim
aksijalnim pomicanjem strugala voštani cilindar ostavljajući tako na njemu spiralni kanal sa
dubinom zareza proporcionalnim snazi i frekvenciji registriranog zvučnog vala.
Ovaj princip je bio temelj za kasniji razvoj gramofona samo su se mijenjali materijali za zapis zvuka
i ureĎaji za pretvorbu energije zvučnog vala u mehanički/fizički pomak igle.
Noviji, moderniji pristup analogne pohrane zvuka temeljen je na Bellovom otkriću - telefonu. Bell je
razvio prvi elektromehanički zvučni pretvornik, čime je otvorio vrata analognoj pohrani zvuka ne u
obliku fizičke preinake zapisanog materijala, nego pohrani zvuka preinakom električnih i
magnetskih svojstava materijala.
Najčešće se primjenjivala magnetska preinaka materijala od čega je nastao prvi magnetofon.
Pohrana zvuka na magnetofon temelji se na principu promjene jakosti struje kroz zapisni
electromagnet sukladno promjeni energije/tlaka zvučnog vala i trajnoj modifikaciji magnetskih
svojstava zapisnog materijala (feromagnetika).
3.3. Digitalna pohrana zvuka
Zvuk sam po sebi predstavlja analognu fizikalnu veličinu (bilo da je ta veličina tlak zraka ili
ekvivalentna električna struja, magnetska indukcija ili drugo), koja je uvijek neprekidna.
Digitalni zapis po definiciji je zapis koji je isprekidan, te se nameće pitanje kako pretvoriti analognu
veličinu (zvuk) u njemu digitalni ekvivalent. Za to nam je prije svega potreban elektromehanički
pretvarač, ali i analogno digitalni pretvornik. Elektromehanički pretvarač koji se najčešće koristi je
mikrofon, a analogno digitalni pretvornik je bilo koji električni analogno digitalni pretvornik.
TakoĎer, uz ove dvije komponente potreban je i sustav za pohranu podataka, a to je najčešće
digitalno računalo.
Princip pretvorbe je sljedeći: nad ekvivalentom zvučnog signala (električni signal, najčešće) izvrši
se vremenska i amplitudna diskretizacija.
15
Slika 8. Vremenska i amplitudna digitalizacija signala
Vremenska diskretizacija signala znači da se u odreĎenim (obično jednakim) vremenskim
intervalima uzima uzorak analognog signala (slika 8). Kako bi se amplituda ovih uzoraka mogla
zapisati odreĎenim brojem bitova - kodom - mora se provesti diskretizacija amplituda –
kvantiziranje. Najčešće dok se obavljaju obje diskretizacije ujedno se obavlja i kodiranje signala.
Pod kodiranjem signala podrazumijeva se da se nad amplitudno diskretiziranim signalom zvuka u
realnom vremenu obavlja i odreĎena matematičko logička operacija u funkciji smanjivanja količine
podataka dobivenih diskretizacijom, a kvantizacija signala se može provesti linearnim i nelinearnim
postupkom [4].
Kod linearne kvantizacije sve amplitude diskretiziranog signala kodiraju se sa jednakim korakom
kvantizacije, što daje jednaki raspon pogreške kvantizacije i šuma kvantizacije na svim amplitudama
signala. To uzrokuje manji odnos snaga signal/šum (S/N) na malim amplitudama, nego na velikim.
Kako ljudsko uho ima po prirodi logaritamsku karakteristiku percepcije jakosti zvučnog vala, daleko
je osjetljivije na pogrešku kvantizacije na malim amplitudama. Zbog toga se za kvantizaciju zvuka
primjenjuje nelinearno - logaritamsko kvantiziranje kod kojeg se mali intenziteti signala uzorkuju sa
većom rezolucijom, odnosno sa manjim korakom kvantizacije, nego što je to slučaj s velikim
intenzitetima (slika 9).
Slika 9. Logaritamsko kodiranje
16
Primjer gdje je takav način koristan je kod prijenosa digitaliziranog zvuka putem telefonske parice
(upleten par žica od bakra, povezuje telefon sa telefonskim pružateljem usluga). Ljudski govor
obuhvaća frekvencije od 50 Hz do 10000 Hz. Za razumljivi ljudski govor dovoljno je prenositi
frekvencijsko područje od 300-3400 Hz. Za digitalizaciju ovakvog signala prema Nyquistovom
zakonu koji kaže da je
𝑓𝑠 = 𝑓𝑚𝑎𝑥 ∙ 2
gdje je 𝑓𝑠 frekvencija uzorkovanja analognog signala, a 𝑓𝑚𝑎𝑥 maksimalna frekvencija signala koji se
uzorkuje, izabire se frekvencija uzorkovanja od 8 kHz. Uobičajeno je da se ovakav signal
logaritamski kvantizira u rezoluciji 8-bita, čime se postiže efektivno kodiranje signala nižih
intenziteta kao sa rezolucijom od 12-bita.
Čujni spektar obuhvaća frekvencije od 20 Hz do 20 kHz, a rezanje frekvencijskih komponenti iznad
15 kHz ne smanjuje značajno kvalitetu zvuka.
3.4. Kodiranje i kompresija audio signala
3.4.1. Kodiranje govora
Kod digitalizacije govora frekvencijom uzorkovanja od 8 kHz, s 8-bitnim nelinearnim kodiranjem
postiže se visoka kvaliteta govora uz protok od 64 kbps[k]
. Novi sustavi telefonije traže veću
kompresiju uz zadržavanje kvalitete, što se osigurava sofisticiranim sustavima za kodiranje, koji se
temelje na iskorištavanju svojstava govora.
Mobilni digitalni telefonski sustavi (GSM), kao i standardi za kodiranje videa, odnosno
multimedijske informacije (MPEG-4), koriste posebne kodere za govor. Najvažniji CODEC-i
(Coder/Decoder) razvijeni za kompresiju govora koji su najčešće u uporabi su:
PCM, ADPCM (Adaptive Differential Pulse Code Modulation), LPC (Linear Predictive Coding) -
računaju se parametri kodera na temelju karakteristika izgovorenog govora, 2.4 kbps protoka,
CELP-Code Excited Linear Prediction - namijenjen isključivo za kodiranje govora uz 4.8 kbps
protok, GSM (RPE-LTP) - Regular Pulse Excitation – Long Term Prediction – Linear Predictive
Coder.
Današnjim metodama kodiranja signala postižu se protoci podataka putem telefonske parice od 64
kbps, pa sve do više Mbps sa specijaliziranim sklopovima. Najjeftiniji dostupni ureĎaji za prijenos
17
podataka putem telefonske parice su modemi koji najčešće koriste diskretnu faznu modulaciju (PSK)
i kompresiju podataka da bi postigli protok podataka s približnih 56 kbps (što je u praksi
maksimalnih 52-54 kbps).
Protoci podataka od više Mbps, takoĎer se mogu ostvariti putem telefonske parice, no ta parica više
nije obična parica, nego su potrebne posebne mjere predostrožnosti polaganja takovih parica, gdje se
pazi na oklapanje parica (izoliranje parica od vanjskih elektromagnetskih utjecaja), kutove i lukove
savijanja žice parice u kombinaciji s posebnim tehnikama kodiranja signala da bi se postigli protoci
ovih iznosa.
3.4.2. Kodiranje audio signala
MPEG-1 Codec je korišten u različitim sustavima digitalnog kodiranja zvuka (u digitalnim
sustavima reprodukcije zvuka za zabavu, radio difuziju, pohranu zvukovnog zapisa). RazraĎena su
tri algoritma kodiranja zvuka koja su meĎusobno usklaĎena: MPEG-1 Layer 1 , MPEG-1 Layer 2,
MPEG-1 Layer 3 (poznatiji kao MP3 format).
Visoki stupanj kompresije uz očuvanje visoke kvalitete signala, MPEG-1 algoritmi postižu
frekvencijskom analizom signala i odbacivanjem frekvencijskih komponenti koje uho ne čuje.
Ulazni signal se dijeli na 32 frekvencijska područja. Nad svakim od tih područja radi se Fourierova
transformacija i primjenjuje se psiho-akustički model maskiranja signala jedne frekvencije jačim
signalom druge frekvencije. Time se reducira količina informacija potrebnih za
spremanje/reprodukciju.
Protok kodiranog zvuka može se kretati u području od 32-448 kbps po kanalu uz uzorkovanje od 32,
44.1 i 48 kHz. Niži protoci ujedno znače lošiju kvalitetu, ali i manju količinu podataka i obratno.
3.5. MPEG-1 Audio Layer 3 (MP3) oblik zapisa
Jedan od najpoznatiji oblika zapisa, koji je u današnje vrijeme raširen i u svakodnevnoj uporabi, je
MPEG-1 Audio Layer 3, poznatiji kao MP3[l]
. To je oblik zapisa za kodiranje audio zapisa koji se
bazira na algoritmu za kompresiju sa gubicima (Lossy compression algorithm). Taj algoritam je
kreiran tako da prilikom kodiranja izbaci neke uzorke s ciljem smanjenja veličine audio snimke, a da
se pritom bitno ne utječe na kvalitetu, tj. da čovjek s prosječnim sluhom ne može osjetiti razliku
18
izmeĎu snimke kodirane u MP3 formatu i snimke koja je pohranjena na CD-u. Najveća prednost je
veličina datoteke koja se dobije kodiranjem u MP3 formatu, pri čemu kodiranjem u području
srednjih bitrate[m]
-a (128 kbit/s) veličina datoteke iznosi svega 1/10 veličine datoteke pohranjene na
Audio CD-u.
Postupak kreiranja datoteke u MP3 formatu započinje kodiranjem audio signala. MP3 koder je
računalna aplikacija koja koristi MP3 kompresijski algoritam za pohranjivanje audio signala u MP3
formatu. Većina MP3 kodera može kodirati audio datoteke pohranjene u drugim formatima (WAV,
WMA,...) u MP3 format. U praksi se za postupak kodiranja uglavnom koriste četiri kodera:
LAME[n]
, BladeENC, Fraunhofer i Xing. Ti koderi dolaze ugraĎeni u raznim programima koji
omogućavaju korisniku da lakše obavi postupak kodiranja. Svaki od tih kodera ima svoje prednosti,
dok kvaliteta kodiranja najviše ovisi o optimiziranosti samog algoritma. Za Fraunhoferov koder se
smatra da najvjernije kodira izvorni audio format u MP3 format, a radi u području frekvencija do 20
kHz. MeĎutim cijena kvalitete je plaćena brzinom. Xing koder je najbrži koder, te kodira zvuk u
frekvencijskom području do približno 20 kHz. Xing nudi mogućnost promjenjivog bitrate-a što
omogućuje dodatno smanjenje veličine datoteke, ali zvuk nije niti približno iste kvalitete kao kod
Fraunhoferovog kodera. LAME koder je u ovom trenutku najbolji i najčešće korišteni koder, a iz
razloga što je open source, omogućena mu je masovna upotreba. Iako je sporiji od Xing kodera, s
LAME koderom se može kodirati do bitrate-a od 320 kbit/s, pri čemu se, na istim postavkama,
osjeti bitna razlika izmeĎu glazbe kodirane Xing i Lame koderima. Pri tome je kvaliteta na strani
LAME kodera. BladeENC je još jedan od kodera koji se koristi u procesu kodiranja, ali ipak rjeĎe u
odnosu na Fraunhofer, LAME i Xing kodere [5].
Dekodiranje MP3 formata je u odnosu na kodiranje puno jednostavniji proces, jer algoritam za
dekodiranje mora jedino pravilno čitati iz niza bitova (bitstream) informacije o spektralnim
komponentama, te na temelju istih mora pravilno obnoviti audio signal. U samim počecima
primjene MP3 kodiranja/dekodiranja, proces je ovisio o karakteristikama sustava na kojima se
odvija, a to se odnosilo prvenstveno na brzinu sklopovlja. Ubrzanim razvojem sklopovlja
karakteristike sustava u pogledu brzine odvijanja kodiranja/dekodiranja, nemaju više toliki utjecaj.
Kvaliteta zvuka datoteke pohranjene u MP3 formatu najviše ovisi o bitrate postavkama (kbit/s), koje
se podešavaju prije samog postupka kodiranja, pri čemu veći bitrate znači da će unutar jedne
sekunde biti sadržano više informacija o izvornom audio sadržaju. Postoji petnaest bitrate-a koji su
prihvaćeni kao standard prilikom kodiranja: 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160, 192, 224,
19
256 i 320 kbit/s s frekvencijama otipkavanja od 32, 44.1 i 48 kHz. Za usporedbu, bitrate CD formata
iznosi 1,411.2 kbit/s (16 bita/uzorku × 44100 uzoraka/sekundi × 2 kanala / 1000 bita/kilobit). Iako bi
se svatko, na prvi pogled, složio da treba bitrate postaviti na najveću moguću razinu (320 kbit/s),
veći bitrate znači da će audio datoteka u MP3 formatu zauzimati više prostora na disku. Niži bitrate
znači manju veličinu audio datoteke, ali je kvaliteta zvuka puno manja, pri čemu postoji velika
mogućnost pojave nepravilnih smetnji, koje nastaju prilikom procesa kompresije, tj. pojave
neželjenih/nepostojećih informacija (pucketanje, pre-echo...)[o]
u odnosu na originalnu snimku.
Kodiranje uz korištenje promjenjivog bitrate-a (Variable Bitrate) nameće se kao vrlo dobro rješenje
kako optimalno kodirati audio sadržaj, a da se pritom maksimalno očuva kvaliteta i da se uštedi na
veličini datoteke.
Datoteka u MP3 formatu sastoji se od višestrukih MP3 okvira, a svaki okvir se sastoji od MP3
zaglavlja i MP3 podatka. Niz uzastopnih okvira naziva se elementarni niz (Elementary Stream). Na
slici 10. prikazana je struktura MP3 datoteke.
20
Slika 10. Struktura MP3 datoteke
21
Vidljivo je da se MP3 zaglavlje sastoji od riječi za sinkronizaciju na temelju koje dekoder pravilno
raspoznaje okvire. Nakon toga slijedi bit koji opisuje MPEG standard, a poslije njega sljedeća dva
bita opisuju sloj MPEG standarda (Audio Layer 3). Preostali bitovi se razlikuju za različito kodirane
MP3 datoteke prvenstveno zbog postavki koje je definirao korisnik, a prethodile su kodiranju u MP3
format. Većina današnjih MP3 datoteka posjeduje ID3 Metadata koji mogu prethoditi ili slijediti
MP3 okvire.
ID3 Metadata je odjeljak koja se nalazi unutar MP3 datoteka, a u kojoj su pohranjene različite
informacije vezane uz dotičnu datoteku. To su informacije o nazivu izvoĎača, albuma, godini
objave, komentare, te još neke informacije koje potpunije opisuju MP3 datoteku i njezin sadržaj.
3.6. Ograničenja i nedostaci MP3 formata
Iako se MP3 smatra vrlo dobrim formatom za optimalno pohranjivanje audio sadržaja, on ipak ima
nekoliko ograničenja i nedostataka koji bitno utječu na njegovu upotrebu u profesionalnoj audio
tehnici. Najveći nedostatak mu je korištenje kompresije s gubicima, pri čemu jedan dio sadržaja ipak
ostaje zauvijek izgubljen. Upravo je cjeloviti sadržaj bitan glazbenicima i ljubiteljima glazbe koji
imaju bolje osjetilo sluha, te su u mogućnosti čuti zvukove na višim frekvencijama od prosječnog
slušatelja. Audio sadržaj pohranjen u CD formatu ima bitrate 1,411.2 kbit/s, dok prilikom kodiranja
u MP3 format bitrate se može podesiti na maksimalnu vrijednost od 320 kbit/s što je više od 4 puta
manje informacija u svakoj sekundi u odnosu na CD format. Drugi problem je što je frekvencijska
rezolucija ograničena veličinom dugih okvira, pri čemu se smanjuje učinkovitost tijekom kodiranja.
Problem postoji i kod nedefiniranog ukupnog vremena kašnjenja kodera/dekodera pri čemu postoji
mogućnost izvoĎenja glazbe bez razmaka izmeĎu pjesama (Gapless playback). Ovo su samo neki od
problema i ograničenja MP3 formata. Neki od tih problema neće niti moći biti otklonjeni zbog
tehničkih ograničenja.
22
4. Video zapis
Razvoj digitalnih sustava za prijenos informacija, te povećanje računalne moći, kao i kapaciteta
memorija, omogućili su raširenu primjenu digitalnog videa. Budući da nekomprimirani video
materijal zauzima puno prostora na medijima na kojima se pohranjuje i traži velike brzine kod
prijenosa mrežom, razraĎene su metode kako da se uz očuvanje kvalitete video materijala osigura
visoki stupanj kompresije videa.
Za različite aplikacije razvijene su meĎunarodne norme za kompresiju videa i pridruženog audia
(MPEG i H.26x norme), koje iskorištavaju prostornu i vremensku zalihost u videu (sažimanje okvira
za obradu signala i vremenske razlike meĎu okvirima), za ostvarivanje potrebnih stupnjeva
kompresije.
4.1. MPEG norme za kodiranje videa
MPEG (Moving Picture Experts Group) je ime radne grupe 11 (work group – WG11) pododbora
SC29. Pododbor SC29 (Coding of Picture, Audio, Multimedia and Hypermedia) jedan je od
pododbora Joint Technical Committee 1 – JTC1 koji je nastao spajanjem ISO (International
Standards Organization) Technical Committee 97 Data Processing) i IEC (International Electro-
technical Commission) TC 46 Microprocessors. Službeni naziv grupe je ISO/IEC
JTC1/SC29/WG11.
MPEG grupa je razvila niz normi za kompresiju videa. Do sada su objavljene sljedeće norme:
MPEG-1, MPEG-2, MPEG-4, MPEG7 i MPEG-21. Zadnje dvije norme, MPEG-7 i MPEG21 ne
daju algoritme za kodiranje videa, već su razvijene za kvalitetniji opis sadržaja različitih medija
(MPEG-1), te za definiranje okvira unutar kojega se ugraĎuju različiti mediji, različitih formata
(MPEG-21).
Različite MPEG norme meĎusobno se razlikuju po brzinama i područjima primjene:
• MPEG-1: brzine oko 1.5 Mbit/s, norma razvijena za kodiranje i pohranu digitalnog signala
• MPEG-2: brzine veće od 10 Mbit/s, norma razvijena za kodiranje digitalnog televizijskog
signala standardne kvalitete, a proširivanjem ulaznih parametara, omogućeno je i kodiranje
HDTV signala
23
• MPEG-4: brzine do 4 Mbit/s ovisno o načinu rada, norma razvijena za primjenu na
Internetu, VoD (Video On Demand), video-telefone, videokonferencije, interaktivne grafičke
aplikacije. Ima bolju zaštitu autorskih prava i veću zaštitu od pogreške.
Postoje četiri ključna procesa kompresije videa:
1. pred-procesiranje - priprema slike za učinkovitije komprimiranje (prilagoĎavanje ulaznih
parametara, poboljšanje kvalitete i sl.).
2. vremensko sažimanje ili meĎu-okvirno kodiranje koristi podatke od više okvira, a rezultat
su P (predviĎanje u odnosu na prethodni okvir) i B okviri (tzv. dvosmjerno predviĎanje koji
za predviĎanje koriste prethodni i sljedeći okvir).
3. prostorno komprimiranje ili unutar-okvirno kodiranje koristi samo podatke od jednog
okvira ili polja, vrlo slično JPEG-u.
4. Rate control – koder može kodirati konstantnom brzinom prijenosa – CBR (Constant Bit
Rate) gdje se kvaliteta mijenja ovisno o sadržaju videa ili promjenjivom brzinom prijenosa –
VBR (Variable Bit Rate) gdje se brzina mijenja ovisno o sadržaju videa.
MPEG-2 komprimiranje asimetričan je proces, tj. onaj kod kojeg je koder puno složeniji od
dekodera. Bitno je napomenuti da su standardom definirani dekoder i video zapis, ali ne i sam koder.
4.2. Profili i razine
MPEG-2 norma uvodi profile i razine koji daju veliku fleksibilnost primjene norme za različite
aplikacije. MPEG-2 definira 5 profila: Simple, Main, SNR, Spatial, High. Profili odreĎuju izlaznu
bitstream sintaksu, odnosno, vezano s tim, podskup alata koji koder koristi.
Većina sustava koji koriste MPEG-2 radi na main profile at main level - MP@ML kao što je slučaj
s SDTV - televizijom standardne kvalitete.
MPEG-4 definira čak 19 profila za prirodne i sintetizirane sadržaje. U praksi se najčešće koriste
Simple Visual, Advanced Simple i Advanced Real-Time Simple Profil.
24
4.2.1. MPEG-4
MPEG-4 je ISO/IEC standard. Završen je u listopadu 1998. godine, a meĎunarodnim standardom
postaje 1999. godine. MPEG-4 je pronašao uspješnu primjenu u digitalnoj televiziji, interaktivnim
grafičkim aplikacijama i interaktivnoj multimediji. Podržava niz različitih tehnologija kako bi
zadovoljio sve potrebe autora, davatelja usluge, te samih korisnika. Omogućuje autorima izradu
sadržaja koji ima znatne mogućnosti i veliku raznolikost. Mrežnim davateljima usluga MPEG-4
nudi transparentne informacije koje se mogu prevesti u prihvatljive signalne poruke koje podržavaju
različite mreže. Korisnicima MPEG-4 donosi veći stupanj interakcije sa samom aplikacijom
(ograničenje interakcije postavlja sam autor).
MPEG-4 standard odnosi se na:
• jedinice za zvučni, vizualni ili audiovizualni sadržaj, nazvanih „media objects“ (mogu biti
prirodni ili sintetizirani)
• opis kompozicije tih objekata radi stvaranja složenog objekta koji definira audiovizualnu scenu
• multipleksiranje[p]
i sinkronizaciju[r]
podataka vezanih uz „media objects“, kako bi se mogli
prenositi mrežom
• interakciju korisnika s audiovizualnom scenom.
4.2.2. Tehnički opis MPEG-4 standarda
Nakon što se podaci prihvate s medija, oni se predaju u prikladni FlexMux demultipleksor[s]
iz kojeg
izlaze elementarni podaci. Elementarni podaci (Elementary Streams) se rastavljaju i prosljeĎuju
prikladnim dekoderima. Dekoderi obnavljaju podatke audiovizualnog objekta, te izvode prikladne
operacije radi rekonstrukcije u originalni audiovizualni objekt spreman za prikazivanje. Dekodiranje
audiovizualnih objekata, zajedno s informacijama koji opisuju scenu, koristi se radi prikazivanja
scene koju je definirao autor. Korisnik ima mogućnost interakcije sa scenom samo ukoliko je to
autor dozvolio. OdreĎenom kombinacijom pojedinih informacija možemo opisati scenu koja je
kodirana i prenijeta do prijemnika kao skup objekata. Počevši od VRML (Virtual reality Modeling
Language), MPEG je razvio binarni jezik za opisivanje scene nazvan BIFS (Binary Format for
Scenes). Scena se opisuje primitivnim objektima, te se ti objekti prenose neovisno jedan od
drugoga. Posebna pažnja se posvećuje parametrima koji opisuju scenu. To se ostvaruje pomoću
karakterističnih parametara čijom se upotrebom poboljšava efikasnost kodiranja objekta (npr.
25
pokretni vektor u video kodiranju). Karakteristični parametri mogu se koristiti za modifikaciju
objekta odnosno mogu odreĎivati položaj objekta na sceni. MPEG-4 audiovizualna scena sastoji se
od nekoliko objekata koji su organizirani hijerarhijski. Scena i individualni objekti opisani su u
čvorovima kao set parametara. Struktura stabla ne mora uvijek biti statička tj. atributi pojedinih
čvorova (parametri koji opisuju položaj pojedinih objekata) mogu se mijenjati ili se u stablo mogu
dodati novi čvorovi.
Slika 11. Primjer MPEG-4 prizora
Na pojedinim stupnjevima hijerarhije možemo definirati tzv. primitive objekata (slika 11):
• mirne slike (npr. pozadina scene)
• video objekte (npr. govornik - bez pozadine scene)
• audio objekt (npr. glas govornika)
26
MPEG-4 opisuje nekoliko primitiva objekata koji mogu biti dvodimenzionalni ili trodimenzionalni.
MPEG-4 definira kodirane predstavnike sljedećih objekata:
• tekst i grafika
• sintetizirana glava govornika i pridruženi glas
• sintetizirani zvuk
Objekt u svojoj kodiranoj formi sadrži opise pojedinih primitiva, što omogućuje neovisnu
interpretaciju (prikazivanje, preslušavanje) pojedinih objekata (audio ili video) bez prikaza pozadine
ili okoliša. U MPEG-4 modelu audiovizualni objekti imaju i prostornu i privremenu veličinu, a svaki
objekt posjeduje svoj lokalni koordinatni sustav. Lokalni koordinatni sustav koristi se za
manipuliranje objektom u prostoru i vremenu. Objekti se pozicioniraju na scenu pomoću posebnih
transformacija lokalnih koordinata u koordinate globalnog koordinatnog sustava. Globalni
koordinatni sustav definiran je u čvoru stabla kao opis glavne scene.
4.2.3. Audio kodiranje
MPEG-4 kodiranje audio podataka podržava alate za prirodni zvuk (govor, glazba) i za sintetizirani
zvuk, koji se temelje na strukturnom opisu. Predstavnik sintetiziranog zvuka može biti dobiven iz
tekstualnog podatka, opisa instrumenta ili iz kodiranih parametara kako bi se omogućili efekti kao
što su jeka i prostornost. Predstavnik omogućuje kompresiju, mogućnost skaliranja i efekte
procesiranja. Alati MPEG-4 audio kodiranja pokrivaju područje od 6 kbit/s do 24 kbit/s, te imaju
ispravnost testa za AM digitalne audio aplikacije (broadcasting application) u suradnji s NADIB
(Narrow Band Digital Broadcasting) konzorcijem.
MPEG-4 standardizira audio kodiranje prirodnih zvukova s brzinom prijenosa od 2 kbit/s pa sve do
64 kbit/s. MPEG-4 omogućuje kodiranje i za brzine manje od 2 kbit/s uz korištenje varijabilnog
kodiranja. Kako bi se omogućila najbolja audio kvaliteta u čitavom području brzine prijenosa
podataka, zajedno s dodatnim funkcijama tehnike kodiranje govora, glavne audio tehnike kodiranja
su integrirane u zajednički framework:
• kodiranje govora s brzinom prijenosa izmeĎu 2 i 24 kbit/s podržano korištenjem HVXC
(Harmonic Vector eXcitation Coding) za brzine prijenosa od 2-4 kbit/s i korištenjem CELP
(Code Excited Linear Predictive) za brzine prijenosa od 4-24 kbit/s
• generalno audio kodiranje za brzine prijenosa iznad 6 kbit/s. Koriste se tehnike TwinVQ i
AAC (audio signal u tom području se otipkava s početnom frekvencijom koja iznosi 8kHz).
27
MPEG-4 definira dekodere za generirane zvukove bazirane na nekoliko vrsta strukturiranih ulaza.
Tekstualni ulaz se konvertira u govor pomoću Text-To-Speech (TTS) dekodera dok se ostali
zvukovi, uključujući glazbu, mogu sintetizirati. Sintetizirana glazba može se obnoviti na vrlo niskim
brzinama prijenosa, a da i dalje dobro opisuje egzaktan zvučni signal. TTS koderi imaju brzinu
prijenosa od 200 bit/s, pa sve do 1.2 kbit/s, što dopušta da se tekst ili tekst s prozodičnim
informacijama (usporedba i trajanje fonema[t]
u rimovnom obliku) kao ulaznim signalima pretvori u
sintetički govor.
4.2.4. Video kodiranje
MPEG-4 algoritmi za kodiranje slike i videa učinkovito predstavljaju vizualni objekt proizvoljnog
oblika, te podržavaju tzv. sadržajno bazirane funkcije. Ti algoritmi podržavaju funkcije koje su
omogućene u MPEG-1 i MPEG-2 standardima uključujući efikasnu kompresiju standardnih
pravokutnih nizova različitih nivoa ulaznih formata, frame rates, dubine piksela, brzine prijenosa i
promjenjivih nivoa prostornog, privremenog i kvalitativnog skaliranja. VLBV ljuska (Very Low
Bitrate Video) podržava algoritme i alate za aplikacije namijenjene tipičnim brzinama prijenosa
izmeĎu 5 i 64 kbita/s podržavajući niz slika niske prostorne rezolucije i niskog frame ratea (tipično
do 15 Hz). Osnovne primjene specijalnih funkcija koje podržava VLBV ljuska su sljedeće:
• kodiranje konvencionalnih pravokutnih nizova s visokom učinkovitosti kodiranja i visokom
zaštitom od greške, niskim vremenom pristupa i niskom složenošću za real-time
multimedijske komunikacijske aplikacije.
• random access i brzo pozicioniranje naprijed - nazad kod VLB multimedijskih baza
podataka i aplikacija.
Područje velikih brzina prijenosa, područje iznad VLBV ljuske, podržava iste osnovne algoritme i
alate kao i VLBV ljuska, samo što se ovdje brzina prijenosa podataka kreće od 64 kbit/s pa do 10
Mbit/s. U ovom području aplikacije sadrže multimedijsko emitiranje ili interaktivni povratni signal
jednake kvalitete kao i digitalni TV signal. Sadržajno bazirane funkcije podržavaju odvojeno
kodirane i dekodirane objekte. Taj dio MPEG-4 standarda omogućuje najviše elementarnih
mehanizama potrebnih za interaktivne aplikacije (raznolikost u prikazivanju i mogućnost izmjene
dijelova video objekata). Za hibridno kodiranje prirodnih i sintetiziranih video podatak sadržajno
bazirano kodiranje omogućuje miješanje video objekata iz različitih izvora s sintetiziranim
28
objektima kao što su npr. virtualne pozadine. Kao što je prije spomenuto, MPEG-4 video podržava
konvencionalne pravokutne nizove slika i videa, a pored toga podržava slike i video sadržaje
proizvoljnih oblika. Kodiranje konvencionalnih slika i videa je slično kao kod MPEG-1 i MPEG-2
kodiranja. To kodiranje koristi predviĎanje i sažimanje, a nakon toga slijedi kodiranje teksture. Kod
slika proizvoljnih oblika kodiranje se svodi na kodiranje oblika slike i njenih informacija. Oblik se
može prikazati kao 8-bitna informacija. Na slici 12. je prikazan osnovni pristup MPEG-4 video
algoritma za kodiranje pravokutnih nizova, te nizova proizvoljnih oblika.
Slika 12. Osnovni blok dijagram MPEG-4 kodera
Osnovna struktura kodiranja sastoji se od kodiranja oblika slike (za video objekte proizvoljnog
oblika) i pokretnog sažimanja, kao što je DCT teksturno kodiranje (koristi se standardna 8×8 DCT
ili prilagodljiva DCT). Jedna od važnijih prednosti korištenja sadržajno baziranog kodiranja je
mogućnost značajnog povećanja učinkovitog kodiranja nekih video slijedova, korištenjem prikladno
odabranih objektno baziranih pokretnih predikcija “alata” za svaki objekt na sceni.
Učinkovito kodiranje vizualnih tekstura i mirnih slika podržava vizualni teksturni mod MPEG-4
standarda. Ovaj mod temeljen je na zerotree wavelet algoritmu, što omogućuje vrlo visoku
29
učinkovitost kodiranja u velikom rasponu brzine prijenosa. Pored toga, omogućuje prostorno i
kvalitetno skaliranje (do 11 nivoa prostornog skaliranja i neprekidnog kvalitetnog skaliranja), te
kodiranje slika proizvoljnog oblika. MPEG-4 podržava kodiranje slika i video objekata s prostornom
i privremenom skaliranošću neovisno o tome da li je riječ o slikama sa standardnim pravokutnim ili
proizvoljnim oblikom. Skalirani podaci nude mogućnost dekodiranja samo dijela bitstreama i
rekonstruirane slike ili slijeda slika pomoću:
• smanjenja složenosti dekodera i kvalitete
• smanjenja prostorne rezolucije
• smanjenja privremene rezolucije
• jednakom privremenom i prostornom rezolucijom, ali sa smanjenom kvalitetom.
Ova svojstva su poželjna kod progresivnog kodiranja slika i videa koji se prenose heterogenim
mrežama, kao i kod aplikacija kod kojih prijemnik nije sposoban prikazati cijelu rezoluciju ili
potpunu kvalitetu slike i video slijeda. Veliki problem može predstavljati i sama jačina procesora, te
hardvera u cjelini.
4.3. Profili i razine kod MPEG-4
Profili za prirodne video sadržaje su
• Simple Visual Profile - koristi se za male brzine i rezolucije, s visokom otpornosti na šum -
mobilne aplikacije, pravokutni okviri.
• Simple Scalable Visual Profile - uključuje opciju skalabilnosti za primjene s mogućnošću
promjene parametara kvalitete (Internet, programski dekoderi, pravokutni okviri).
• Core Visual Profile - podržava kodiranje objekata proizvoljnog oblika s mogućnošću
skalabilnosti, uključuje i jednostavno meĎudjelovanje (Internetske multimedijske aplikacije).
• Main Visual Profile - podržava kodiranje interlaced videa, sprite objekata i standardnih
objekata (8x8, 16x16) - za interaktivni video za DVD i difuziju.
• N-bit Visual Profile - kodiranje objekata sa dubinom bita od 4 do 12 – za video nadzorne
sustave.
Simple Visual Profile je VLBV Core[u]
model codeca (engl. Very Low Bit-rate Video Core), koji vrši
kodiranje pravokutnih okvira, male brzine. Osnovna struktura kodiranja sastoji se od blok DCT
kodiranje, te predviĎanja pokreta:
30
• I-VOP - 8x8 blok DCT, kvantizacija, cik-cak skeniranje, te run-length i variable-length
kodiranje
• P-VOP - standardna procjena i ravnoteža pokreta na makroblokovima 16x16 elemenata
okvira, razlučivost ½ piksela
Dodatni alati povećavaju učinkovitost kodiranja i prijenosa poput 4 vektora pokreta po makrobloku,
neograničeni vektori pokreta, te video paketi, dijeljenje podataka, reverzibilni kodovi promjenjive
duljine, kratko zaglavlje s GOB-ovima[v]
.
Profili za prirodne video sadržaje (dodani u verziji 2):
• Advanced Real-Time Simple (ARTS) - napredne tehnike zaštite od pogreške za pravokutne
video objekte, korištenje povratnog kanala, mogućnost korištenja proizvoljnog referentnog
okvira (tj. VOP-a), mogućnost smanjenja rezolucije kod loših uvjeta prijenosa, malo
kašnjenje – videotelefonija, videokonferencije, daljinski nadzor.
• Core Scalable Profile - kodiranje objekata s opcijom vremenske, rezolucijske i SNR
skalabilnosti - za Internet, mobilne i broadcast primjene.
• Advance Coding Efficiency (ACE) - unaprijeĎena efikasnost kodiranja i za blok kodiranje i
za objektno kodiranje – primjene za mobilnu TV difuziju, kamere.
Profili za prirodne video sadržaje (dodani u sljedećim verzijama standarda)
• Advaced Simple Profile - koristi se za pravokutne objekte, s dodatnim alatima: B okviri,
kompenzacija pokreta na ¼ piksela, globalna kompenzacija pokreta, dodatne kvantizacijske
tablice, interlaced alati.
• Fine Granularity Scalability Profile - koristi se za sloj poboljšanja dozvoljava prekid bitnog
niza na bilo kojoj poziciji - kao osnovni sloj može koristiti Simple ili Advance Simple profil.
• Simple Studio Profile - profil za visoko kvalitetni video za studijske aplikacije. Koristi i
okvire, ali i objekte proizvoljnog oblika i višestruke alfa kanale - brzine do 2 Gb/s.
• Core Studio Profile - dodaje P okvire na Simple Studio.
4.4. Vrste okvira
Vrste okvira su:
• Intracoded frame (I-frame) je tzv. independant frame koji ne nastaje iz drugog okvira.
31
• Reference frame (R-frame) su okviri iz kojih se konstruiraju drugi okviri (I i P okviri).
• Predicted frame (P-frame) je okvir koji nastaje samo iz (nekog od) prethodnih okvira. Uvijek
nastaje od I-okvira.
• Bidirectional frame (B-frame) je okvir koji nastaje od (nekog od) prethodnih i od (nekog od)
slijedećih okvira. Obično nastaje iz I-okvira i P-okvira.
Slijed kodiranja:
1. nekoliko okvira treba staviti u spremnik (buffer)
2. prvo se kodira I-okvir
3. zatim P-okviri, onda svi B-okviri izmeĎu I i P
4.5. Video – pokretne slike
Za stvaranje dojma pokreta, odnosno pokretne slike na zaslonu se izmjenjuju slike odreĎenom
brzinom, tablica 3.
Ovdje se koristi pojava “tromosti oka”, odnosno svojstvo oka da kraće vrijeme zadržava sliku koja
više ne postoji. Svaka statična sličica se zove okvir (frame). Brzina izmjene okvira u mjeri se u fps
(engl. frames per second). Što je veća brzina, pokret je glaĎi.
Brzina izmjena okvira Vrsta video signala
< 10 fps vidi se izmjena slika
10 - 16 fps iskrzani pokreti
24 fps filmska traka
25 fps
30 fps
TV- PAL
TV - NTSC
60 fps HDTV
Tablica 3. Povezanost kvalitete signala sa brzinom izmjene okvira
4.6. Standardi video signala
MeĎunarodni standardi za prenošenje i prikaz televizijske slike u svijetu su: NTSC koji se koristi u
SAD-u, Kanadi, Japanu, PAL koji je uobičajen u Europi, Kini, Australiji, te SECAM u primjeni u
32
Francuskoj. Oni se razlikuju po načinu na koji se informacije kodiraju kako bi proizvele elektronski
signal, koji stvara TV sliku i nisu meĎusobno kompatibilni.
NTSC
TV kadar na ekran crta elektronska zraka koja njime prolazi 2 puta (ispreplitanje engl. interlacing).
Pri tome se TV slika doima stabilno, bez titranja, a kadar ima rezoluciju od 525 vodoravnih crta, sa
iscrtavanjem od 30 kps. Omjer slike je 4:3.
PAL
Koristi metodu dodavanja boje crno-bijelom TV signalu koja iscrtava 625 vodoravnih crta s 25 kps
i, takoĎer, koristi ispreplitanje.
HDTV (engl. High Definition Television)
Standard koji za prijenos i prikaz TV slike koristi digitalni umjesto analognog signala, čime se
dobije kvalitetnija slika prilikom iscrtavanja 1080 vodoravnih crta s 60 kps. Omjer slike je 16:9 [6].
33
5. Pohrana medija
5.1. Formati za snimanje video zapisa
Formate za snimanje video zapisa dijelimo na dvije osnovne skupine. Tako postoje analogni: VHS,
8mm (niže kvalitete), SVHS, Hi8 (više kvalitete) i digitalni: HD DVD, Blu-Ray Disc, DV, DVD,
mini DVD, VCD, SVCD.
Analogni signal čini tradicionalni oblik videa na kojem se temelji televizijski video i video na
kazetama različitih formata (VHS, S-VHS, Beta). On se u osnovi sastoji od niza pojedinačnih slika
(kadrova), gdje prikazivanje većeg broja kadrova u sekundi stvara iluziju kretanja (24-30 kadrova u
sekundi). Standardna rezolucija je 720x480, odnosno 350 000 pixela.
Osnovni problem analognog signala je generacijski gubitak (engl. generational loss), odnosno svaka
kopija videa lošija je od prethodne. Javlja se radi potrebe pojačavanja analognog signala kod
kopiranja, odreĎenom količinom šumova.
Kod digitalnog signala u multimedijskim projektima je svaki piksel pojedinih kadrova predstavljen
binarnim brojevima. Tu su bitna bitna 4 elementa: broj kadrova u sekundi, veličina prozora unutar
kojeg se prikazuje video, kvaliteta slike, brzina prijenosa podataka ureĎaja za pohranu (hard disk,
CD-ROM).
Princip iluzije kretanja je kao i kod analognog videa s manjim brojem kadrova u sekundi (10-15
kps) . Ukoliko se broj kadrova spusti ispod 10 kps, sve izgleda kao serija slika.
Prednosti korištenja digitalnog videa su niža cijena, poboljšana interaktivnost (brzi dohvat bilo kojeg
dijela filma), potrebno manje mjesta za pohranu i lako ureĎivanje.
Digitalni formati su:
• HD DVD (High-Definition Digital Video Disc) je digitalni optički medij razvijen i
prvenstveno namijenjen za zapis video signala visoke razlučivosti. Može pohraniti 15 GB
(jednoslojni), odnosno 30 GB memorije (dvoslojni).
• Blu-Ray Disc je digitalni optički medij razvijen za pohranu video signala visoke
razlučivosti, video igrica (za Sony Play station) i podataka. Može pohraniti 27 GB memorije
(jednoslojni), 54 GB memorije (dvoslojni), 100 GB (četveroslojni) i 200 GB (šesteroslojni).
34
• DV je format univerzalno prihvaćen za digitalne kamere. Komprimiranje podataka od oko
3.5 MB/sec kvalitete veće od analognih formata.
• DVD (Digital Versatile Disc) je DVD-Video format snimljen na DVD-R ili DVD-RW disk,
sadrži visokokvalitetni video (MPEG-2) i audio
• miniDVD format je sličan DVD-u, ali sadrži mogućnost pohrane 18 minuta videa.
• VCD Video Compact Disc' je video format snimljen na CD-ROM disk s videom i audiom
koji obično može sadržavati oko 74 minute videa. Sprema se u MPEG-1 formatu kvalitete
približno jednake kao VHS video.
• SVCD (Super Video Compact Disc) je format snimljen na CD-ROM disk s
visokokvalitetnim videom i audiom, koji obično može sadržavati oko 35~45 minuta
(650MB) videa i stereo zvuka spremljenih u MPEG-2 formatu.Kvaliteta SVCD videa bolja
je od VHS kvalitete.
DVD, miniDVD, VCD i SVCD formati za pohranu videa na CD-R/RW diskovima su formati
koji se mogu izvoditi na računalima ili kućnim DVD playerima.
5.2. Formati za snimanje audio zapisa
Postoje različiti oblici zapisivanja audio signala. Njihov razvoj je slijedio iz zahtjeva pojedinih
aplikacija koje su koristile zvuk. Mogu se podijeliti obzirom na tehnologiju zapisa na:
• Mehanički zapis i reprodukcija koji izravno pretvara valni oblik zvuka u mehanički urezane
udubine na fonografu ili gramofonskoj ploči
• Magnetski zapis i reprodukcija čiji se postupak izvodi predmagnetiziranjem (magnetska
traka, magnetski disk, magnetooptički disk)
• Optički zapis i reprodukcija (celuloidni film, CD, DVD, Blu-Ray)
• Elektronski zapis i reprodukcija (flash memorije)
S druge strane, dijelimo ih obzirom na sadržaj na:
• Analogne, kod čije se reprodukcije zapis pretvara u kontinuiranu električnu veličinu od
amplituda –A do +A. Bitno je imati konstantnu amplitudnu karakteristiku radi sprječavanja
izobličenja. Primjer medija su: gramofonska ploča, magnetska traka, optički zapis na film, te
• Digitalne kod čije se reprodukcije zapis pretvara u električne veličine koje se pridjeljuju
naponskim veličinama za 1 i 0. Ovdje postoje manji zahtjevi na amplitudnu karakteristiku,
35
no veći kod sinkronizacije bitova. Primjeri medija su: kompozitni disk CD, DAT Digital
Audio on Tape, DCC Digital Compact Cassette, Mini Disc.
Najrašireniji standard za komercijalni zapis audio signala je Compact Disc (CD, CD-ROM, CD-R,
CD-RW). CD-i su dostupni u dvije standardne veličine. Najrašireniji su 120mm promjera, kapaciteta
74 minute i 650 MB podataka i 80 minutni za 700 MB podataka. Podaci na medij pohranjuju se kao
niz mikro-udubina dubokih oko 100 nm, širine 500 nm i duljine oko 850nm (slika 15). Čitanje
zapisa odvija se pomoću lasera od 780 nm, fokusiranog kroz dno polikarbonskog sloja. Razlika
izmeĎu udubina i tzv. ”dolina” (ravni dio, eng. “land”) dovodi do promjene izmeĎu faze svjetla
reflektiranog u slučaju udubine i svjetla reflektiranog u slučaju “doline”. Ovaj proces ima
objašnjenje u činjenici da je laser izvor koherentne svjetlosti, odnosno ta svjetlost interferira.
Interferencija je superpozicija dvaju valova koji su meĎusobno koherentni (imaju istu frekvenciju).
Ukoliko imamo dva vala iste valne duljine, odaslana iz istog izvora, koji nailaze na prepreku i budu
ogibnuti, a prolaze kroz prostor s istim amplitudama i frekvencijama, ali meĎusobno pomaknuti u
fazi, bit će ispunjeni uvjeti za interferenciju.
Slika 13. Ogib na pukotini Slika 14. Intenzitet svjetlosti
Val dolazi na pukotinu (slika 13), a iz svakog dijela pukotine pod kutom izlazi elementarni val
amplitude E0. Kut može poprimiti vrijednosti od 0 do ± /2 rad. Ukupna amplituda E() u smjeru
dobiva se u točki u beskonačnosti zbrajanjem svih amplituda valova koje imaju ogib za kut .
Pukotinu širinu d podijelimo na m dijelova:
sina
36
Uvjet za mimimum:
Uvjet za maksimum:
Ovisno o pomaku u fazi, na nekim mjestima će i prvi i drugi val oba imati pozitivnu ili negativnu
amplitudu, dok će na drugim mjestima jedan imati pozitivnu, a drugi negativnu amplitudu. Na
nekim mjestima će rezultirajući val imati povećanu amplitudu, a na nekim mjestima umanjenu
amplitudu. Kod CD-a, upadni valovi svjetlosti dopiru do premaza na stražnjoj strani CD-a, te zbog
njegove mikroskopske strukture bivaju ogibnuti. Tu dolazi do difrakcije, što rezultira
interferencijom. Na optičkoj rešetki (kod koje se interferencija svjetlosnih valova dogaĎa na isti
način kao i kod jedne pukotine (slika 13.), jer utori optičke rešetke djeluju kao pukotine, a brijegovi
kao neproziran zid) se zraka cijepa na tri malo razmaknute zrake. Prolazeći kroz sustav leća prema
CD-u, tri zrake se fokusiraju na stazu koju želimo pročitati i meĎuprostore lijevo i desno od nje na
spirali s podatcima, zrake se reflektiraju od aluminijske površine CD-a i vraćaju istim putem natrag.
Udubljenja su bliža reflektivnoj strani tako da izobličenja i prašina na čistoj strani mogu biti
zanemarena, no disk zbog toga trpi više štete u slučaju oštećenja na reflektivnoj strani.
2
2
0
2
sin
sinsin
)(
sin
sinsin
)0()(
sinsinsinlim
)sinsin(
sinsin
)0()(
d
d
II
EIjeJer
d
d
EE
d
m
dm
m
dm
d
EE
m
kd sin
2
12sin
kd
37
Slika 15. Građa CD-R diska
Digital video disc, poznatiji kao DVD, ne služi isključivo za pohranu audio signala, nego i video
signala, te općih digitalnih podataka. O tome govori i uvjerenje o izvornom značenju kratice DVD,
digital versatile disc, odnosno svestrani digitalni disk. Izgledom i veličinom je gotovo identičan CD
disku, a dijeli se na: DVD-ROM, DVD-R, DVD-RW, DVD-RAM, DVD+R, DVD+RW DVD+R
DL, DVD-Audio s različitim osobinama zapisa (slika 16) i DVD-Video diskove. DVD-Audio
diskovi sadržavaju jaku zaštitu od kopiranja zvanu Content Protection for Prerecorded Media
(CPPM)
Slika 16. DVD-Audio osobine zapisa
38
5.3. Blu-Ray
Blu-ray Disc (takoĎer poznat kao BD ili Blu-Ray) je optički disk za pohranu medija osmišljen kao
zamjena standardnom DVD formatu. Ime Blu-ray Disc dolazi od plavo-ljubičastog lasera koji se
koristi za čitanje diska. U odnosu na standardni DVD koji se koristi crvenim laserom od 650 nm,
Blu-ray koristi kraće valne duljine, 405 nm plavo-ljubičastog lasera (valna duljina obrnuto je
proporcionalna sa energijom), te omogućava gotovo deset puta veću pohranu podataka nego DVD.
Korištenje kraće valne duljine lasera omogućuje znatno manje mjesta za fokusiranje na reflektivnom
sloju medija, što omogućava spremanje manjih segmenata podataka, odnosno veće količine
podataka. Blu-ray Disc postoji u 3 izvedbe: kao BD samo za učitavanje, kao BD-R za učitavanje i
jednostruki zapis i kao BD-RE za učitavanje i višestruki zapis podataka [11].
Kapacitet podataka koji je moguće pohraniti na optički disk, odreĎen je valnom duljinom λ i
numeričkim otvorom NA (engl. Numeric Aperture)
kapacitet ~ NA
λ ²
Valna duljina ne bi trebala biti manja od 400 nm, jer se ispod te vrijednosti javljaju problemi s
optičkim karakteristikama plastike koja naglo gubi karakteristike. Numerički otvor definira se kao
stupanj konvergencije svjetlosne zrake koju leća može postići (slika 17).
39
Slika 17. Značenje numeričkog otvora
Za ostvarivanje kapaciteta, osim povećanja numeričkog otvora i smanjenja valne duljine, radi se i
optimizacija debljine zaštitnog sloja. Smanjenjem debljine zaštitnog sloja, lakše se postiže
povećanje kapaciteta, no povećava se osjetljivost na prašinu, a samim time i greške prilikom čitanja
medija. Za izvedbu je odabrana je debljina zaštitnog sloja od 0.1 mm.
Po strukturi diska, osnovna podjela Blu-raya je na jednoslojne i dvoslojne (postoje i diskovi koji
imaju do 8 slojeva).
Jednoslojni disk (Single layer Blu-ray) može pohraniti do 25 GB podataka (oko 13 sati video zapisa
standardne kvalitete), dok dvoslojni disk (Dual layer Blu-ray) može pohraniti do 50 GB podataka
(dovoljno za više od 20 sati video zapisa standardne kvalitete).
40
Slika 18. Jednoslojni disk
Jednoslojni disk (slika 18), sastoji se od 1.1 mm debele polikarbonatne podloge, nakon nje je sloj na
kojem se zapisuju podaci, te 0.1 mm debeli zaštitni sloj. Sloj izmeĎu sloja za podatke i površine
diska iz smjera upadnog zračenja je u potpunosti propustan za svjetlost valne duljine 405 nm.
Slika 19. Dvoslojni disk
41
Dvoslojni disk (slika 19) je strukture slične jednoslojnom, s razlikom da, izmeĎu podloge i zaštitnog
sloja, sadrži dva podatkovna sloja, izmeĎu kojih se nalazi 25 μm debeli sloj za odvajanje. Debljina
zaštitnog sloja je ovdje 75 μm, radi održanja ukupne debljine 1.2 mm.
5.3.1. Fizička izvedba Blu-ray diska
Fizičku strukturu diska čine staze (engl. tracks). Format staze je snimanje urezivanjem (engl.
groove-recording), a podaci se zapisuju u utor (engl. in groove ) ili na utor (engl. on groove).
Slika 20. Zapisivanje podataka
Utor (engl. groove) je dio diska na kojeg se snima pomoću laserske zrake. IzmeĎu dvaju susjednih
utora nalazi se udubljenje (engl. land) koje sprječava prijelaz topline prilikom snimanja na susjedne
utore. Tako se sprječava slabljenje kvalitete snimke zbog utjecaja na podatke u susjednom utoru.
Razmak izmedu dvaju utora je 0.32 μm.
5.4. Budućnost digitalne pohrane
Trenutno se u svijetu ostvario veliki napredak u razvoju tehnologije digitalne pohrane podataka
upotrebom holograma. Takva tehnologija će omogućiti da se na diskovima standardne veličine
pohrani količina podataka jednaka onoj koja stane na stotinu DVD-ova. Novi sustav pohranjuje
digitalne informacije na hologramima koje iščitavaju maleni laseri. Došlo se do mogućnosti 200-
strukog povećanja reflektivne snage holograma, zbog čega ih mogu očitati postojeći Blue-ray
42
ureĎaji. To bi moglo rezultirati razvojem ureĎaja koji će uz CD-e, DVD-e i Blu-ray diskove
očitavati i tzv. mikroholografske diskove, na koje bi se moglo pohraniti 500 gigabajta podataka,
43
6. Zaključak
Tehnologija za digitalnu obradu signala se usavršava iz dana u dan, a pohrana pokretne slike
popraćene sa zvukom doživljava nagli porast zahvaljujući razvoju multimedijskih komunikacija.
Kvalitetniji prijenos, te pohrana slike i videosignala uz smanjivanje raspoloživog prostora za
pohranu, potiče znanstvenike za otkrivanje novih mogućnosti. Današnje društvo postavlja visoke
granice prihvatljive kvalitete zvučnog i video signala, pa je samim time MPEG-4 postupak
kodiranja, jedan od onih čiji se temelj zasniva na poznavanju svojstava ljudskog vizualnog sustava.
Sva istraživanja u budućnosti imaju isti cilj, a to je predočiti sliku, zvuk i pokret, udaljenom
korisniku, što vjernije originalu. Kao da se nalazi na koncertu, pliva u moru ili sluša opernu ariju.
44
7. Literatura [1] Bakotin, Davor: Modeliranje i simulacija složenih mehanizama u prostoru stanja korištenjem
osobnog računala, Diplomski rad, FESB Split, 1993.
[2] Lončarić, Sven: Digitalna obrada slike, HTML dokumet, Zagreb, 1995.-2004.
[3] Jain, Anil K.: Fundamentals of Digital Image Processing, Prentice Hall, 1989
[4] Steinmetz R., Nahrstedt K., Multimedia Fundamentals: Media coding and Content processing,
Prentice-Hall, 2002.
[5] IEEE Signal Processing Magazin, July 2003., Vol. 20, No.4
[6] Vidi časopis, listopad 2007., broj 139
[7] Overview of the MPEG-4 Standard
URL: http://mpeg.chiariglione.org/standards/mpeg-4/mpeg-4.htm (25.4.2008)
[8] Optical illusion
URL: http://en.wikipedia.org/wiki/File:Optical_grey_squares_orange_brown.svg
(25.04.2008)
[9] High definition television
URL: http://en.wikipedia.org/wiki/HDTV (25.04.2008)
[10] Zvuk
URL: http://www.carnet.hr/referalni/obrazovni/imme/mmelem/audio.html (10.05.2009.)
[11] Blu-ray
URL:http://www.blu-raydisc.com/Assets/Downloadablefile/general_bluraydiscformat-
15263.pdf (30.01.2010.)
45
8. Popis oznaka i kratica
[a]PAL (engl. phase alternation line) – televizijski sustav, prenosi se 50 poluslika u sekundi koje
imaju po 625 linija
[b]Hz (Hertz) – mjerna jedinica za frekvenciju u MeĎunarodnom sustavu (SI)
[c]ASCII (engl. American Standard Code for Information Interchange) - američki standardni
znakovnik za razmjenu obavijesti, način kodiranja znakova temeljen na engleskoj abecedi
[d]CS&Q
(engl. coarser sampling and/or quantization) – metoda kompresije podataka s gubicima
[e]JPEG (engl. Joint Photographic Experts Group) – komprimirani slikovni format s gubicima
[f]YUV - sustav boja koji se koristi u analognim televizijskim sustavima, vektorski zapis boje u
trodimenzionalnom prostoru
[g]MPEG (engl. Moving Picture Experts Group) - organizacija koja sastavlja standarde za kodiranje
audio i video signala
[h]DCT (engl. Discrete cosine transform) - matematička transformacija temeljena na Fourierovim
transformacijama
[i]DPCM (engl. differential pulse-code modulation) - modulacija signala kodera koji za osnovu
koristi PCM (digitalni prikaz analognog signala)
[j]HDTV (engl. High-definition television) - televizija visoke rezolucije
[k]kbps (engl. kilobit per second) - mjerna jedinica za brzinu prijenosa podataka u računarstvu i
komunikacijama
[l]MP3 (MPEG-1 Audio Layer 3) - format za kodiranje audio signala, uz postojeće gubitke u
sažimanju
[m]bitrate - broj bitova koji se prenose u jedinici vremena
[n]LAME – besplatna računalna aplikacija koja se korist za kodiranje audio signala u MP3 format
[o]pre-echo - neprirodne smetnje koje se javljaju pri sažimanju audio formata
[p]mutipleksiranje - proces kombiniranja više analognih i digitalnih signala, u jedan signal
[r] sinkronizacija - proces usklaĎivanja početnih podataka sa krajnjim podacima
[s]FlexMux demultipleksor - ureĎaj za dekombiniranje signala, daje elementarne podatke o signalu
[t] fonem - najmanja jedinica jezika koja nema svoje značenje, ali razlikuje značenje
46
[u]Very Low Bit-rate Video Core - podržava algoritme i alate za aplikacije namijenjene tipičnim
brzinama prijenosa izmeĎu 5 i 64 kbita/s, podržavajući sekvence slika niske prostorne rezolucije (do
CIF rezolucije) i niskog frame rates (tipično do 15 Hz)
[v]GOB - grupa blokova, 33 makro bloka
47
9. Životopis
RoĎen sam 01.05.1980. godine u Osijeku. Osnovnu i srednju (elektrotehničku) školu, završio
sam u Valpovu. 2002. godine upisujem Pedagoški fakultet u Osijeku, studij Fizike i tehničke kulture
s informatikom.
U slobodno vrijeme bavim se fotografijom.