DIGITALNA POHRANA SLIKE I ZVUKA - mathos.unios.hrmdjumic/uploads/diplomski/KOP07.pdfFormati za snimanje video zapisa ..... 33 5.2. Formati za snimanje audio zapisa ... poput zvuka

SVEUČILIŠTE JOSIPA JURJA STROSSMAYERA U OSIJEKU

ODJEL ZA FIZIKU

DALIBOR KOPRIVNJAK

DIGITALNA POHRANA SLIKE I ZVUKA

Diplomski rad

Osijek, 2010.

ii

SVEUČILIŠTE JOSIPA JURJA STROSSMAYERA U OSIJEKU

ODJEL ZA FIZIKU

DALIBOR KOPRIVNJAK


Diplomski rad

Predložen Odjelu za fiziku Sveučilišta J. J. Strossmayera u Osijeku

radi stjecanja zvanja profesora fizike i tehničke kulture s informatikom

Osijek, 2010.

iii

Sadržaj

1. Uvod .............................................................................................................................................. 1

2. Slika ............................................................................................................................................... 2

2.1. Analiza i prikaz digitalne slike .................................................................................................. 2

2.2. Kompresija slike ........................................................................................................................ 4

2.3. JPEG - transformacijska kompresija ......................................................................................... 6

2.4. Mirne slike ................................................................................................................................. 9

2.5. Boja ......................................................................................................................................... 11

2.6. Ljudski vid i doživljaj boje ...................................................................................................... 11

3. Zvuk ............................................................................................................................................. 13

3.1. Digitalizacija i kompresija zvuka ............................................................................................ 13

3.2. Analogna pohrana zvuka ......................................................................................................... 13

3.3. Digitalna pohrana zvuka .......................................................................................................... 14

3.4. Kodiranje i kompresija audio signala ...................................................................................... 16

3.4.1. Kodiranje govora ................................................................................................................. 16

3.4.2. Kodiranje audio signala ....................................................................................................... 17

3.5. MPEG-1 Audio Layer 3 (MP3) oblik zapisa .......................................................................... 17

3.6. Ograničenja i nedostaci MP3 formata ..................................................................................... 21

4. Video zapis .................................................................................................................................. 22

4.1. MPEG norme za kodiranje videa ............................................................................................ 22

4.2. Profili i razine .......................................................................................................................... 23

4.2.1. MPEG-4 ............................................................................................................................... 24

4.2.2. Tehnički opis MPEG-4 standarda ........................................................................................ 24

4.2.3. Audio kodiranje ................................................................................................................... 26

4.2.4. Video kodiranje ................................................................................................................... 27

4.3. Profili i razine kod MPEG-4 ................................................................................................... 29

4.4. Vrste okvira ............................................................................................................................. 30

4.5. Video – pokretne slike ............................................................................................................. 31

4.6. Standardi video signala ........................................................................................................... 31

5. Pohrana medija ........................................................................................................................... 33

5.1. Formati za snimanje video zapisa ........................................................................................... 33

5.2. Formati za snimanje audio zapisa ........................................................................................... 34

5.3. Blu-Ray ................................................................................................................................... 38

5.3.1. Fizička izvedba Blu-ray diska ............................................................................................. 41

iv

5.4. Budućnost digitalne pohrane ................................................................................................... 41

6. Zaključak ..................................................................................................................................... 43

7. Literatura .................................................................................................................................... 44

8. Popis oznaka i kratica ................................................................................................................. 45

9. Životopis ...................................................................................................................................... 47

v

Sveučilište J. J. Strossmayera u Osijeku Diplomski rad

Odjel za fiziku


DALIBOR KOPRIVNJAK

Sažetak

U ovom radu su pobliže opisane tehnike obrade i pohrane digitalnog signala. Teorijska

obrada započinje s analizom vizualnog signala, odnosno slike, njenom kompresijom i doživljajem

boja. Naredni dio analizira audio signal, odnosno zvuk, njegovu kompresiju, pohranu i kodiranje.

Završni dio analizira video signal, norme i razine kodiranja, te standarde video signala.

Detaljnija obrada se vrši na trenutno najzastupljenijim oblicima obrade pojedinog signala, JPEG

formatu za sliku, MP3 formatu za zvuk i MPEG-4 formatu za video signal.

(47 stranica, 20 slika, 3 tablice, 11 literaturnih navoda)

Rad je pohranjen u knjižnici Odjela za fiziku

Ključne riječi: slika / JPEG / zvuk / MP3 / video / MPEG-4

Mentor: dr.sc. Davor Kirin

Komentor: dr.sc. Igor Lukačević

Ocjenjivači: doc.dr.sc. Zvonko Glumac

mr.sc. Stjepan Hrpka

Rad prihvaćen: 22.03.2010.

vi

Josip Juraj Strossmayer University in Osijek Bachelor of Science Thesis

Department of Physics

DIGITAL IMAGE AND SOUND STORAGE

DALIBOR KOPRIVNJAK

Abstract

This bachelor thesis describes technics for processing and storage of digital signal.

Theoreticlay part starts with visual signal analysis, image compression and color experience. Vave

following audio signal analysis, compression, storage and coding. Final chapter analyzes video

signal, coding forms and levels and video signal standards.

Detailed analysis deals with currently most used processing technics for every signal, JPEG format

for images, MP3 format for sound and MPEG-4 format for video signal.

(47 pages, 20 figures, 3 tables, 11 references)

Thesis deposited in Department of Physics library

Keywords: image / JPEG / sound / MP3 / video / MPEG-4

Supervisor: dr.sc. Davor Kirin

Co - supervisor: dr.sc. Igor Lukačević

Reviewers: doc.dr.sc. Zvonko Glumac

mr.sc. Stjepan Hrpka

Thesis accepted: March 22nd

, 2010

1

1. Uvod

Govoreći o multimediji podrazumijevamo integraciju svih postojećih oblika medijalnih

komuniciranja (digitalni tekst, grafika, fotografija, animacija, video i stereo zvuk.)

Interaktivna multimedija omogućava dvosmjerno komuniciranje u odnosu na TV na koji nemamo

utjecaja. Postoji mišljenje da multimedija postaje alat koji podjednako uspješno koristi poslovni i

umjetnički svijet. Multimedija se može opisati i kao nova filozofija u pristupu računalu koja

ravnopravno koristi sve načine interakcije (tipkovnica, miš, olovka, slika, kretnja, zvuk) [1].

Multimedijalni sadržaji kombiniraju oblike medijalnih komuniciranja, a za njihovu reprodukciju

ranije su korištena vrlo različita sredstva. U posljednje vrijeme za reprodukciju multimedijalnih

zapisa najčešće koristi multimedijalno računalo, a za pohranu podataka CD-ROM ili Internet.

Multimedija predstavlja bilo koju kombinaciju dva ili više medija, predstavljenih u digitalnoj formi,

dovoljno integriranih da mogu biti prikazani preko jedinstvenog sučelja ili ih je moguće obraĎivati

pomoću jedne računalne aplikacije. Pri tome, barem jedan od medija mora biti vremenski definiran,

poput zvuka ili video zapisa.

Distribucija multimedije može se vršiti na više načina:

• on line putem preko mreže od jednog računala do krajnjeg korisnika ili bežičnim sustavima

putem WLAN mreže, te mobilne telefonije

• off line putem preko CD ROM-ova, DVD-a ili kombinacijom CD-a sa poveznicama na

WWW.

Multimedijalni elementi imaju svoje mjesto u mnogim područjima primjene računala. Od web

stranica do programskih paketa namijenjenih igri i učenju predškolske djece.

2

2. Slika

2.1. Analiza i prikaz digitalne slike

Čovjek prima informacije preko svojih čula, ali čulo vida nadmašuje sva ostala svojim velikim

informacijskim kapacitetom. Kratkim razgledanjem neke slike čovjek može primiti količinu

informacija koju bi primio višesatnim slušanjem verbalnog opisa te iste slike. Zato je prijenos slike

na daljinu postao važan faktor efikasnog rada, učenja i zabave suvremenog čovjeka.

Slika može biti prikazana na dva načina: može biti pokretna i mirna. Slika je pokretna kada postoji

pokret u slici, odnosno kada se izgled slike mijenja u vremenu. Na primjer, kod PAL[a]

televizijskog

sustava slike se izmjenjuju 25 puta u sekundi što stvara doživljaj kontinuiranog pokreta u ljudskom

oku. Nije potreban veći broj promjena, jer je ljudsko oko relativno tromo i ne zapaža promjene brže

od navedene. Slike prikazuju kako se intenzitet svjetlosti mijenja po površini. No, svjetlo nije jedini

parametar koji se koristi u znanstvenim prikazima nekih slika. Na primjer, slika može prikazivati:

temperature nekog integriranog kruga, brzine krvi u pacijentovoj arteriji, emisije X-zraka iz

udaljenih galaksija, pomicanja tla za vrijeme zemljotresa, itd. Ove egzotične slike se obično

pretvaraju u konvencionalne slike (tj. slike koje prikazuju promjenu intenziteta svjetla), tako da ih

čovjek može vidjeti njemu smislenim oblicima. Mirne slike sadrže informacije u prostornoj domeni

(engl. spatial domain), što je ekvivalent za vremensku domenu kod informacija (signala) koje se

mijenjaju u ovisnosti o vremenu. Kod mirnih slika, dakle, frekvencija kao pojam koji inače

označava broj promjena (perioda) u vremenu [Hz][b]

gubi svoj smisao, te je stoga potrebno uvesti

pojam prostorne frekvencije.

Vizualna rezolucija p∙v predstavlja broj elemenata slike unutar 1° vizualnog kuta ([element

slike/1°]), a ovisi o udaljenosti promatrača (L [cm]) i o rezoluciji zaslona (p [element slike/cm]),

kako je to shematski prikazano slikom 1. S druge strane, prostorna frekvencija slike v je definirana

kao broj promjena (perioda) unutar 1° vizualnog kuta ([perioda/1°]).

3

Slika 1. Prikaz veze udaljenosti promatrača i područja zaslona obuhvaćenog sa 1° vizualnog kuta

x L tg (1) cm/1

p∙v p∙x p∙L tg (1) element slike /1

Ako bi se na promatranom području zaslona naizmjenično mijenjali crno-bijeli elementi slike, tada

bi na tom dijelu bila tzv. maksimalna frekvencija, koja se definira kao vizualna rezolucija podijeljen

brojem 2:

𝜈𝑚𝑎𝑥 =𝑝∙𝑣

2perioda / 1

Vidi se da se maksimalna frekvencija mijenja u ovisnosti o vizualnoj rezoluciji zaslona i o njegovoj

udaljenosti od promatrača.

Razmak i broj elemenata slike po jedinici duljine ovise o tome koji bi detalji trebali biti viĎeni, prije

nego o formalnim ograničenjima koja su odreĎena teoremom uzorkovanja. Točnije, ako na slici

imamo puno detalja potrebna nam je veća količina elemenata slike po jedinici duljine, tako da ta

količina nije fiksno odreĎena kao što je to frekvencija uzorkovanja kod, npr. televizijske slike.

monitor L

x

10

1

0

4

2.2. Kompresija slike

Prijenos podataka i njihovo skladištenje zahtijevaju odreĎeno vrijeme, memorijski prostor a time i

novac. Što se više podataka obraĎuje, to cijena sve više raste. Unatoč tome, većina digitalnih

podataka nije smještena u svom najkompaktnijem obliku. Oni se prije stavljaju u oblik koji nam je

najpogodniji za korištenje, kao što su: ASCII[c]

tekstovi, binarni kodovi koji mogu biti pokrenuti

odmah na računalu, zasebni podaci dobiveni pomoću sustava za razna mjerenja i sl. Obično su svi ti

podaci, koji se lako pokreću, u prosjeku dva puta veći nego što je potrebno za njihovo prikazivanje.

Kompresija podataka je opći izraz za različite algoritme i računalne aplikacije koji su razvijeni kako

bi se riješio navedeni problem.

Računalne aplikacije za kompresiju se koriste u slučajevima kada želimo pretvoriti podatke iz oblika

u kojima ih je najlakše koristiti u oblik koji je najpogodniji za njihov prijenos i skladištenje.

S druge strane postoje računalne aplikacije za dekompresiju koji vraćaju informacije iz

komprimiranih oblika u njihov prvobitni oblik.

Tablica 1. prikazuje dva različita načina na koja se algoritmi kompresije podataka mogu podijeliti. U

tablici metode su podijeljene u dvije skupine: bez gubitaka (engl. lossless) i sa gubicima (engl.

lossy).

Kompresija bez gubitaka označava postupak u kojem je nakon primjene odgovarajućeg algoritma za

dekompresiju na komprimirani podatak, konačni dobiveni podatak identičan originalnom podatku.

Ovakvi načini kompresije su neophodni u mnogim slučajevima, kao što su npr. kompresija

tekstualnih podataka, EXE datoteka i sl. U tim slučajevima se ne može dozvoliti zamjena ili gubitak

niti jednog jedinog bita, jer se kasnije najvjerojatnije ne bi mogla pokrenuti. S druge strane, datoteke

koje sadrže npr. sliku ne moraju biti savršeno očuvane kako bi se uskladištile ili prenosile.

Digitalizacija signala unosi odreĎenu količinu šuma. Ako se naprave takve promjene na podacima

koje unesu male količine dodatnog šuma u originalni podatak, neće se napraviti velika šteta na

kvaliteti signala. Tehnike komprimiranja koje dopuštaju takve načine degradacije podataka, nazivaju

se tehnike sa gubicima. Ova razlika je bitna zato što su tehnike sa gubicima puno uspješnije pri

komprimiranju nego tehnike bez gubitaka. Što je veći stupanj kompresije (engl. compression ratio),

to se dodaje više šuma u komprimirane podatke [2].

5

Bez gubitaka S gubicima

Run – length

Huffmanov kod

Delta

LZW

CS&C

JPEG

MPEG

Tablica 1. Algoritmi kompresije podataka

Drugi način klasifikacije podataka je prikazan u Tablici 2. Većina programa za komprimiranje

podataka radi na način da uzima blok podataka iz datoteke originala, komprimira ga na svoj način, i

potom takav komprimirani blok snima u izlaznu datoteku. Jedna od metoda kompresije (prikazana u

Tablici 2) je CS&Q[d]

(engl. coarser sampling and/or quantization). Na primjer, neka se komprimira

digitalizirani valni oblik, kao što je audio signal digitaliziran s 12 bita. Mogli bismo učitati 2 bliska

uzorka/bloka iz datoteke originala (24 bita), odbacimo jedan od ta dva uzorka potpuno, odbacimo i 4

najmanje značajna bita i upišemo preostalih 8 bita u izlaznu datoteku. S 24 ulazna bita i 8 izlaznih

bitova smo uveli kompresijski omjer od 3:1 koristeći pri tome algoritam s gubicima. Ovo je vrlo

učinkovit način komprimiranja premda se čini vrlo grub. Koristi se u JPEG[e]

koderu za

komponente boje u YUV[f]

sustavu. Kako je oko manje osjetljivo na promjene boje, ovakav način

kompresije ne unosi vizualno značajne degradacije kvalitete slike [2].

U Tablici 2 je prikazano da CS&Q ima odreĎene vrijednosti ulazne i odreĎene vrijednosti izlazne

veličine blokova, tj. odreĎena vrijednost broja bitova se učitava iz ulazne datoteke originala i od

toga manja odreĎena vrijednost broja bitova se ispisuje u izlaznu datoteku. Neke druge metode, s

druge strane, omogućuju i to da se i ulazni i izlazni broj bitova mogu mijenjati.

U tablici 2 nisu prikazane kompresijske metode JPEG i MPEG[g]

, jer koriste više različitih

algoritama, te se ne mogu svrstati u ovako jednostavne kategorije.

Metoda Veličina bloka

ulazni izlazni

CS&Q

Huffmanova

Aritmetička

Run length, LZW

fiksan fiksan

fiksan promjeniv

promjenjiv promjeniv

promjenjiv fiksan

Tablica 2. Kompresije podataka uz promjenivu veličinu bloka

6

2.3. JPEG - transformacijska kompresija

Razvijene su mnoge metode koje koriste kompresiju sa gubicima. Grupa takvih tehnika, nazvana

transformacijska kompresija, se pokazala kao najvrjednija. Najbolji primjer transformacijske

kompresije je utjelovljen u popularnom JPEG standardu za kodiranje slike.

JPEG je kratica od Joint Photographers Experts Group koja je donijela navedeni standard.

Transformacijska kompresija je zasnovana na jednostavnoj pretpostavci: kada se napravi Fourierova

(ili neku druga) transformacija signala, dobiveni koeficijenti transformacije ne prikazuju više

intenzitet boje/svjetline slike, već prikazuju frekvencijske komponente slike, tzv. koeficijente

transformacije [3].

U tom slučaju, kada se dobiju podaci o frekvencijama umjesto o razinama boje, može se

manipulirati slikom u sasvim drugačijoj domeni nego što je bila početna (mijenja se slika u

frekvencijskoj umjesto u prostornoj domeni).

S frekvencijama slike se bolje manipulira nego s razinama boja, jer se zna kakvo one imaju značenje

za sliku. One su stoga “objektivniji pokazatelji” strukture slike.

Zna se da su za slike komponente nižih frekvencija signala bitnije od viših frekvencija, i stoga

uklanjajući 50% bitova od visokofrekvencijskih komponenata slike, slika se srozava samo za

otprilike 5% u odnosu na original. Na takav način ne bi mogli razmišljati i u originalnoj, odnosno

prostornoj domeni slike.

Iz navedenog se može zaključiti da se mogu komprimirati bolje one slike koje imaju manje izražene

visoke frekvencije. Ako imaju značajne amplitude viših frekvencija (ako imaju puno finih detalja i

rubova) tada ih se ne može dobro komprimirati, a da im se kvaliteta pri tome ne narušava u velikoj

mjeri. Naravno, slike koje imaju slabo izražene visoke frekvencije, odnosno slike s malo detalja i

rubova, moći će se dobro komprimirati. Tada se mogu ukloniti postojeće visoke frekvencije, a da

previše ne utječe na kvalitetu slike. Različite matematičke transformacije su ispitane kako bi se

odredila najpogodnija za komprimiranje podataka: Karhunen-Loeve transformacija osigurava

najbolji mogući kompresijski odnos, no teška je za implementiranje; Fourierovu transformaciju je

vrlo lako koristiti, ali ne osigurava primjerenu kompresiju. Diskretna kosinusna transformacija

(skraćeno, DCT[h]

) zbog jednostavnosti primjene, postojanja brzog algoritma za proračun, te

transformacije slike iz prostorne u frekvencijsku domenu prihvaćena je kao najpogodnija

transformacija za kompresiju slike. Kao što Fourierova transformacija koristi sinusne i kosinusne

7

valove za prikazivanje signala, DCT koristi samo kosinusne valove. Postoji više verzija DCT koje se

neznatno razlikuju.

S druge strane, JPEG standard propisuje postupak kompresije na sljedeći način. Slika se prvo dijeli

na blokove veličine 8x8. Kada se traži DCT nekog bloka podataka veličine 8x8 (kao što je to slučaj

sa slikom), dobije se spektar podataka koji je, takoĎer, veličine 8x8. Drugim riječima, 64 broja

originalnog bloka se “mijenja” u druga 64 broja. Sve nove dobivene vrijednosti su realne, odnosno,

nema kompleksnih brojeva kao što je to slučaj običnom Fourierovom transformacijom. TakoĎer,

kao i u Fourierovoj analizi, svaka vrijednost u spektru je amplituda funkcije baze. Te funkcije za

blokove veličine 8x8 su dane s

𝑏 𝑥, 𝑦 = 𝑐𝑜𝑠 2𝑥 + 1 𝑢𝜋

16 𝑐𝑜𝑠

2𝑦 + 1 𝑣𝜋

16

Jednadžba prikazuje DCT funkciju baze. Varijable x i y su indeksi prostorne domene, dok su u i v

indeksi frekvencijskog spektra (prostorne frekvencije). Ovo vrijedi za 8x8 DCT, čineći na taj način

da indeksi u i v poprimaju vrijednosti 0 do 7.

Slika 2. DCT bloka podataka 8x8

8

Niske frekvencije su u prikazu spektra danom na slici 2 smještene u gornjem lijevom kutu, dok su

visoke frekvencije u donjem desnom. Istosmjerna komponenta je smještena u krajnjem gornjem

lijevom kutu, tj. u točki (0,0). Osnovna funkcija za točku (0,1) je jedna polovina periode kosinusnog

vala u jednom smjeru, dok je u drugom smjeru konstantna. To isto vrijedi i za točku (1,0), samo što

je sve zakrenuto za 90°. Ovaj postupak je zorno prikazan slikom 2.

DCT ima jednu polovinu periode od svoje funkcije baze, tj. S[0,1] i S[1,0]. Kako je to prikazano na

prethodnoj slici, vidi se da se ti valovi “lagano kreću” s jedne strane matrice na drugu. S druge

strane, najniže frekvencije u Fourierovoj transformaciji se sastoje od cijelih perioda. Slike gotovo

uvijek sadrže područja u kojima se svjetlina postupno mijenja, i stoga koristeći osnovne funkcije,

koje odgovaraju tom osnovnom uzorku slike, dobivamo bolju kompresiju.

Slika 3. Blok shema DCT kodera

Kvantizacija

Svaki se DCT koeficijent dijeli sa njemu odgovarajućom veličinom definiranom u kvantizacijskoj

tablici. Ona može može pratiti karakteristiku osjetljivosti ljudskog oka (veći korak kvantizacije za

više frekvencije). Kvantizacija unosi pogrešku (gubitke) u sliku, a sadržaj tablice moguće je

prilagoditi aplikaciji. Povećanjem koeficijenata tablice (kvantizacijskih koraka) povećava se stupanj

kompresije (prikazano na slici 3).

Entropijsko kodiranje - kodiranje bez gubitaka

DC koeficijenti se kodiraju zasebno primjenom DPCM[i]

(engl. Differential PCM). Kodira se razlika

izmeĎu DC koeficijenta danog bloka i DC koeficijenta prethodnog bloka.

9

AC koeficijenti kodiraju se u 3 koraka:

1. cik-cak skeniranje

2. Run-length kodiranje - znakovi koji se često pojavljuju u nizu kodiraju se sa dva simbola: prvi

simbol označava koji je to znak, a drugi simbol označava koliko je istih znakova u nizu

3. Huffmanovo kodiranje - temelji se na pridjeljivanju kraćih simbola grupi znakova koja ima veću

vjerojatnost pojavljivanja (potrebne su kodne tablice)

4. aritmetičko kodiranje - za razliku od Huffmanovog kodiranja, grupa znakova koja se kodira

nema fiksnu duljinu.

2.4. Mirne slike

Mirne slike su digitalne slike, digitalizirane skenerom ili digitalnom kamerom, rentgenske slike,

stvorene hvatanjem video okvira, kreirane grafičkim paketom (aplikacijom za izradu različitih

grafičkih radova, tehničke dokumentacija, obrade slika i sl.), generirane računalnim programom iz

matematičkih funkcija, te pohranjene u digitalnim zbirkama.

Slika 4. Ljudsko oko Slika 5. Kamera

Ljudsko oko slika 4, sfera je promjera oko 20 mm. Sastoji se od rožnice (cornea), mrežnice (retina),

šarenice (iris) i leće (lens). Na principu graĎe oka, izraĎuju se kamere, slika 5.

Mrežnica je prekrivena receptorima:

• Čunjići (cones). Ima ih 6 –7 milijuna. Smješteni su u središnjem dijelu mrežnice, a svaki je

povezan s jednim živcem radi raspoznavanja detalja. Osjetljivi na boju i zaduženi za vid pri

dobrom osvjetljenju (photopic vision).

10

• Štapići (rods). Ima ih 75-150 milijuna, te ih je više vezano na isti živac. Nisu osjetljivi na

boje, ali su osjetljivi na plavi i zeleni dio vidljivog spektra pri niskom intenzitetu svjetla

(scotopic vision).

Fovea (plitka udubina najosjetljivija na svjetlost, odgovorna za oštar središnji vid) nalazi se u

središtu žute pjege, velične je 1.5𝑚𝑚 ∙ 1.5 𝑚𝑚, s gustoćom oko 150000 receptora po mm². U

području fovee centralis se nalazi oko 307000 receptora.

No koliko ovi podaci zvučali savršeno, oko ne percipira uvijek „točne“ boje. Razlog tome je

jednostavan – mozak. On stavlja boje u kontekst, tj. prepoznajemo boju objekta i ako je on u sjeni i

ako je na svjetlu. Zato promatrajući sliku 6, mozak uzima u obzir sjenu koja prekriva polje i prema

tome odreĎuje koje je to polje boje. Čini se da boja pravokutnika prelazi iz svjetlije u tamniju jer

mozak usporeĎuje taj pravokutnik s okolinom koja prelazi iz tamnije u svjetliju.

Slika 6. Optička iluzija boja [8]

Snimanje i prikaz slike

• Ovisno o vrsti slike (rentgen, ultrazvuk, fotoparat,...) koristimo senzore koji detektiraju

energiju izračenu u području elektromagnetskog spektra izvora

• Odziv senzora ovisi o intezitetu zračenja izvora i o refleksiji (ili eventualno apsorpciji) ove

energije od strane objekta koji snimamo

• Sliku možemo prikazati kao dvodimenzionalnu funkciju 𝑓 𝑥, 𝑦 , gdje su x i y prostorne

koordinate

• Kada je slika stvorena fizikalnim procesom, 𝑓 𝑥, 𝑦 ovisi o intezitetu zračenja izvora 𝑖 𝑥, 𝑦

i o količini reflektiranog zračenja 𝑟 𝑥, 𝑦

),(),(),( yxryxiyxf

11

2.5. Boja

Boja je složeni fenomen sa svojim objektivnom i subjektivnom vanjštinom, no nije uvijek

neophodna u slikama. Postoje slike bez boje koje zahtijevaju manje memorije, te su imune na razlike

u prikazu boja na različitim zaslonima.

Boja je subjektivni osjet stvoren u mozgu. Za elektroničku produkciju i manipulaciju bojom trebamo

matematički model (slika 7), koji povezuje subjektivni doživljaj boje sa mjerljivim i ponovljivim

fizikalnim fenomenom. Ipak, vidljivu svjetlost predstavlja elektromagnetski val valnih duljina

izmeĎu 380 nm i 730 nm. Val je odreĎenog intenziteta, a distribucija spektralne snage izvora

definira intenzitet pojedine spektralne komponente.

Slika 7. Matematički model prikaza boja

2.6. Ljudski vid i doživljaj boje

Ljudska mrežnica sastoji se od dvije vrste receptorskih stanica :

• Štapića, koji su neosjetljivi na boju i omogućavaju vid kod niskih intenziteta svjetlosti, te

• Čunjića, kojih postoje 3 vrste, svaka osjetljiva na drugu valnu duljinu. To dovodi do

tristimulus teorije gdje se svaka boja može definirati sa samo 3 komponente različitih težina.

Aditivne primarne boje čine crvena (R – red, 700 nm), zelena (G – green, 546 nm), plava

(B – blue, 436 nm).

Primari RGB (crvena, plava i zelena) koriste se za dobivanje boja aditivnim miješanjem.

12

Za računalne zaslone ne postoji standard odreĎivanja boja (valne duljine) koje odgovaraju ovim

primarima, ali najčešće se koristi preporuka za HDTV[j]

(High Definition TV - televiziju visoke

kvalitete).

Posljedica nepostojanja standarda su velike razlike u prikazu boja na različitim zaslonima, obzirom

da RGB primarima nije moguće prikazati sve valne duljine koje oko vidi.

13

3. Zvuk

3.1. Digitalizacija i kompresija zvuka

Zvuk je u analognom svijetu kontinuirani niz iskazan u vremenu i odreĎenog raspona. Raspon je

moguće približno izmjeriti u bilo kojoj vremenskoj točki [10].

Kod digitalnog zvuka, signal je definiran za točnu vremensku točku te može imati čvrsto definiran

broj vrijednosti. Frekvencijski uzorci od 44.1 KHz i 48 KHz u potpunosti ispunjavaju zahtjeve

rekonstrukcije zvučnih signala u čujnom području čovjeka od 20 KHz.

Prednosti digitalnog zvuka pred analognim su te što se dinamičko područje (razlika najslabijeg i

najglasnijeg zvuka koji se može reproducirati) proširuje na više od 90 dB, kod procesiranja je

moguće ispravljanje pogrešaka, te ubacivanje efekata.

U današnjim sustavima globalne/lokalne komunikacije izuzetnu važnost ima prijenos govora, a sve

više i prijenos audio informacije. Pod audio informacijom podrazumijevamo širi spektar zvukova u

odnosu na govor, što uključuje glazbu, šumove iz prirode, umjetno stvorene zvukove i sl. S obzirom

na razlike ova dva tipa informacije razvijeni su ureĎaji za kodiranje za govor i ureĎaji za kodiranje

za audio, koji koristeći saznanja o svojstvima pojedine informacije, kao i ljudskog vokalnog trakta i

ljudskog slušnog sustava, osiguravaju visoki stupanj kompresije uz zadržavanje kvalitete signala.

Početkom 19. st. napravljen je značajan iskorak u razvoju telekomunikacija. Alexander Graham Bell

razvio je prvi ureĎaj za prijenos govora, dok je u isto vrijeme Thomas Alva Edison napravio prvi

ureĎaj za pohranu audio zapisa tzv. "fonograf". To su bili počeci razvoja pohrane audio informacije i

prijenosa govora. Od Edisonova izuma započeo je razvoj audio industrije pohrane zvuka, a Bellov

izum potakao je razvoj govorne komunikacije na daljinu, telefonije (analogne). Danas audio

informacije zauzimaju važno mjesto u ljudskom životu; od zabave i edukacije do znanstveno-

istraživačkih i medicinskih usluga.

3.2. Analogna pohrana zvuka

Pohranjivanje zvuka u analognom obliku vezano je za pretvorbu energije zvučnog vala u

modifikaciju oblika nekog materijala na kojega se on sprema. U početku su to bili zvučno-

mehanički pretvarači zasnovani na fizičkom pomaku alata za preinaku/promjenu oblika zapisanog

14

materijala, pomicani membranom na kojoj se nalazi. To je ujedno bila i Edisonova zamisao kod

"fonografa" koji je, posredstvom stožastog šupljeg cilindra (lijevka), energiju zvučnog vala

pojačavao pretvarajući je u fizikalnu veličinu pritiska, koji je pak razlikom pritisaka na objema

stranama membrane pomicao/deformirao membranu na kojoj se nalazila igla. Igla je svojim

aksijalnim pomicanjem strugala voštani cilindar ostavljajući tako na njemu spiralni kanal sa

dubinom zareza proporcionalnim snazi i frekvenciji registriranog zvučnog vala.

Ovaj princip je bio temelj za kasniji razvoj gramofona samo su se mijenjali materijali za zapis zvuka

i ureĎaji za pretvorbu energije zvučnog vala u mehanički/fizički pomak igle.

Noviji, moderniji pristup analogne pohrane zvuka temeljen je na Bellovom otkriću - telefonu. Bell je

razvio prvi elektromehanički zvučni pretvornik, čime je otvorio vrata analognoj pohrani zvuka ne u

obliku fizičke preinake zapisanog materijala, nego pohrani zvuka preinakom električnih i

magnetskih svojstava materijala.

Najčešće se primjenjivala magnetska preinaka materijala od čega je nastao prvi magnetofon.

Pohrana zvuka na magnetofon temelji se na principu promjene jakosti struje kroz zapisni

electromagnet sukladno promjeni energije/tlaka zvučnog vala i trajnoj modifikaciji magnetskih

svojstava zapisnog materijala (feromagnetika).

3.3. Digitalna pohrana zvuka

Zvuk sam po sebi predstavlja analognu fizikalnu veličinu (bilo da je ta veličina tlak zraka ili

ekvivalentna električna struja, magnetska indukcija ili drugo), koja je uvijek neprekidna.

Digitalni zapis po definiciji je zapis koji je isprekidan, te se nameće pitanje kako pretvoriti analognu

veličinu (zvuk) u njemu digitalni ekvivalent. Za to nam je prije svega potreban elektromehanički

pretvarač, ali i analogno digitalni pretvornik. Elektromehanički pretvarač koji se najčešće koristi je

mikrofon, a analogno digitalni pretvornik je bilo koji električni analogno digitalni pretvornik.

TakoĎer, uz ove dvije komponente potreban je i sustav za pohranu podataka, a to je najčešće

digitalno računalo.

Princip pretvorbe je sljedeći: nad ekvivalentom zvučnog signala (električni signal, najčešće) izvrši

se vremenska i amplitudna diskretizacija.

15

Slika 8. Vremenska i amplitudna digitalizacija signala

Vremenska diskretizacija signala znači da se u odreĎenim (obično jednakim) vremenskim

intervalima uzima uzorak analognog signala (slika 8). Kako bi se amplituda ovih uzoraka mogla

zapisati odreĎenim brojem bitova - kodom - mora se provesti diskretizacija amplituda –

kvantiziranje. Najčešće dok se obavljaju obje diskretizacije ujedno se obavlja i kodiranje signala.

Pod kodiranjem signala podrazumijeva se da se nad amplitudno diskretiziranim signalom zvuka u

realnom vremenu obavlja i odreĎena matematičko logička operacija u funkciji smanjivanja količine

podataka dobivenih diskretizacijom, a kvantizacija signala se može provesti linearnim i nelinearnim

postupkom [4].

Kod linearne kvantizacije sve amplitude diskretiziranog signala kodiraju se sa jednakim korakom

kvantizacije, što daje jednaki raspon pogreške kvantizacije i šuma kvantizacije na svim amplitudama

signala. To uzrokuje manji odnos snaga signal/šum (S/N) na malim amplitudama, nego na velikim.

Kako ljudsko uho ima po prirodi logaritamsku karakteristiku percepcije jakosti zvučnog vala, daleko

je osjetljivije na pogrešku kvantizacije na malim amplitudama. Zbog toga se za kvantizaciju zvuka

primjenjuje nelinearno - logaritamsko kvantiziranje kod kojeg se mali intenziteti signala uzorkuju sa

većom rezolucijom, odnosno sa manjim korakom kvantizacije, nego što je to slučaj s velikim

intenzitetima (slika 9).

Slika 9. Logaritamsko kodiranje

16

Primjer gdje je takav način koristan je kod prijenosa digitaliziranog zvuka putem telefonske parice

(upleten par žica od bakra, povezuje telefon sa telefonskim pružateljem usluga). Ljudski govor

obuhvaća frekvencije od 50 Hz do 10000 Hz. Za razumljivi ljudski govor dovoljno je prenositi

frekvencijsko područje od 300-3400 Hz. Za digitalizaciju ovakvog signala prema Nyquistovom

zakonu koji kaže da je

𝑓𝑠 = 𝑓𝑚𝑎𝑥 ∙ 2

gdje je 𝑓𝑠 frekvencija uzorkovanja analognog signala, a 𝑓𝑚𝑎𝑥 maksimalna frekvencija signala koji se

uzorkuje, izabire se frekvencija uzorkovanja od 8 kHz. Uobičajeno je da se ovakav signal

logaritamski kvantizira u rezoluciji 8-bita, čime se postiže efektivno kodiranje signala nižih

intenziteta kao sa rezolucijom od 12-bita.

Čujni spektar obuhvaća frekvencije od 20 Hz do 20 kHz, a rezanje frekvencijskih komponenti iznad

15 kHz ne smanjuje značajno kvalitetu zvuka.

3.4. Kodiranje i kompresija audio signala

3.4.1. Kodiranje govora

Kod digitalizacije govora frekvencijom uzorkovanja od 8 kHz, s 8-bitnim nelinearnim kodiranjem

postiže se visoka kvaliteta govora uz protok od 64 kbps[k]

. Novi sustavi telefonije traže veću

kompresiju uz zadržavanje kvalitete, što se osigurava sofisticiranim sustavima za kodiranje, koji se

temelje na iskorištavanju svojstava govora.

Mobilni digitalni telefonski sustavi (GSM), kao i standardi za kodiranje videa, odnosno

multimedijske informacije (MPEG-4), koriste posebne kodere za govor. Najvažniji CODEC-i

(Coder/Decoder) razvijeni za kompresiju govora koji su najčešće u uporabi su:

PCM, ADPCM (Adaptive Differential Pulse Code Modulation), LPC (Linear Predictive Coding) -

računaju se parametri kodera na temelju karakteristika izgovorenog govora, 2.4 kbps protoka,

CELP-Code Excited Linear Prediction - namijenjen isključivo za kodiranje govora uz 4.8 kbps

protok, GSM (RPE-LTP) - Regular Pulse Excitation – Long Term Prediction – Linear Predictive

Coder.

Današnjim metodama kodiranja signala postižu se protoci podataka putem telefonske parice od 64

kbps, pa sve do više Mbps sa specijaliziranim sklopovima. Najjeftiniji dostupni ureĎaji za prijenos

17

podataka putem telefonske parice su modemi koji najčešće koriste diskretnu faznu modulaciju (PSK)

i kompresiju podataka da bi postigli protok podataka s približnih 56 kbps (što je u praksi

maksimalnih 52-54 kbps).

Protoci podataka od više Mbps, takoĎer se mogu ostvariti putem telefonske parice, no ta parica više

nije obična parica, nego su potrebne posebne mjere predostrožnosti polaganja takovih parica, gdje se

pazi na oklapanje parica (izoliranje parica od vanjskih elektromagnetskih utjecaja), kutove i lukove

savijanja žice parice u kombinaciji s posebnim tehnikama kodiranja signala da bi se postigli protoci

ovih iznosa.

3.4.2. Kodiranje audio signala

MPEG-1 Codec je korišten u različitim sustavima digitalnog kodiranja zvuka (u digitalnim

sustavima reprodukcije zvuka za zabavu, radio difuziju, pohranu zvukovnog zapisa). RazraĎena su

tri algoritma kodiranja zvuka koja su meĎusobno usklaĎena: MPEG-1 Layer 1 , MPEG-1 Layer 2,

MPEG-1 Layer 3 (poznatiji kao MP3 format).

Visoki stupanj kompresije uz očuvanje visoke kvalitete signala, MPEG-1 algoritmi postižu

frekvencijskom analizom signala i odbacivanjem frekvencijskih komponenti koje uho ne čuje.

Ulazni signal se dijeli na 32 frekvencijska područja. Nad svakim od tih područja radi se Fourierova

transformacija i primjenjuje se psiho-akustički model maskiranja signala jedne frekvencije jačim

signalom druge frekvencije. Time se reducira količina informacija potrebnih za

spremanje/reprodukciju.

Protok kodiranog zvuka može se kretati u području od 32-448 kbps po kanalu uz uzorkovanje od 32,

44.1 i 48 kHz. Niži protoci ujedno znače lošiju kvalitetu, ali i manju količinu podataka i obratno.

3.5. MPEG-1 Audio Layer 3 (MP3) oblik zapisa

Jedan od najpoznatiji oblika zapisa, koji je u današnje vrijeme raširen i u svakodnevnoj uporabi, je

MPEG-1 Audio Layer 3, poznatiji kao MP3[l]

. To je oblik zapisa za kodiranje audio zapisa koji se

bazira na algoritmu za kompresiju sa gubicima (Lossy compression algorithm). Taj algoritam je

kreiran tako da prilikom kodiranja izbaci neke uzorke s ciljem smanjenja veličine audio snimke, a da

se pritom bitno ne utječe na kvalitetu, tj. da čovjek s prosječnim sluhom ne može osjetiti razliku

18

izmeĎu snimke kodirane u MP3 formatu i snimke koja je pohranjena na CD-u. Najveća prednost je

veličina datoteke koja se dobije kodiranjem u MP3 formatu, pri čemu kodiranjem u području

srednjih bitrate[m]

-a (128 kbit/s) veličina datoteke iznosi svega 1/10 veličine datoteke pohranjene na

Audio CD-u.

Postupak kreiranja datoteke u MP3 formatu započinje kodiranjem audio signala. MP3 koder je

računalna aplikacija koja koristi MP3 kompresijski algoritam za pohranjivanje audio signala u MP3

formatu. Većina MP3 kodera može kodirati audio datoteke pohranjene u drugim formatima (WAV,

WMA,...) u MP3 format. U praksi se za postupak kodiranja uglavnom koriste četiri kodera:

LAME[n]

, BladeENC, Fraunhofer i Xing. Ti koderi dolaze ugraĎeni u raznim programima koji

omogućavaju korisniku da lakše obavi postupak kodiranja. Svaki od tih kodera ima svoje prednosti,

dok kvaliteta kodiranja najviše ovisi o optimiziranosti samog algoritma. Za Fraunhoferov koder se

smatra da najvjernije kodira izvorni audio format u MP3 format, a radi u području frekvencija do 20

kHz. MeĎutim cijena kvalitete je plaćena brzinom. Xing koder je najbrži koder, te kodira zvuk u

frekvencijskom području do približno 20 kHz. Xing nudi mogućnost promjenjivog bitrate-a što

omogućuje dodatno smanjenje veličine datoteke, ali zvuk nije niti približno iste kvalitete kao kod

Fraunhoferovog kodera. LAME koder je u ovom trenutku najbolji i najčešće korišteni koder, a iz

razloga što je open source, omogućena mu je masovna upotreba. Iako je sporiji od Xing kodera, s

LAME koderom se može kodirati do bitrate-a od 320 kbit/s, pri čemu se, na istim postavkama,

osjeti bitna razlika izmeĎu glazbe kodirane Xing i Lame koderima. Pri tome je kvaliteta na strani

LAME kodera. BladeENC je još jedan od kodera koji se koristi u procesu kodiranja, ali ipak rjeĎe u

odnosu na Fraunhofer, LAME i Xing kodere [5].

Dekodiranje MP3 formata je u odnosu na kodiranje puno jednostavniji proces, jer algoritam za

dekodiranje mora jedino pravilno čitati iz niza bitova (bitstream) informacije o spektralnim

komponentama, te na temelju istih mora pravilno obnoviti audio signal. U samim počecima

primjene MP3 kodiranja/dekodiranja, proces je ovisio o karakteristikama sustava na kojima se

odvija, a to se odnosilo prvenstveno na brzinu sklopovlja. Ubrzanim razvojem sklopovlja

karakteristike sustava u pogledu brzine odvijanja kodiranja/dekodiranja, nemaju više toliki utjecaj.

Kvaliteta zvuka datoteke pohranjene u MP3 formatu najviše ovisi o bitrate postavkama (kbit/s), koje

se podešavaju prije samog postupka kodiranja, pri čemu veći bitrate znači da će unutar jedne

sekunde biti sadržano više informacija o izvornom audio sadržaju. Postoji petnaest bitrate-a koji su

prihvaćeni kao standard prilikom kodiranja: 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160, 192, 224,

19

256 i 320 kbit/s s frekvencijama otipkavanja od 32, 44.1 i 48 kHz. Za usporedbu, bitrate CD formata

iznosi 1,411.2 kbit/s (16 bita/uzorku × 44100 uzoraka/sekundi × 2 kanala / 1000 bita/kilobit). Iako bi

se svatko, na prvi pogled, složio da treba bitrate postaviti na najveću moguću razinu (320 kbit/s),

veći bitrate znači da će audio datoteka u MP3 formatu zauzimati više prostora na disku. Niži bitrate

znači manju veličinu audio datoteke, ali je kvaliteta zvuka puno manja, pri čemu postoji velika

mogućnost pojave nepravilnih smetnji, koje nastaju prilikom procesa kompresije, tj. pojave

neželjenih/nepostojećih informacija (pucketanje, pre-echo...)[o]

u odnosu na originalnu snimku.

Kodiranje uz korištenje promjenjivog bitrate-a (Variable Bitrate) nameće se kao vrlo dobro rješenje

kako optimalno kodirati audio sadržaj, a da se pritom maksimalno očuva kvaliteta i da se uštedi na

veličini datoteke.

Datoteka u MP3 formatu sastoji se od višestrukih MP3 okvira, a svaki okvir se sastoji od MP3

zaglavlja i MP3 podatka. Niz uzastopnih okvira naziva se elementarni niz (Elementary Stream). Na

slici 10. prikazana je struktura MP3 datoteke.

20

Slika 10. Struktura MP3 datoteke

21

Vidljivo je da se MP3 zaglavlje sastoji od riječi za sinkronizaciju na temelju koje dekoder pravilno

raspoznaje okvire. Nakon toga slijedi bit koji opisuje MPEG standard, a poslije njega sljedeća dva

bita opisuju sloj MPEG standarda (Audio Layer 3). Preostali bitovi se razlikuju za različito kodirane

MP3 datoteke prvenstveno zbog postavki koje je definirao korisnik, a prethodile su kodiranju u MP3

format. Većina današnjih MP3 datoteka posjeduje ID3 Metadata koji mogu prethoditi ili slijediti

MP3 okvire.

ID3 Metadata je odjeljak koja se nalazi unutar MP3 datoteka, a u kojoj su pohranjene različite

informacije vezane uz dotičnu datoteku. To su informacije o nazivu izvoĎača, albuma, godini

objave, komentare, te još neke informacije koje potpunije opisuju MP3 datoteku i njezin sadržaj.

3.6. Ograničenja i nedostaci MP3 formata

Iako se MP3 smatra vrlo dobrim formatom za optimalno pohranjivanje audio sadržaja, on ipak ima

nekoliko ograničenja i nedostataka koji bitno utječu na njegovu upotrebu u profesionalnoj audio

tehnici. Najveći nedostatak mu je korištenje kompresije s gubicima, pri čemu jedan dio sadržaja ipak

ostaje zauvijek izgubljen. Upravo je cjeloviti sadržaj bitan glazbenicima i ljubiteljima glazbe koji

imaju bolje osjetilo sluha, te su u mogućnosti čuti zvukove na višim frekvencijama od prosječnog

slušatelja. Audio sadržaj pohranjen u CD formatu ima bitrate 1,411.2 kbit/s, dok prilikom kodiranja

u MP3 format bitrate se može podesiti na maksimalnu vrijednost od 320 kbit/s što je više od 4 puta

manje informacija u svakoj sekundi u odnosu na CD format. Drugi problem je što je frekvencijska

rezolucija ograničena veličinom dugih okvira, pri čemu se smanjuje učinkovitost tijekom kodiranja.

Problem postoji i kod nedefiniranog ukupnog vremena kašnjenja kodera/dekodera pri čemu postoji

mogućnost izvoĎenja glazbe bez razmaka izmeĎu pjesama (Gapless playback). Ovo su samo neki od

problema i ograničenja MP3 formata. Neki od tih problema neće niti moći biti otklonjeni zbog

tehničkih ograničenja.

22

4. Video zapis

Razvoj digitalnih sustava za prijenos informacija, te povećanje računalne moći, kao i kapaciteta

memorija, omogućili su raširenu primjenu digitalnog videa. Budući da nekomprimirani video

materijal zauzima puno prostora na medijima na kojima se pohranjuje i traži velike brzine kod

prijenosa mrežom, razraĎene su metode kako da se uz očuvanje kvalitete video materijala osigura

visoki stupanj kompresije videa.

Za različite aplikacije razvijene su meĎunarodne norme za kompresiju videa i pridruženog audia

(MPEG i H.26x norme), koje iskorištavaju prostornu i vremensku zalihost u videu (sažimanje okvira

za obradu signala i vremenske razlike meĎu okvirima), za ostvarivanje potrebnih stupnjeva

kompresije.

4.1. MPEG norme za kodiranje videa

MPEG (Moving Picture Experts Group) je ime radne grupe 11 (work group – WG11) pododbora

SC29. Pododbor SC29 (Coding of Picture, Audio, Multimedia and Hypermedia) jedan je od

pododbora Joint Technical Committee 1 – JTC1 koji je nastao spajanjem ISO (International

Standards Organization) Technical Committee 97 Data Processing) i IEC (International Electro-

technical Commission) TC 46 Microprocessors. Službeni naziv grupe je ISO/IEC

JTC1/SC29/WG11.

MPEG grupa je razvila niz normi za kompresiju videa. Do sada su objavljene sljedeće norme:

MPEG-1, MPEG-2, MPEG-4, MPEG7 i MPEG-21. Zadnje dvije norme, MPEG-7 i MPEG21 ne

daju algoritme za kodiranje videa, već su razvijene za kvalitetniji opis sadržaja različitih medija

(MPEG-1), te za definiranje okvira unutar kojega se ugraĎuju različiti mediji, različitih formata

(MPEG-21).

Različite MPEG norme meĎusobno se razlikuju po brzinama i područjima primjene:

• MPEG-1: brzine oko 1.5 Mbit/s, norma razvijena za kodiranje i pohranu digitalnog signala

• MPEG-2: brzine veće od 10 Mbit/s, norma razvijena za kodiranje digitalnog televizijskog

signala standardne kvalitete, a proširivanjem ulaznih parametara, omogućeno je i kodiranje

HDTV signala

23

• MPEG-4: brzine do 4 Mbit/s ovisno o načinu rada, norma razvijena za primjenu na

Internetu, VoD (Video On Demand), video-telefone, videokonferencije, interaktivne grafičke

aplikacije. Ima bolju zaštitu autorskih prava i veću zaštitu od pogreške.

Postoje četiri ključna procesa kompresije videa:

1. pred-procesiranje - priprema slike za učinkovitije komprimiranje (prilagoĎavanje ulaznih

parametara, poboljšanje kvalitete i sl.).

2. vremensko sažimanje ili meĎu-okvirno kodiranje koristi podatke od više okvira, a rezultat

su P (predviĎanje u odnosu na prethodni okvir) i B okviri (tzv. dvosmjerno predviĎanje koji

za predviĎanje koriste prethodni i sljedeći okvir).

3. prostorno komprimiranje ili unutar-okvirno kodiranje koristi samo podatke od jednog

okvira ili polja, vrlo slično JPEG-u.

4. Rate control – koder može kodirati konstantnom brzinom prijenosa – CBR (Constant Bit

Rate) gdje se kvaliteta mijenja ovisno o sadržaju videa ili promjenjivom brzinom prijenosa –

VBR (Variable Bit Rate) gdje se brzina mijenja ovisno o sadržaju videa.

MPEG-2 komprimiranje asimetričan je proces, tj. onaj kod kojeg je koder puno složeniji od

dekodera. Bitno je napomenuti da su standardom definirani dekoder i video zapis, ali ne i sam koder.

4.2. Profili i razine

MPEG-2 norma uvodi profile i razine koji daju veliku fleksibilnost primjene norme za različite

aplikacije. MPEG-2 definira 5 profila: Simple, Main, SNR, Spatial, High. Profili odreĎuju izlaznu

bitstream sintaksu, odnosno, vezano s tim, podskup alata koji koder koristi.

Većina sustava koji koriste MPEG-2 radi na main profile at main level - MP@ML kao što je slučaj

s SDTV - televizijom standardne kvalitete.

MPEG-4 definira čak 19 profila za prirodne i sintetizirane sadržaje. U praksi se najčešće koriste

Simple Visual, Advanced Simple i Advanced Real-Time Simple Profil.

24

4.2.1. MPEG-4

MPEG-4 je ISO/IEC standard. Završen je u listopadu 1998. godine, a meĎunarodnim standardom

postaje 1999. godine. MPEG-4 je pronašao uspješnu primjenu u digitalnoj televiziji, interaktivnim

grafičkim aplikacijama i interaktivnoj multimediji. Podržava niz različitih tehnologija kako bi

zadovoljio sve potrebe autora, davatelja usluge, te samih korisnika. Omogućuje autorima izradu

sadržaja koji ima znatne mogućnosti i veliku raznolikost. Mrežnim davateljima usluga MPEG-4

nudi transparentne informacije koje se mogu prevesti u prihvatljive signalne poruke koje podržavaju

različite mreže. Korisnicima MPEG-4 donosi veći stupanj interakcije sa samom aplikacijom

(ograničenje interakcije postavlja sam autor).

MPEG-4 standard odnosi se na:

• jedinice za zvučni, vizualni ili audiovizualni sadržaj, nazvanih „media objects“ (mogu biti

prirodni ili sintetizirani)

• opis kompozicije tih objekata radi stvaranja složenog objekta koji definira audiovizualnu scenu

• multipleksiranje[p]

i sinkronizaciju[r]

podataka vezanih uz „media objects“, kako bi se mogli

prenositi mrežom

• interakciju korisnika s audiovizualnom scenom.

4.2.2. Tehnički opis MPEG-4 standarda

Nakon što se podaci prihvate s medija, oni se predaju u prikladni FlexMux demultipleksor[s]

iz kojeg

izlaze elementarni podaci. Elementarni podaci (Elementary Streams) se rastavljaju i prosljeĎuju

prikladnim dekoderima. Dekoderi obnavljaju podatke audiovizualnog objekta, te izvode prikladne

operacije radi rekonstrukcije u originalni audiovizualni objekt spreman za prikazivanje. Dekodiranje

audiovizualnih objekata, zajedno s informacijama koji opisuju scenu, koristi se radi prikazivanja

scene koju je definirao autor. Korisnik ima mogućnost interakcije sa scenom samo ukoliko je to

autor dozvolio. OdreĎenom kombinacijom pojedinih informacija možemo opisati scenu koja je

kodirana i prenijeta do prijemnika kao skup objekata. Počevši od VRML (Virtual reality Modeling

Language), MPEG je razvio binarni jezik za opisivanje scene nazvan BIFS (Binary Format for

Scenes). Scena se opisuje primitivnim objektima, te se ti objekti prenose neovisno jedan od

drugoga. Posebna pažnja se posvećuje parametrima koji opisuju scenu. To se ostvaruje pomoću

karakterističnih parametara čijom se upotrebom poboljšava efikasnost kodiranja objekta (npr.

25

pokretni vektor u video kodiranju). Karakteristični parametri mogu se koristiti za modifikaciju

objekta odnosno mogu odreĎivati položaj objekta na sceni. MPEG-4 audiovizualna scena sastoji se

od nekoliko objekata koji su organizirani hijerarhijski. Scena i individualni objekti opisani su u

čvorovima kao set parametara. Struktura stabla ne mora uvijek biti statička tj. atributi pojedinih

čvorova (parametri koji opisuju položaj pojedinih objekata) mogu se mijenjati ili se u stablo mogu

dodati novi čvorovi.

Slika 11. Primjer MPEG-4 prizora

Na pojedinim stupnjevima hijerarhije možemo definirati tzv. primitive objekata (slika 11):

• mirne slike (npr. pozadina scene)

• video objekte (npr. govornik - bez pozadine scene)

• audio objekt (npr. glas govornika)

26

MPEG-4 opisuje nekoliko primitiva objekata koji mogu biti dvodimenzionalni ili trodimenzionalni.

MPEG-4 definira kodirane predstavnike sljedećih objekata:

• tekst i grafika

• sintetizirana glava govornika i pridruženi glas

• sintetizirani zvuk

Objekt u svojoj kodiranoj formi sadrži opise pojedinih primitiva, što omogućuje neovisnu

interpretaciju (prikazivanje, preslušavanje) pojedinih objekata (audio ili video) bez prikaza pozadine

ili okoliša. U MPEG-4 modelu audiovizualni objekti imaju i prostornu i privremenu veličinu, a svaki

objekt posjeduje svoj lokalni koordinatni sustav. Lokalni koordinatni sustav koristi se za

manipuliranje objektom u prostoru i vremenu. Objekti se pozicioniraju na scenu pomoću posebnih

transformacija lokalnih koordinata u koordinate globalnog koordinatnog sustava. Globalni

koordinatni sustav definiran je u čvoru stabla kao opis glavne scene.

4.2.3. Audio kodiranje

MPEG-4 kodiranje audio podataka podržava alate za prirodni zvuk (govor, glazba) i za sintetizirani

zvuk, koji se temelje na strukturnom opisu. Predstavnik sintetiziranog zvuka može biti dobiven iz

tekstualnog podatka, opisa instrumenta ili iz kodiranih parametara kako bi se omogućili efekti kao

što su jeka i prostornost. Predstavnik omogućuje kompresiju, mogućnost skaliranja i efekte

procesiranja. Alati MPEG-4 audio kodiranja pokrivaju područje od 6 kbit/s do 24 kbit/s, te imaju

ispravnost testa za AM digitalne audio aplikacije (broadcasting application) u suradnji s NADIB

(Narrow Band Digital Broadcasting) konzorcijem.

MPEG-4 standardizira audio kodiranje prirodnih zvukova s brzinom prijenosa od 2 kbit/s pa sve do

64 kbit/s. MPEG-4 omogućuje kodiranje i za brzine manje od 2 kbit/s uz korištenje varijabilnog

kodiranja. Kako bi se omogućila najbolja audio kvaliteta u čitavom području brzine prijenosa

podataka, zajedno s dodatnim funkcijama tehnike kodiranje govora, glavne audio tehnike kodiranja

su integrirane u zajednički framework:

• kodiranje govora s brzinom prijenosa izmeĎu 2 i 24 kbit/s podržano korištenjem HVXC

(Harmonic Vector eXcitation Coding) za brzine prijenosa od 2-4 kbit/s i korištenjem CELP

(Code Excited Linear Predictive) za brzine prijenosa od 4-24 kbit/s

• generalno audio kodiranje za brzine prijenosa iznad 6 kbit/s. Koriste se tehnike TwinVQ i

AAC (audio signal u tom području se otipkava s početnom frekvencijom koja iznosi 8kHz).

27

MPEG-4 definira dekodere za generirane zvukove bazirane na nekoliko vrsta strukturiranih ulaza.

Tekstualni ulaz se konvertira u govor pomoću Text-To-Speech (TTS) dekodera dok se ostali

zvukovi, uključujući glazbu, mogu sintetizirati. Sintetizirana glazba može se obnoviti na vrlo niskim

brzinama prijenosa, a da i dalje dobro opisuje egzaktan zvučni signal. TTS koderi imaju brzinu

prijenosa od 200 bit/s, pa sve do 1.2 kbit/s, što dopušta da se tekst ili tekst s prozodičnim

informacijama (usporedba i trajanje fonema[t]

u rimovnom obliku) kao ulaznim signalima pretvori u

sintetički govor.

4.2.4. Video kodiranje

MPEG-4 algoritmi za kodiranje slike i videa učinkovito predstavljaju vizualni objekt proizvoljnog

oblika, te podržavaju tzv. sadržajno bazirane funkcije. Ti algoritmi podržavaju funkcije koje su

omogućene u MPEG-1 i MPEG-2 standardima uključujući efikasnu kompresiju standardnih

pravokutnih nizova različitih nivoa ulaznih formata, frame rates, dubine piksela, brzine prijenosa i

promjenjivih nivoa prostornog, privremenog i kvalitativnog skaliranja. VLBV ljuska (Very Low

Bitrate Video) podržava algoritme i alate za aplikacije namijenjene tipičnim brzinama prijenosa

izmeĎu 5 i 64 kbita/s podržavajući niz slika niske prostorne rezolucije i niskog frame ratea (tipično

do 15 Hz). Osnovne primjene specijalnih funkcija koje podržava VLBV ljuska su sljedeće:

• kodiranje konvencionalnih pravokutnih nizova s visokom učinkovitosti kodiranja i visokom

zaštitom od greške, niskim vremenom pristupa i niskom složenošću za real-time

multimedijske komunikacijske aplikacije.

• random access i brzo pozicioniranje naprijed - nazad kod VLB multimedijskih baza

podataka i aplikacija.

Područje velikih brzina prijenosa, područje iznad VLBV ljuske, podržava iste osnovne algoritme i

alate kao i VLBV ljuska, samo što se ovdje brzina prijenosa podataka kreće od 64 kbit/s pa do 10

Mbit/s. U ovom području aplikacije sadrže multimedijsko emitiranje ili interaktivni povratni signal

jednake kvalitete kao i digitalni TV signal. Sadržajno bazirane funkcije podržavaju odvojeno

kodirane i dekodirane objekte. Taj dio MPEG-4 standarda omogućuje najviše elementarnih

mehanizama potrebnih za interaktivne aplikacije (raznolikost u prikazivanju i mogućnost izmjene

dijelova video objekata). Za hibridno kodiranje prirodnih i sintetiziranih video podatak sadržajno

bazirano kodiranje omogućuje miješanje video objekata iz različitih izvora s sintetiziranim

28

objektima kao što su npr. virtualne pozadine. Kao što je prije spomenuto, MPEG-4 video podržava

konvencionalne pravokutne nizove slika i videa, a pored toga podržava slike i video sadržaje

proizvoljnih oblika. Kodiranje konvencionalnih slika i videa je slično kao kod MPEG-1 i MPEG-2

kodiranja. To kodiranje koristi predviĎanje i sažimanje, a nakon toga slijedi kodiranje teksture. Kod

slika proizvoljnih oblika kodiranje se svodi na kodiranje oblika slike i njenih informacija. Oblik se

može prikazati kao 8-bitna informacija. Na slici 12. je prikazan osnovni pristup MPEG-4 video

algoritma za kodiranje pravokutnih nizova, te nizova proizvoljnih oblika.

Slika 12. Osnovni blok dijagram MPEG-4 kodera

Osnovna struktura kodiranja sastoji se od kodiranja oblika slike (za video objekte proizvoljnog

oblika) i pokretnog sažimanja, kao što je DCT teksturno kodiranje (koristi se standardna 8×8 DCT

ili prilagodljiva DCT). Jedna od važnijih prednosti korištenja sadržajno baziranog kodiranja je

mogućnost značajnog povećanja učinkovitog kodiranja nekih video slijedova, korištenjem prikladno

odabranih objektno baziranih pokretnih predikcija “alata” za svaki objekt na sceni.

Učinkovito kodiranje vizualnih tekstura i mirnih slika podržava vizualni teksturni mod MPEG-4

standarda. Ovaj mod temeljen je na zerotree wavelet algoritmu, što omogućuje vrlo visoku

29

učinkovitost kodiranja u velikom rasponu brzine prijenosa. Pored toga, omogućuje prostorno i

kvalitetno skaliranje (do 11 nivoa prostornog skaliranja i neprekidnog kvalitetnog skaliranja), te

kodiranje slika proizvoljnog oblika. MPEG-4 podržava kodiranje slika i video objekata s prostornom

i privremenom skaliranošću neovisno o tome da li je riječ o slikama sa standardnim pravokutnim ili

proizvoljnim oblikom. Skalirani podaci nude mogućnost dekodiranja samo dijela bitstreama i

rekonstruirane slike ili slijeda slika pomoću:

• smanjenja složenosti dekodera i kvalitete

• smanjenja prostorne rezolucije

• smanjenja privremene rezolucije

• jednakom privremenom i prostornom rezolucijom, ali sa smanjenom kvalitetom.

Ova svojstva su poželjna kod progresivnog kodiranja slika i videa koji se prenose heterogenim

mrežama, kao i kod aplikacija kod kojih prijemnik nije sposoban prikazati cijelu rezoluciju ili

potpunu kvalitetu slike i video slijeda. Veliki problem može predstavljati i sama jačina procesora, te

hardvera u cjelini.

4.3. Profili i razine kod MPEG-4

Profili za prirodne video sadržaje su

• Simple Visual Profile - koristi se za male brzine i rezolucije, s visokom otpornosti na šum -

mobilne aplikacije, pravokutni okviri.

• Simple Scalable Visual Profile - uključuje opciju skalabilnosti za primjene s mogućnošću

promjene parametara kvalitete (Internet, programski dekoderi, pravokutni okviri).

• Core Visual Profile - podržava kodiranje objekata proizvoljnog oblika s mogućnošću

skalabilnosti, uključuje i jednostavno meĎudjelovanje (Internetske multimedijske aplikacije).

• Main Visual Profile - podržava kodiranje interlaced videa, sprite objekata i standardnih

objekata (8x8, 16x16) - za interaktivni video za DVD i difuziju.

• N-bit Visual Profile - kodiranje objekata sa dubinom bita od 4 do 12 – za video nadzorne

sustave.

Simple Visual Profile je VLBV Core[u]

model codeca (engl. Very Low Bit-rate Video Core), koji vrši

kodiranje pravokutnih okvira, male brzine. Osnovna struktura kodiranja sastoji se od blok DCT

kodiranje, te predviĎanja pokreta:

30

• I-VOP - 8x8 blok DCT, kvantizacija, cik-cak skeniranje, te run-length i variable-length

kodiranje

• P-VOP - standardna procjena i ravnoteža pokreta na makroblokovima 16x16 elemenata

okvira, razlučivost ½ piksela

Dodatni alati povećavaju učinkovitost kodiranja i prijenosa poput 4 vektora pokreta po makrobloku,

neograničeni vektori pokreta, te video paketi, dijeljenje podataka, reverzibilni kodovi promjenjive

duljine, kratko zaglavlje s GOB-ovima[v]

.

Profili za prirodne video sadržaje (dodani u verziji 2):

• Advanced Real-Time Simple (ARTS) - napredne tehnike zaštite od pogreške za pravokutne

video objekte, korištenje povratnog kanala, mogućnost korištenja proizvoljnog referentnog

okvira (tj. VOP-a), mogućnost smanjenja rezolucije kod loših uvjeta prijenosa, malo

kašnjenje – videotelefonija, videokonferencije, daljinski nadzor.

• Core Scalable Profile - kodiranje objekata s opcijom vremenske, rezolucijske i SNR

skalabilnosti - za Internet, mobilne i broadcast primjene.

• Advance Coding Efficiency (ACE) - unaprijeĎena efikasnost kodiranja i za blok kodiranje i

za objektno kodiranje – primjene za mobilnu TV difuziju, kamere.

Profili za prirodne video sadržaje (dodani u sljedećim verzijama standarda)

• Advaced Simple Profile - koristi se za pravokutne objekte, s dodatnim alatima: B okviri,

kompenzacija pokreta na ¼ piksela, globalna kompenzacija pokreta, dodatne kvantizacijske

tablice, interlaced alati.

• Fine Granularity Scalability Profile - koristi se za sloj poboljšanja dozvoljava prekid bitnog

niza na bilo kojoj poziciji - kao osnovni sloj može koristiti Simple ili Advance Simple profil.

• Simple Studio Profile - profil za visoko kvalitetni video za studijske aplikacije. Koristi i

okvire, ali i objekte proizvoljnog oblika i višestruke alfa kanale - brzine do 2 Gb/s.

• Core Studio Profile - dodaje P okvire na Simple Studio.

4.4. Vrste okvira

Vrste okvira su:

• Intracoded frame (I-frame) je tzv. independant frame koji ne nastaje iz drugog okvira.

31

• Reference frame (R-frame) su okviri iz kojih se konstruiraju drugi okviri (I i P okviri).

• Predicted frame (P-frame) je okvir koji nastaje samo iz (nekog od) prethodnih okvira. Uvijek

nastaje od I-okvira.

• Bidirectional frame (B-frame) je okvir koji nastaje od (nekog od) prethodnih i od (nekog od)

slijedećih okvira. Obično nastaje iz I-okvira i P-okvira.

Slijed kodiranja:

1. nekoliko okvira treba staviti u spremnik (buffer)

2. prvo se kodira I-okvir

3. zatim P-okviri, onda svi B-okviri izmeĎu I i P

4.5. Video – pokretne slike

Za stvaranje dojma pokreta, odnosno pokretne slike na zaslonu se izmjenjuju slike odreĎenom

brzinom, tablica 3.

Ovdje se koristi pojava “tromosti oka”, odnosno svojstvo oka da kraće vrijeme zadržava sliku koja

više ne postoji. Svaka statična sličica se zove okvir (frame). Brzina izmjene okvira u mjeri se u fps

(engl. frames per second). Što je veća brzina, pokret je glaĎi.

Brzina izmjena okvira Vrsta video signala

< 10 fps vidi se izmjena slika

10 - 16 fps iskrzani pokreti

24 fps filmska traka

25 fps

30 fps

TV- PAL

TV - NTSC

60 fps HDTV

Tablica 3. Povezanost kvalitete signala sa brzinom izmjene okvira

4.6. Standardi video signala

MeĎunarodni standardi za prenošenje i prikaz televizijske slike u svijetu su: NTSC koji se koristi u

SAD-u, Kanadi, Japanu, PAL koji je uobičajen u Europi, Kini, Australiji, te SECAM u primjeni u

32

Francuskoj. Oni se razlikuju po načinu na koji se informacije kodiraju kako bi proizvele elektronski

signal, koji stvara TV sliku i nisu meĎusobno kompatibilni.

NTSC

TV kadar na ekran crta elektronska zraka koja njime prolazi 2 puta (ispreplitanje engl. interlacing).

Pri tome se TV slika doima stabilno, bez titranja, a kadar ima rezoluciju od 525 vodoravnih crta, sa

iscrtavanjem od 30 kps. Omjer slike je 4:3.

PAL

Koristi metodu dodavanja boje crno-bijelom TV signalu koja iscrtava 625 vodoravnih crta s 25 kps

i, takoĎer, koristi ispreplitanje.

HDTV (engl. High Definition Television)

Standard koji za prijenos i prikaz TV slike koristi digitalni umjesto analognog signala, čime se

dobije kvalitetnija slika prilikom iscrtavanja 1080 vodoravnih crta s 60 kps. Omjer slike je 16:9 [6].

33

5. Pohrana medija

5.1. Formati za snimanje video zapisa

Formate za snimanje video zapisa dijelimo na dvije osnovne skupine. Tako postoje analogni: VHS,

8mm (niže kvalitete), SVHS, Hi8 (više kvalitete) i digitalni: HD DVD, Blu-Ray Disc, DV, DVD,

mini DVD, VCD, SVCD.

Analogni signal čini tradicionalni oblik videa na kojem se temelji televizijski video i video na

kazetama različitih formata (VHS, S-VHS, Beta). On se u osnovi sastoji od niza pojedinačnih slika

(kadrova), gdje prikazivanje većeg broja kadrova u sekundi stvara iluziju kretanja (24-30 kadrova u

sekundi). Standardna rezolucija je 720x480, odnosno 350 000 pixela.

Osnovni problem analognog signala je generacijski gubitak (engl. generational loss), odnosno svaka

kopija videa lošija je od prethodne. Javlja se radi potrebe pojačavanja analognog signala kod

kopiranja, odreĎenom količinom šumova.

Kod digitalnog signala u multimedijskim projektima je svaki piksel pojedinih kadrova predstavljen

binarnim brojevima. Tu su bitna bitna 4 elementa: broj kadrova u sekundi, veličina prozora unutar

kojeg se prikazuje video, kvaliteta slike, brzina prijenosa podataka ureĎaja za pohranu (hard disk,

CD-ROM).

Princip iluzije kretanja je kao i kod analognog videa s manjim brojem kadrova u sekundi (10-15

kps) . Ukoliko se broj kadrova spusti ispod 10 kps, sve izgleda kao serija slika.

Prednosti korištenja digitalnog videa su niža cijena, poboljšana interaktivnost (brzi dohvat bilo kojeg

dijela filma), potrebno manje mjesta za pohranu i lako ureĎivanje.

Digitalni formati su:

• HD DVD (High-Definition Digital Video Disc) je digitalni optički medij razvijen i

prvenstveno namijenjen za zapis video signala visoke razlučivosti. Može pohraniti 15 GB

(jednoslojni), odnosno 30 GB memorije (dvoslojni).

• Blu-Ray Disc je digitalni optički medij razvijen za pohranu video signala visoke

razlučivosti, video igrica (za Sony Play station) i podataka. Može pohraniti 27 GB memorije

(jednoslojni), 54 GB memorije (dvoslojni), 100 GB (četveroslojni) i 200 GB (šesteroslojni).

34

• DV je format univerzalno prihvaćen za digitalne kamere. Komprimiranje podataka od oko

3.5 MB/sec kvalitete veće od analognih formata.

• DVD (Digital Versatile Disc) je DVD-Video format snimljen na DVD-R ili DVD-RW disk,

sadrži visokokvalitetni video (MPEG-2) i audio

• miniDVD format je sličan DVD-u, ali sadrži mogućnost pohrane 18 minuta videa.

• VCD Video Compact Disc' je video format snimljen na CD-ROM disk s videom i audiom

koji obično može sadržavati oko 74 minute videa. Sprema se u MPEG-1 formatu kvalitete

približno jednake kao VHS video.

• SVCD (Super Video Compact Disc) je format snimljen na CD-ROM disk s

visokokvalitetnim videom i audiom, koji obično može sadržavati oko 35~45 minuta

(650MB) videa i stereo zvuka spremljenih u MPEG-2 formatu.Kvaliteta SVCD videa bolja

je od VHS kvalitete.

DVD, miniDVD, VCD i SVCD formati za pohranu videa na CD-R/RW diskovima su formati

koji se mogu izvoditi na računalima ili kućnim DVD playerima.

5.2. Formati za snimanje audio zapisa

Postoje različiti oblici zapisivanja audio signala. Njihov razvoj je slijedio iz zahtjeva pojedinih

aplikacija koje su koristile zvuk. Mogu se podijeliti obzirom na tehnologiju zapisa na:

• Mehanički zapis i reprodukcija koji izravno pretvara valni oblik zvuka u mehanički urezane

udubine na fonografu ili gramofonskoj ploči

• Magnetski zapis i reprodukcija čiji se postupak izvodi predmagnetiziranjem (magnetska

traka, magnetski disk, magnetooptički disk)

• Optički zapis i reprodukcija (celuloidni film, CD, DVD, Blu-Ray)

• Elektronski zapis i reprodukcija (flash memorije)

S druge strane, dijelimo ih obzirom na sadržaj na:

• Analogne, kod čije se reprodukcije zapis pretvara u kontinuiranu električnu veličinu od

amplituda –A do +A. Bitno je imati konstantnu amplitudnu karakteristiku radi sprječavanja

izobličenja. Primjer medija su: gramofonska ploča, magnetska traka, optički zapis na film, te

• Digitalne kod čije se reprodukcije zapis pretvara u električne veličine koje se pridjeljuju

naponskim veličinama za 1 i 0. Ovdje postoje manji zahtjevi na amplitudnu karakteristiku,

35

no veći kod sinkronizacije bitova. Primjeri medija su: kompozitni disk CD, DAT Digital

Audio on Tape, DCC Digital Compact Cassette, Mini Disc.

Najrašireniji standard za komercijalni zapis audio signala je Compact Disc (CD, CD-ROM, CD-R,

CD-RW). CD-i su dostupni u dvije standardne veličine. Najrašireniji su 120mm promjera, kapaciteta

74 minute i 650 MB podataka i 80 minutni za 700 MB podataka. Podaci na medij pohranjuju se kao

niz mikro-udubina dubokih oko 100 nm, širine 500 nm i duljine oko 850nm (slika 15). Čitanje

zapisa odvija se pomoću lasera od 780 nm, fokusiranog kroz dno polikarbonskog sloja. Razlika

izmeĎu udubina i tzv. ”dolina” (ravni dio, eng. “land”) dovodi do promjene izmeĎu faze svjetla

reflektiranog u slučaju udubine i svjetla reflektiranog u slučaju “doline”. Ovaj proces ima

objašnjenje u činjenici da je laser izvor koherentne svjetlosti, odnosno ta svjetlost interferira.

Interferencija je superpozicija dvaju valova koji su meĎusobno koherentni (imaju istu frekvenciju).

Ukoliko imamo dva vala iste valne duljine, odaslana iz istog izvora, koji nailaze na prepreku i budu

ogibnuti, a prolaze kroz prostor s istim amplitudama i frekvencijama, ali meĎusobno pomaknuti u

fazi, bit će ispunjeni uvjeti za interferenciju.

Slika 13. Ogib na pukotini Slika 14. Intenzitet svjetlosti

Val dolazi na pukotinu (slika 13), a iz svakog dijela pukotine pod kutom izlazi elementarni val

amplitude E0. Kut može poprimiti vrijednosti od 0 do ± /2 rad. Ukupna amplituda E() u smjeru

dobiva se u točki u beskonačnosti zbrajanjem svih amplituda valova koje imaju ogib za kut .

Pukotinu širinu d podijelimo na m dijelova:

sina

36

Uvjet za mimimum:

Uvjet za maksimum:

Ovisno o pomaku u fazi, na nekim mjestima će i prvi i drugi val oba imati pozitivnu ili negativnu

amplitudu, dok će na drugim mjestima jedan imati pozitivnu, a drugi negativnu amplitudu. Na

nekim mjestima će rezultirajući val imati povećanu amplitudu, a na nekim mjestima umanjenu

amplitudu. Kod CD-a, upadni valovi svjetlosti dopiru do premaza na stražnjoj strani CD-a, te zbog

njegove mikroskopske strukture bivaju ogibnuti. Tu dolazi do difrakcije, što rezultira

interferencijom. Na optičkoj rešetki (kod koje se interferencija svjetlosnih valova dogaĎa na isti

način kao i kod jedne pukotine (slika 13.), jer utori optičke rešetke djeluju kao pukotine, a brijegovi

kao neproziran zid) se zraka cijepa na tri malo razmaknute zrake. Prolazeći kroz sustav leća prema

CD-u, tri zrake se fokusiraju na stazu koju želimo pročitati i meĎuprostore lijevo i desno od nje na

spirali s podatcima, zrake se reflektiraju od aluminijske površine CD-a i vraćaju istim putem natrag.

Udubljenja su bliža reflektivnoj strani tako da izobličenja i prašina na čistoj strani mogu biti

zanemarena, no disk zbog toga trpi više štete u slučaju oštećenja na reflektivnoj strani.

2

2

0

2

sin

sinsin

)(

sin

sinsin

)0()(

sinsinsinlim

)sinsin(

sinsin

)0()(

d

d

II

EIjeJer

d

d

EE

d

m

dm

m

dm

d

EE

m

kd sin

2

12sin

kd

37

Slika 15. Građa CD-R diska

Digital video disc, poznatiji kao DVD, ne služi isključivo za pohranu audio signala, nego i video

signala, te općih digitalnih podataka. O tome govori i uvjerenje o izvornom značenju kratice DVD,

digital versatile disc, odnosno svestrani digitalni disk. Izgledom i veličinom je gotovo identičan CD

disku, a dijeli se na: DVD-ROM, DVD-R, DVD-RW, DVD-RAM, DVD+R, DVD+RW DVD+R

DL, DVD-Audio s različitim osobinama zapisa (slika 16) i DVD-Video diskove. DVD-Audio

diskovi sadržavaju jaku zaštitu od kopiranja zvanu Content Protection for Prerecorded Media

(CPPM)

Slika 16. DVD-Audio osobine zapisa

http://hr.wikipedia.org/w/index.php?title=Content_Protection_for_Prerecorded_Media&action=edit&redlink=1

http://hr.wikipedia.org/w/index.php?title=CPPM&action=edit&redlink=1

38

5.3. Blu-Ray

Blu-ray Disc (takoĎer poznat kao BD ili Blu-Ray) je optički disk za pohranu medija osmišljen kao

zamjena standardnom DVD formatu. Ime Blu-ray Disc dolazi od plavo-ljubičastog lasera koji se

koristi za čitanje diska. U odnosu na standardni DVD koji se koristi crvenim laserom od 650 nm,

Blu-ray koristi kraće valne duljine, 405 nm plavo-ljubičastog lasera (valna duljina obrnuto je

proporcionalna sa energijom), te omogućava gotovo deset puta veću pohranu podataka nego DVD.

Korištenje kraće valne duljine lasera omogućuje znatno manje mjesta za fokusiranje na reflektivnom

sloju medija, što omogućava spremanje manjih segmenata podataka, odnosno veće količine

podataka. Blu-ray Disc postoji u 3 izvedbe: kao BD samo za učitavanje, kao BD-R za učitavanje i

jednostruki zapis i kao BD-RE za učitavanje i višestruki zapis podataka [11].

Kapacitet podataka koji je moguće pohraniti na optički disk, odreĎen je valnom duljinom λ i

numeričkim otvorom NA (engl. Numeric Aperture)

kapacitet ~ NA

λ ²

Valna duljina ne bi trebala biti manja od 400 nm, jer se ispod te vrijednosti javljaju problemi s

optičkim karakteristikama plastike koja naglo gubi karakteristike. Numerički otvor definira se kao

stupanj konvergencije svjetlosne zrake koju leća može postići (slika 17).

http://translate.googleusercontent.com/translate_c?hl=hr&sl=en&u=http://en.wikipedia.org/wiki/Optical_disc&prev=/search%3Fq%3Dhttp://en.wikipedia.org/wiki/Blu-ray_Disc%26hl%3Dhr%26client%3Dfirefox-a%26rls%3Dorg.mozilla:en-US:official%26hs%3DXnF&rurl=translate.google.hr&usg=ALkJrhiDTiUvSBsJMwqowSHpJ5o1Bb8WWw

http://translate.googleusercontent.com/translate_c?hl=hr&sl=en&u=http://en.wikipedia.org/wiki/Data_storage_device&prev=/search%3Fq%3Dhttp://en.wikipedia.org/wiki/Blu-ray_Disc%26hl%3Dhr%26client%3Dfirefox-a%26rls%3Dorg.mozilla:en-US:official%26hs%3DXnF&rurl=translate.google.hr&usg=ALkJrhhqa24Q97b53xMDh4CEqF2oQhhmjA

http://translate.googleusercontent.com/translate_c?hl=hr&sl=en&u=http://en.wikipedia.org/wiki/DVD&prev=/search%3Fq%3Dhttp://en.wikipedia.org/wiki/Blu-ray_Disc%26hl%3Dhr%26client%3Dfirefox-a%26rls%3Dorg.mozilla:en-US:official%26hs%3DXnF&rurl=translate.google.hr&usg=ALkJrhiUUKK9Wsw_p2OxftR6eWAQTNQijA

http://translate.googleusercontent.com/translate_c?hl=hr&sl=en&u=http://en.wikipedia.org/wiki/Blue_laser&prev=/search%3Fq%3Dhttp://en.wikipedia.org/wiki/Blu-ray_Disc%26hl%3Dhr%26client%3Dfirefox-a%26rls%3Dorg.mozilla:en-US:official%26hs%3DXnF&rurl=translate.google.hr&usg=ALkJrhjgdi6GzHtM5wVH4M6cLO-ycW0VcA

http://translate.googleusercontent.com/translate_c?hl=hr&sl=en&u=http://en.wikipedia.org/wiki/DVD&prev=/search%3Fq%3Dhttp://en.wikipedia.org/wiki/Blu-ray_Disc%26hl%3Dhr%26client%3Dfirefox-a%26rls%3Dorg.mozilla:en-US:official%26hs%3DXnF&rurl=translate.google.hr&usg=ALkJrhiUUKK9Wsw_p2OxftR6eWAQTNQijA

http://translate.googleusercontent.com/translate_c?hl=hr&sl=en&u=http://en.wikipedia.org/wiki/Wavelength&prev=/search%3Fq%3Dhttp://en.wikipedia.org/wiki/Blu-ray_Disc%26hl%3Dhr%26client%3Dfirefox-a%26rls%3Dorg.mozilla:en-US:official%26hs%3DXnF&rurl=translate.google.hr&usg=ALkJrhh2PGjwm-hwKSzymmo43a67Pq_Rmw

39

Slika 17. Značenje numeričkog otvora

Za ostvarivanje kapaciteta, osim povećanja numeričkog otvora i smanjenja valne duljine, radi se i

optimizacija debljine zaštitnog sloja. Smanjenjem debljine zaštitnog sloja, lakše se postiže

povećanje kapaciteta, no povećava se osjetljivost na prašinu, a samim time i greške prilikom čitanja

medija. Za izvedbu je odabrana je debljina zaštitnog sloja od 0.1 mm.

Po strukturi diska, osnovna podjela Blu-raya je na jednoslojne i dvoslojne (postoje i diskovi koji

imaju do 8 slojeva).

Jednoslojni disk (Single layer Blu-ray) može pohraniti do 25 GB podataka (oko 13 sati video zapisa

standardne kvalitete), dok dvoslojni disk (Dual layer Blu-ray) može pohraniti do 50 GB podataka

(dovoljno za više od 20 sati video zapisa standardne kvalitete).

40

Slika 18. Jednoslojni disk

Jednoslojni disk (slika 18), sastoji se od 1.1 mm debele polikarbonatne podloge, nakon nje je sloj na

kojem se zapisuju podaci, te 0.1 mm debeli zaštitni sloj. Sloj izmeĎu sloja za podatke i površine

diska iz smjera upadnog zračenja je u potpunosti propustan za svjetlost valne duljine 405 nm.

Slika 19. Dvoslojni disk

41

Dvoslojni disk (slika 19) je strukture slične jednoslojnom, s razlikom da, izmeĎu podloge i zaštitnog

sloja, sadrži dva podatkovna sloja, izmeĎu kojih se nalazi 25 μm debeli sloj za odvajanje. Debljina

zaštitnog sloja je ovdje 75 μm, radi održanja ukupne debljine 1.2 mm.

5.3.1. Fizička izvedba Blu-ray diska

Fizičku strukturu diska čine staze (engl. tracks). Format staze je snimanje urezivanjem (engl.

groove-recording), a podaci se zapisuju u utor (engl. in groove ) ili na utor (engl. on groove).

Slika 20. Zapisivanje podataka

Utor (engl. groove) je dio diska na kojeg se snima pomoću laserske zrake. IzmeĎu dvaju susjednih

utora nalazi se udubljenje (engl. land) koje sprječava prijelaz topline prilikom snimanja na susjedne

utore. Tako se sprječava slabljenje kvalitete snimke zbog utjecaja na podatke u susjednom utoru.

Razmak izmedu dvaju utora je 0.32 μm.

5.4. Budućnost digitalne pohrane

Trenutno se u svijetu ostvario veliki napredak u razvoju tehnologije digitalne pohrane podataka

upotrebom holograma. Takva tehnologija će omogućiti da se na diskovima standardne veličine

pohrani količina podataka jednaka onoj koja stane na stotinu DVD-ova. Novi sustav pohranjuje

digitalne informacije na hologramima koje iščitavaju maleni laseri. Došlo se do mogućnosti 200-

strukog povećanja reflektivne snage holograma, zbog čega ih mogu očitati postojeći Blue-ray

42

ureĎaji. To bi moglo rezultirati razvojem ureĎaja koji će uz CD-e, DVD-e i Blu-ray diskove

očitavati i tzv. mikroholografske diskove, na koje bi se moglo pohraniti 500 gigabajta podataka,

43

6. Zaključak

Tehnologija za digitalnu obradu signala se usavršava iz dana u dan, a pohrana pokretne slike

popraćene sa zvukom doživljava nagli porast zahvaljujući razvoju multimedijskih komunikacija.

Kvalitetniji prijenos, te pohrana slike i videosignala uz smanjivanje raspoloživog prostora za

pohranu, potiče znanstvenike za otkrivanje novih mogućnosti. Današnje društvo postavlja visoke

granice prihvatljive kvalitete zvučnog i video signala, pa je samim time MPEG-4 postupak

kodiranja, jedan od onih čiji se temelj zasniva na poznavanju svojstava ljudskog vizualnog sustava.

Sva istraživanja u budućnosti imaju isti cilj, a to je predočiti sliku, zvuk i pokret, udaljenom

korisniku, što vjernije originalu. Kao da se nalazi na koncertu, pliva u moru ili sluša opernu ariju.

44

7. Literatura [1] Bakotin, Davor: Modeliranje i simulacija složenih mehanizama u prostoru stanja korištenjem

osobnog računala, Diplomski rad, FESB Split, 1993.

[2] Lončarić, Sven: Digitalna obrada slike, HTML dokumet, Zagreb, 1995.-2004.

[3] Jain, Anil K.: Fundamentals of Digital Image Processing, Prentice Hall, 1989

[4] Steinmetz R., Nahrstedt K., Multimedia Fundamentals: Media coding and Content processing,

Prentice-Hall, 2002.

[5] IEEE Signal Processing Magazin, July 2003., Vol. 20, No.4

[6] Vidi časopis, listopad 2007., broj 139

[7] Overview of the MPEG-4 Standard

URL: http://mpeg.chiariglione.org/standards/mpeg-4/mpeg-4.htm (25.4.2008)

[8] Optical illusion

URL: http://en.wikipedia.org/wiki/File:Optical_grey_squares_orange_brown.svg

(25.04.2008)

[9] High definition television

URL: http://en.wikipedia.org/wiki/HDTV (25.04.2008)

[10] Zvuk

URL: http://www.carnet.hr/referalni/obrazovni/imme/mmelem/audio.html (10.05.2009.)

[11] Blu-ray

URL:http://www.blu-raydisc.com/Assets/Downloadablefile/general_bluraydiscformat-

15263.pdf (30.01.2010.)

http://mpeg.chiariglione.org/standards/mpeg-4/mpeg-4.htm

http://en.wikipedia.org/wiki/File:Optical_grey_squares_orange_brown.svg

http://en.wikipedia.org/wiki/HDTV

http://www.carnet.hr/referalni/obrazovni/imme/mmelem/audio.html

http://www.blu-raydisc.com/Assets/Downloadablefile/general_bluraydiscformat-15263.pdf

http://www.blu-raydisc.com/Assets/Downloadablefile/general_bluraydiscformat-15263.pdf

45

8. Popis oznaka i kratica

[a]PAL (engl. phase alternation line) – televizijski sustav, prenosi se 50 poluslika u sekundi koje

imaju po 625 linija

[b]Hz (Hertz) – mjerna jedinica za frekvenciju u MeĎunarodnom sustavu (SI)

[c]ASCII (engl. American Standard Code for Information Interchange) - američki standardni

znakovnik za razmjenu obavijesti, način kodiranja znakova temeljen na engleskoj abecedi

[d]CS&Q

(engl. coarser sampling and/or quantization) – metoda kompresije podataka s gubicima

[e]JPEG (engl. Joint Photographic Experts Group) – komprimirani slikovni format s gubicima

[f]YUV - sustav boja koji se koristi u analognim televizijskim sustavima, vektorski zapis boje u

trodimenzionalnom prostoru

[g]MPEG (engl. Moving Picture Experts Group) - organizacija koja sastavlja standarde za kodiranje

audio i video signala

[h]DCT (engl. Discrete cosine transform) - matematička transformacija temeljena na Fourierovim

transformacijama

[i]DPCM (engl. differential pulse-code modulation) - modulacija signala kodera koji za osnovu

koristi PCM (digitalni prikaz analognog signala)

[j]HDTV (engl. High-definition television) - televizija visoke rezolucije

[k]kbps (engl. kilobit per second) - mjerna jedinica za brzinu prijenosa podataka u računarstvu i

komunikacijama

[l]MP3 (MPEG-1 Audio Layer 3) - format za kodiranje audio signala, uz postojeće gubitke u

sažimanju

[m]bitrate - broj bitova koji se prenose u jedinici vremena

[n]LAME – besplatna računalna aplikacija koja se korist za kodiranje audio signala u MP3 format

[o]pre-echo - neprirodne smetnje koje se javljaju pri sažimanju audio formata

[p]mutipleksiranje - proces kombiniranja više analognih i digitalnih signala, u jedan signal

[r] sinkronizacija - proces usklaĎivanja početnih podataka sa krajnjim podacima

[s]FlexMux demultipleksor - ureĎaj za dekombiniranje signala, daje elementarne podatke o signalu

[t] fonem - najmanja jedinica jezika koja nema svoje značenje, ali razlikuje značenje

46

[u]Very Low Bit-rate Video Core - podržava algoritme i alate za aplikacije namijenjene tipičnim

brzinama prijenosa izmeĎu 5 i 64 kbita/s, podržavajući sekvence slika niske prostorne rezolucije (do

CIF rezolucije) i niskog frame rates (tipično do 15 Hz)

[v]GOB - grupa blokova, 33 makro bloka

47

9. Životopis

RoĎen sam 01.05.1980. godine u Osijeku. Osnovnu i srednju (elektrotehničku) školu, završio

sam u Valpovu. 2002. godine upisujem Pedagoški fakultet u Osijeku, studij Fizike i tehničke kulture

s informatikom.

U slobodno vrijeme bavim se fotografijom.

DIGITALNA POHRANA SLIKE I ZVUKA - mathos.unios.hrmdjumic/uploads/diplomski/KOP07.pdfFormati za snimanje video zapisa ..... 33 5.2. Formati za snimanje audio zapisa ... poput zvuka

Documents