Top Banner
T.Gy. Intrernetes médiako mmunikáció. 2009.03. 04. 1 Internetes médiakommunikáció Beszéd-kodekek Takács György 3. előadás 2009. 03. 04.
59

Internetes médiakommunikáció Beszéd-kodekek

Jan 05, 2016

Download

Documents

Janae

Internetes médiakommunikáció Beszéd-kodekek. Takács György 3. előadás 2009. 03. 04. Ismétlés Beszéd-kodekek általában GSM beszéd-kodekek SPEEX kodekek. Alapfogalmak. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

1

Internetes médiakommunikáció

Beszéd-kodekek

Takács György

3. előadás

2009. 03. 04.

Page 2: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

2

• Ismétlés

• Beszéd-kodekek általában

• GSM beszéd-kodekek

• SPEEX kodekek

Page 3: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

3

Alapfogalmak

• Internetes médiakommunikáció = Szöveg, állókép, hang, beszéd, (strukturált) adat továbbítása Internet Protokoll alapú hálózatokon a megkívánt minőséggel, adatbiztonsággal, interaktivitással, megbízhatósággal.

Page 4: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

4

A beszédhangok folytonos és diszkrét természete

Page 5: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

5

A beszéd szerkezete• A beszéd egymástól megkülönböztethető

elemek szervezett időbeni egymásutánisága – soros szerkezet.

• Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang.

• Egy ötven beszédhangból álló nyelvben (leszámítva, hogy nem minden hang mondható egymás után) kb. egymillió különböző tíz hangból álló szó képezhető.

• A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt.

Page 6: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

6

Lineári predikció alapokA beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával

ahol az αi lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat.

p -- a prediktor fokszáma

Page 7: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

7

A predikció pontatlanságát jellemzi az

predikciós hiba

A predikciós hiba általában mintáról mintára változik!

Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az αi értékeket, hogy a predikciós hiba négyzetösszege minimális legyen.

Page 8: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

8

(a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization

Page 9: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

9

Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már

nem korlátoz?

Page 10: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

10

Minek tömöríteni a beszédjelet – válaszaim:

• Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél).

• Nagy az árverseny a transzkontinentális összeköttetéseken

• Korlátos és nem garantált az interneten rendelkezésre álló sávszélesség…..

• Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…)

• Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány)

• A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál)

Page 11: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

11

Mekkora redundancia van a beszédjelben?Hány bitet kell átvinni legalább elvileg? (A

digitális telefonátvitelben 8kHz mintavétel és 8 bites minta a szabványos > 64kbit/s)

Page 12: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

12

Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis

megfontolásból:

• A leggyorsabb beszéd átlagosan kb. 10 fonéma/s

• A kb. 50 fonéma van nyelvenként (angolban kb. 25)

• 1 fonéma információ tartalma kb. 0,5 bit (az egyes fonémák előfordulási gyakorisági értékei miatt)

• Eredmény kb. 250 (angolban 125) bit/s (de ez nem tartalmazza a beszélő személyét, hangulatát, a hangsúlyokat stb….)

Page 13: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

13

Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés

megfontolásból:

• Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s

• Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s (hivatkozott cikk lásd 2. előadás)

Page 14: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

14

Miből fakad a nagyságrendi eltérés?

Page 15: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

15

Miből fakad a nagyságrendi eltérés – válaszaim:

• Amikor én Önök elé állok szerdán délután mit szoktam mondani első mondatban?

• Mekkora új információt hordoz Önök számára, ha ismét elmondom?• A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak

a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya???

• Mekkora az egymás mellé sorsolható és a tényleg kimondható fonéma stringek aránya????

• Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye?????

• Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat….

• Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!!

Page 16: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

16

Mit várunk a beszédtömörítőktől?

• Értse amit mondunk – nem!

• Tudja milyen nyelven beszélünk – nem!

• A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvaló a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket!

Page 17: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

17

Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest?

• A laboratóriumi rendszerek lementek 1 kbit/s alá!

• Ami az Önök zsebében most ott lapul , az 5,6 kbit/s értéket tudja (half rate codec)

• Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható.

Page 18: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

18

Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL

Shannon szerinti telefon 13 óra

(96000bit/s)

GSM FULL RATE

22 óra 29 perc

(13000 bit/s)

GSM HALF RATE

23 óra 18 perc

(5600 bit/s)

Laboratóriumi csúcs

23 óra 51 perc

1000bit/s

Elvi kiejtési határ23 óra 58 perc250 bit/s

Page 19: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

19

"A lathe is a big tool. Grab every dish of sugar."

Eredeti

2400 bit/s

Page 20: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

20

Page 21: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

21

A GSM rendszer -- áttekintés

• Nyilvános cellás (analóg) rádiótelefon rendszerek működtek az 1980-as évek elejétől

• Korlátaik: – sávszélesség pazarlás, – csak a saját hálózaton belül használható egy

végberendezés, – nem tudott kialakulni a kritikus tömeg a magas

árak miatt…

Page 22: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

22

A GSM rendszer – áttekintés (2)

• GSM Memory of Understanding -- 13 ország megállapodása 1987-ben, hogy kidolgozzák a közös technológiát 1991 július 1-re.

• A rendszer legyen korszerű, hatékony, tegye lehetővé a bolyongást egész (nyugat) Európában.

• A végberendezés legyen egységes, az előfizetés SIM kártyához kapcsolódik….

• Legyen versenylehetőség országon belül is….. • Először szabványosítás, utána gyártás….• Szabványosítás az ETSI keretében…• Első változat 6000 oldal!!!!

Page 23: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

23

A GSM rendszer – áttekintés (3)

• Az európai megoldás eredménye:– Soha nem látott ütemű fejlődés,– Ma Magyarországon közel 11 millió előfizető

(2008. április),– A világon több, mint 2 milliárd GSM előfizető

volt 2007 végén– 2003-ban kb. 400 millió codec chip készült

(több mint napi 1 millió darab!!!!)– Ma csak erről az „apróságról” lesz szó….

Page 24: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

24

A GSM rendszer – áttekintés (4)• Egy GSM terminál funkciói:

• Hány csip kell ehhez?

Page 25: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

25

KODEK követelmények

• Nagy tömörítés (64 kbit/s-ről kb. 10 kbit/s-re)• Tisztán digitális rendszer• Jó minőség• Hibatűrés (a rádiós átvitel sajátosságai miatt)• Stabilitás• Kis késleltetés (max. 50 ms)• Kis fogyasztás• Implementálhatóság• Full Rate, Half Rate, Enhanced Full Rate,

Adaptive Rate változatok

Page 26: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

26

Page 27: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

27

GSM KODEK követelmények

• Nagy tömörítés (64 kbit/s-ről kb. 13 kbit/s-re)• Tisztán digitális rendszer• Jó minőség• Hibatűrés (a rádiós átvitel sajátosságai miatt)• Stabilitás• Kis késleltetés (max. 50 ms)• Kis fogyasztás• Implementálhatóság• Full Rate, Half Rate, Enhanced Full Rate,

Adaptive Rate változatok

Page 28: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

28

GSM Kodek alapjellemzők

• Mintavételi frekvencia 8kHz• Analízis keret 20ms (160 minta)• Reflexiós együtthatók száma 8 (prediktor

fokszáma) kifejezése LAR (Log Area Reflexion) paraméterekkel

• Reziduális hiba tovább bontva 4 db 40 mintás alszegmensre RPE (Regular Pulse Exitation) kódolás és LTP (Long Term Predictor) kódolással

• 260 bit/20 ms (13000 bit/s) nettó bitsebesség

Page 29: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

29

Page 30: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

30

Page 31: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

31

Page 32: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

32

Page 33: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

33

Kell-e egy mai mérnöknek CODEC programot írnia?

• Nem, mert letölthető sok változat, kapható kész chipset!

Page 34: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

34

Page 35: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

35

Page 36: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

36

Page 37: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

37

Page 38: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

38

Page 39: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

39

• Int. Headquarters• ISRAEL• AudioCodes Ltd.• 1 Hayarden Street, Airport City Lod, 70151 (Get

Directions) • Tel: +972-3-976-4000 • Fax: +972-3-976-4040

Page 40: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

40

Egyik alapvető kodek termék:

AudioCodes’ AC494/5/6/7 family of System on Chip (SoC) provides IP phone and Customer Premises Equipment (CPE) manufacturers with cutting-edge VoIP processing system capabilities. The AC494 family combines MIPS Controller, AC49x DSP Core and a rich set of peripherals such as Codecs, Ethernet MACs and Phys, integrated 3 Port Switch and more. Several silicon derivatives of this family allow cost optimization per application.

Page 41: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

41

AudioCodes’ AC494/5/6/7 Software Specifications

• Channel Density: Up to 6 channels• Voice Coders: G.711, G.723, G.729, G.722.2, iLBC,

G.722*• Echo CancellerG.168-2002 compliant; Full duplex

acoustic EC• 3/4 Way Conferencing: 3/4 participants from PSTN or IP• Quality Enhancement:

– Voice Activity Detection (VAD), – Comfort Noise Generation (CNG),– Packet Loss Concealment (PLC), – Adaptive Jitter Buffer (up to 300 msec)

Page 42: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

42

A SPEEX kodek koncepciója

• A fejlesztők egy nyílt forráskódú beszédkodeket terveztek, amelynél nem kell kodekenként díjat fizetni a szabadalom tulajdonosainak. Valami olyat terveztek, mint a Vorbis az audio (zenei) kodekek területén.

• Nem a mobiltelefonok igényét tartották szemelött (persze abból már működik több, mint 2 milliárd darab), hanem kifejezetten az IP alapú hálózatok igényeit és a VoIP alkalmazásokat. Jól alkalmazható a SPEEX beszédjelek tömör tárolására is fájlokban.

Page 43: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

43

A SPEEX kodek koncepciója

• Legyen rugalmas és széles beszédminőség-tartományban használható azaz különböző bitsebességeknél. Felöleli a szélessávú (16kHz mintavételes) jóminőségű beszédkódolástól a szokásos telefonminőségen át a 4,8 kbps tömörítésig.

• A SPEEX jól tűri a csomagveszést, de nem működik jól bithibák esetén. Azt feltételezi, hogy a csomagok vagy megérkeznek rendben vagy elvesznek.

• Mivel sokféle eszközben tervezték a felhasználását, ezért törekedtek a fejlesztésénél ara, hogy megvalósításánál a processzorteljesítmény és tárterület igény minimális legyen.

Page 44: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

44

A SPEEX kodek koncepciója

• A követelmények alapján a legjobban illeszkedő kódolási technika a CELP (Code Excitation Linear Prediction). Ez a technika egyrészt bevált, megbízható, továbbá alkalmas széles minőségi tartományban hasonló algoritmusú működésre.

• A SPEEX kódolás veszteséges, azaz a tömörítést beszédminőség rovására hajtja végre. A tömörítési arány beállítható és lehetséges az állandó (CBR) vagy változó (VBR) bitsebességű működés is. (2,15 kbps – 44kbps)

• A kódolás komplexitása is változtatható.

Page 45: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

45

A SPEEX kodek koncepciója

• Beszéddetektálás (VAD) a kodek eldönti, hogy jön-e beszédjel, vagy beszédszünet van (esetleg háttérzaj). Ha nincs aktív beszédjel, akkor nem kódol, hanem csak egy pár mintával reprezentált „komfort” zajt ad ki.

• A SPEEX kodek elvi (CPU idő nélküli) késleltetése 8kHz mintavételezésnél 30 ms, 16 kHz-nél 34 ms.

Page 46: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

46

SPEEX keskenysávú módban

Page 47: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

47

SPEEX szélessávú módban

Page 48: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

48

SPEEX kodek elemek - segédelemek

• Zajcsökkentés

• Automatikus szintszabályozás (AGC)

• Beszéddetektálás (VAD)

• Adaptív buffer

• Visszhangzár

Page 49: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

49

Visszhangzár elve (hangszórós működéskor fontos, hogy a partner ne hallja késleltetve vissza

a saját hangját)

Page 50: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

50

A CELP elv

Page 51: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

51

A CELP eredő gerjesztőjele

• Ahol:– e(n) - az LPC szintézis szűrőt gerjesztő jel– a predikált periodikus hibajel– C(n) a rögzített kódkönyvtárból vett gerjesztő jel

Page 52: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

52

Teljes keret elemzés 8 kHz mintavételt feltételezve

• Egy keret 20 ms – (160 minta)• Keretenként számolandók a Line Spectra Pairs (LSP)

értékek és global gain (gframe )értékek • Az értékek kvantálandók

Page 53: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

53

Miért nem az LPC együtthatókat kvantáljuk?• stabilitási kritérium -- P(z) és Q(z) gyökei az egységkörön vannak és

felváltva jönnek• fizikai tartalom • Vektorkvantálás után elegendő 18-30 bit az LSP együtthatók kvantált

leírására.

Page 54: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

54

Alkeret elemzés szintézissel (AbS) 8 kHz-es mintavételnél

• Minden keretet 4 db 5 ms hosszú alkeretre bontunk (40 beszédminta)

• Az AbS a fő különbség a többi CELP kodekhez képest.• A SPEEX egy valós számmal írja le a pitch értéket, de

egy háromlépcsős prediktort és 3 pitch gain értéket használ fel az ea(n) kiszámolásához

Page 55: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

55

Page 56: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

56

LSP are more correlated from one frame to the next than LPC. The frame size is 20 msec. There are 50 frames/sec. 2400 bps is equivalent to 48

bits/frame. These bits are allocated as follows:

Page 57: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

57

"A lathe is a big tool. Grab every dish of sugar."

Eredeti

2400 bit/s

Page 58: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

58

Forrás

• The Speex Codec Manual• Version 1.2 Beta 3• Jean-Marc Valin• December 8, 2007• http://speex.org/docs/manual/speex-manual.pdf

Page 59: Internetes médiakommunikáció Beszéd-kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

59

Hasznos linkek

• http://www.comms.eee.strath.ac.uk/~gozalvez/gsm/gsm.html

• http://ccnga.uwaterloo.ca/~jscouria/GSM/gsmreport.html

• http://www.analog.com/UploadedFiles/Product_Briefs/627038651430chipset.pdf

• http://www.ddj.com/print/ (komplett C nyelvű algoritmus)

• http://www.commsdesign.com/design_corner/OEG20030711S0010