Die MPEG Standards - RWTH Aachen · Decoder gelesen und dann wieder zurückgewandelt, dekodiert, so dass die Originaldaten wieder vorliegen. Es gibt verschiedene Typen von Kompressionsalgorithmen.

Rheinisch-Westfälische Technische Hochschule AachenLehrstuhl für Informatik IV

Prof. Dr. rer. nat. Otto Spaniol

Die MPEG Standards

Proseminar: Internetprotokolle für die MultimediakommunikationWintersemester 2002 / 2003

Christoph MiesMatrikelnummer: 235963

Betreuung: Imed BouaziziLehrstuhl für Informatik IV, RWTH Aachen

Die MPEG Standards Seite 2 von 21

Inhaltsverzeichnis

1. Einleitung..............................................................................................................................31.1 Digitales Video...............................................................................................................31.2 Grundsätzliches zur Kompression..................................................................................31.3 Motion Picture Expert Group..........................................................................................4

2. MPEG-1................................................................................................................................42.1 MPEG-1-Video Struktur.................................................................................................5

2.1.1 Sequenz Ebene....................................................................................................52.1.2 Group of Picture Ebene (GOP)...........................................................................52.1.3 Picture Ebene......................................................................................................52.1.4 Slice Ebene..........................................................................................................62.1.5 Makro Ebene.......................................................................................................62.1.6 Block Ebene........................................................................................................6

2.2 MPEG-1-Video Kompression.........................................................................................62.2.1 Reduzierung der Auflösung................................................................................72.2.2 Motion Estimation / MPEG-Bildtypen...............................................................82.2.3 Diskrete Cosinus Transformation (DCT) mit Quantisierung............................102.2.4 Run and Level Kodierung / Huffmankodierung...............................................11

2.3 MPEG-2........................................................................................................................13

3. Andere MPEG Standards....................................................................................................143.1 MPEG-4........................................................................................................................143.2 MPEG-7........................................................................................................................153.3 MPEG-21......................................................................................................................17

4. Vergleich zwischen den MPEG Standards und den H Standards.......................................17

5. Formeln...............................................................................................................................19

6. Zusammenfassung...............................................................................................................20

7. Literatur...............................................................................................................................21


1 EinleitungIn diesem Vortrag geht es um die MPEG-Standards. Dies sind Standards, die das Format vondigitalen Multimediainhalten weltweit standardisieren und damit einen leichteren Umgang mitihnen gewährleisten sollen. Besondere Bedeutung wird hierbei auf die Video Standards vonMPEG-1 und MPEG-2 gelegt. Diese sind sehr verbreitet und von immenser Bedeutung. Dannwerden kurz weitere Standards dargestellt und schließlich ein Vergleich zu einer anderenwichtigen Video-Standard-Familie, den H-Standards, gezogen. Zuerst wird die Bedeutungund Notwendigkeit von digitalem Video erläutert.

1.1 Digitales VideoDa MPEG-1 und MPEG-2 Video-Standards sind, soll zuerst die Anwendung von digitalemVideo motiviert werden, obwohl doch analoges Video schon sehr ausgereift und qualitativsehr gut ist. Analoges Video hat einige entscheidende Nachteile.Man kann analoge Videos nur mit Qualitätsverlust kopieren, und eine nachträglicheVeränderung der Videos ist nur sehr schwer und begrenzt möglich. Schließlich ist ein Videoausschließlich lokal verfügbar, d.h. man kann es nicht ohne weiters versenden oderverschicken.Digitale Videos hingegen sind sehr leicht zu kopieren und zu modifizieren. Außerdem kannman sie einfach über das Internet verschicken oder auf Homepages zum Download anbieten.Digitale Videos haben allerdings einen entscheidenden Nachteil. Während ein analoges Videoleicht auf eine Videokassette paßt, brauchen digitale Videos immens viel Speicher. Sobenötigt ein Fernsehbild mit einer Auflösung von 720 x 576 Bildpunkten mit 16 Bit Farbtiefeeinen Datenstrom von 1,35 MB pro Einzelbild. Das menschliche Auge benötigt 25Einzelbilder pro Sekunde, um die Bilder als ruckelfreien Film wahrzunehmen. In einemVideo würde ein Datenstrom von 33,75 MB/sek bzw. 2 GB/min benötigt. Auf eine normaleCD würden ca. 20 sek Videofilm passen [2]. Um diesem gigantischem Datenstrom Herr zuwerden, müssen digitale Videos also komprimiert werden.

1.2 Grundsätzliches zur KompressionSinn einer Kompression ist es, Daten einzusparen und trotzdem die Information, die dahintersteckt, nicht zu verlieren. Außerdem sollen eventuelle Übertragungsfehler erkannt undvielleicht sogar trotzdem die Informationen korrekt wiedergegeben werden. Das sind, nebender Möglichkeit, den Code in Echtzeit einfach decodieren zu können, die Merkmale einerguten Kompression.Die Daten werden von einem Encoder eingelesen und dann in ein spezielles Format gebracht,das bei jedem Verfahren unterschiedlich ist. Diesen Vorgang nennt man kodieren. DieSignale, der Code, werden dann übertragen und von dem sog. Decoder gelesen und dannwieder zurückgewandelt, dekodiert, so dass die Originaldaten wieder vorliegen.Es gibt verschiedene Typen von Kompressionsalgorithmen. Bei der sog. VerlustfreienKompression wird so kodiert, dass keine Daten verloren gehen. Dadurch werden allerdingsnicht ganz so hohe Kompressionsraten erzielt, wie bei der Verlustbehafteten Kompression.Bei diesen Verfahren geht ein Teil der Information, meist irrelevanter Natur, verloren,allerdings ist die Kompressionsrate deutlich höher, was ja auch sonst keinen Sinn machenwürde.Außerdem unterscheidet man noch Symmetrische Kompression und AsymmetrischeKompression. Bei der Ersten dauert das Kodieren genauso lange, wie das Dekodieren. DieseVerfahren werden also z.B. bei Video-Konferenzen angewandt. Beim zweiten Verfahren


dauert das Kodieren deutlich länger. Dadurch werden im Allgemeinen aber auch weitaushöhere Kompressionsraten erzielt.MPEG-1 ist z.B. ein asymmetrisches verlustbehaftetes Kompressionsverfahren.

1.3 Motion Picture Expert GroupMPEG steht für Motion Picture Expert Group. Dies ist eine Gruppe von über 300 Expertenaus 20 Nationen, die 1988 von der International Standard Organization (ISO) gegründetwurde, um Standards für digitale Multimediainhalte zu definieren.Bisher wurden 4 Standards entwickelt, aber ein weiterer ist schon in Arbeit. Die ersten beidenStandards, MPEG-1 und MPEG-2, dienen dazu, digitale Videos mit Sound zu komprimierenund damit eine effiziente Möglichkeit zu schaffen, solche Videos zu verbreiten und zu nutzen.Diese Standards sind seit November 1992 bzw. 1994 in Gebrauch. MPEG-4 soll nochniedrigere Bitraten schaffen und auch in fehlerhafter Umgebung, z.B. im Mobilfunk,funktionieren. Es wurde 1998 fertiggestellt. MPEG-7 dient der Beschreibung des Inhaltesbeliebigen Multimediainhaltes und MPEG-21, noch in der Entwicklung, soll einmultimediales Netzwerk schaffen.

2 MPEG-1MPEG-1 wurde 1993 mit dem Ziel entworfen, bewegte Bilder mit zugehörigem Ton beiBitraten bis 1,5 MBit/sek und akzeptabler Bildwiederholfrequenz und möglichst geringemQualitätsverlust digital zu speichern [2].

MPEG-1 ist ein asymmetrisches verlustbehaftetes Kompressionsverfahren. Bild und Tonwerden getrennt kodiert und dann in einem Multiplexer gemischt und mit Zeitmarkenversehen, um eine synchrone Wiedergabe zu ermöglichen. Beim Dekodieren wird dann vomsog. Systemdekoder dieser Datenstrom wieder aufgeteilt, und Bild und Ton werden getrenntdekodiert und mit Hilfe der Zeitmarken und einer Synchronisationseinheit synchronwiedergegeben. In diesem Aufsatz werde ich nur auf den Bild-Enkoder bzw. Dekodereingehen. Für die Ton-Kodierung verweise ich auf den MP3 (MPEG-1 Layer 3) Vortrag.

Abbildung 1: Generelle Dekompression nach MPEG-1 [1]


2.1 MPEG-1-Video Struktur

Die einzelnen Elemente eines Videos sind in MPEG-1 hierarchisch strukturiert. Um daseigentliche Kompressionsverfahren zu verstehen, muss erst einmal diese Struktur erläutertwerden.

Abbildung 2: Die sechs Schichten der Struktur von MPEG-1 [5]

2.1.1 Sequenz EbeneSo wird die oberste Schicht der Struktur bezeichnet. Sie besteht aus mehreren GOP’s (sieheunten) und enthält außerdem noch Informationen über Bildbreite, -höhe, -format und -wiederholfrequenz, Bitrate und Puffergröße. Außerdem kann sie eine Quantisierungsmatrixenthalten, die die Standardmatrix ersetzt, aber dazu später mehr. Die Sequenz enthält also nursehr globale und allgemeine Informationen.

2.1.2 Group of Picture Ebene (GOP)Diese Ebene ist direkt unter der Sequenz angesiedelt und enthält, wie der Name schon sagt,einzelne Bilder. Es können beliebig viele sein, aber das erste muss ein Intraframe, ein I-Frame(siehe unten), sein. Dadurch wird ein wahlfreier Zugriff (random access) auf dasVideomaterial gewährleistet. Das Video kann nämlich ab jeder GOP angeschaut werden.Es gibt zwei Typen von GOP’s: Offene und Geschlossene. Die Offenen können nichtunabhängig von anderen GOP’s dekodiert werden, da sie nicht, wie die Geschlossenen, miteinem Referenzbild (Anchorframe) enden. Die Geschlossenen können unabhängig dekodiertwerden. Das ist bei der Videonachbearbeitung unter Umständen von Interesse.

2.1.3 Picture EbeneAuf dieser Ebene sind alle Informationen vorhanden, um das Bild dekodieren zu können. Eskönnen allerdings noch andere Referenzbilder (Anchorframes) benötigt werden, um das Bildauch darzustellen. Neben den einzelnen Slices des Bildes sind noch weitere Informationengespeichert. Die aktuelle Position des Bilder in der entsprechenden GOP, denn dieReihenfolge der Bilder im Code kann von der Originalreihenfolge abweichen. Dann ist nochdie Art des Bildes (Intraframe, Predicted Frame oder Bidirectional Predicted Frame, sieheunten) gespeichert. Außerdem ist noch die Genauigkeit der Vektoren im Bild-Info enthalten.


2.1.4 Slice EbeneHierbei handelt es sich um eine Zusammenfassung mehrerer Makroblöcke. Sie dient derbesseren Kontrolle über den Datenstrom und soll vor allem verhindern, dass sichÜbertragungsfehler auf das ganze Bild auswirken. Jede Slice kann unabhängig von anderendecodiert werden.

2.1.5 Makro EbeneDas sind die Einzelteile der Slice Ebene. Es ist ein 16 x 16 Pixel großer Ausschnitt aus demBild. Neben Informationen über die Position im Bild und Art des Makroblocks (Intra,Predicted oder Bidirectional Predicted) trifft der Encoder Entscheidungen, die sich massiv aufden Speicherplatz auswirken. Die Makro Ebene ist nämlich die Basisebene der sog. MotionEstimation (siehe unten). Auf dieser Ebene wird entschieden, ob Motion Estimationeingesetzt oder ob nur Intrakodiert wird. Außerdem wird die Quantisierungsstufe bestimmt.Doch dazu später mehr.

2.1.6 Block EbeneEin Block ist ein 8 x 8 Pixel grosser Bildausschnitt. Hier sind endlich die eigentlichenInformationen zur Wiederherstellung des Bildes enthalten. Die Koeffizienten der DiskretenCosinus Transformation, DCT (siehe unten), allerdings noch huffmankodiert, sind nämlich inden Blöcken gespeichert.

2.2 MPEG-1-Video KompressionsverfahrenIn diesem Abschnitt wird das eigentliche Kompressionsverfahren erläutert. Einenschematischen Überblick gibt die folgende Abbildung:

Abbildung 3: Schema des Basis Algorithmus [1]

Die MPEG-1-Video Kompression erfolgt in 5 Schritten. Zuerst wird die Auflösung reduziert,dann findet die Motion Estimation statt, danach wird die Diskrete Cosinus Transformation


durchgeführt, die Quantisierung erfolgt und schließlich wird das Ganze noch mit der Run andLevel Kodierung / Huffmankodierung weiter komprimiert.

2.2.1 Reduzierung der AuflösungDas Standardformat in der digitalen Videotechnik ist das YCrCb-Format. Y steht für dieLuminanz, Helligkeit, und C für Chrominanz, also Farbe. Cr ist der Rot-Anteil und Cb derBlau-Anteil an einem Pixel. Dieses Format ist auch abwärtskompatibel auf Schwarz/Weiss-Fernseher, indem einfach nur der Y-Anteil übertragen wird. Bevor also die Kompressionüberhaupt startet, wird das Einganssignal in YCrCb umgewandelt, falls es in einem anderenFormat (z.B. RGB) vorliegt.Dann wird die Auflösung reduziert. Dabei wird ausgenutzt, dass das menschliche Augestärker auf Helligkeit, als auf Farbe reagiert. Auf diese Weise werden Farbinformationeneingespart. Es werden 4 Pixel Originalinformationen zu einem Pixel interpoliert. Das heißt,dass zur Darstellung eines Makroblocks (16 x 16 Pixel) vier Blöcke Y-Informationen undjeweils ein Block C-Informationen benötigt werden. Dadurch wird die Datenmenge halbiert,und der Unterschied ist für den Menschen kaum wahrnehmbar. Dieses Verfahren wird auch4:2:0 Sampling genannt.

Abbildung 4: Pixel Darstellung nach 4:2:0 Sampling [5]


2.2.2 Motion Estimation / MPEG-BildtypenDas ist der rechenintensivste Teil der ganzen Kompression. Motion Estimation nutzt aus, dasssich bei einer Videosequenz selten das ganze Bild komplett ändert, sondern meistens nur einTeil, z.B. ein LKW fährt durch eine Landschaft. Die Landschaft bleibt gleich, nur der LKWbewegt sich. Bei einer Speicherung Bild für Bild würde ein großer Anteil redundanterInformationen gespeichert.

Abbildung 5: Beispiel des Grundprinzips der Motion Estimation [7]

Die Motion Estimation nutzt genau das aus, um diese Informationen zu entdecken und nichtzu speichern. Prinzipiell wird jeder Makroblock des ersten Bildes genommen und solange imzweiten Bild umhergeschoben, bis ein minimaler Fehler (Prediction Error) erreicht ist undeine bestimmte implementierungsabhängige Fehlertoleranz unterschreitet. Dann gilt derMakroblock als wiedergefunden und man speichert im neuen Bild nicht mehr denentsprechenden ganzen Makroblock, sondern nur noch einen Vektor, den Motion Vektor,sowie den Prediction Error. So muss nur noch der komplett neue Teil ganz gespeichertwerden.

Das hat allerdings auch Nachteile. Einmal gemachte Fehler pflanzen sich immer weiter fortund ziehen sich durch das ganze Video. Außerdem kann nun nicht mehr wahlfrei auf dasVideo zugegriffen werden, weil bestimmte Makroblöcke vielleicht nur im allerersten Bildvorkommen. Aus diesem Grund wurden drei verschiedene Arten von Bildern definiert:Intraframes (I-Frames) und Interframes, die Predicted Frames (P-Frames) und BidirectionalPredicted Frames (B-Frames).

Bei den Intraframes findet keine Motion Estimation statt. Es werden nur Informationen ausdiesem einen Bild benutzt, um die sog. Intrakodierung durchzuführen. Bis auf kleine Detailsist das die gleiche Kodierung, die auch bei dem JPEG-Format durchgeführt wird (siehe JPEG-Vortrag). Diese I-Frames haben die schlechteste Kompressionsrate, aber die beste Qualität.Da sie auch unabhängig von anderen Bildern decodiert werden können, garantieren sie denrandom access auf das Video (siehe Group of Picture Ebene). Sie dienen außerdem alsReferenzbilder (Anchorframes) für die anderen Bildtypen.


Die Predicted Frames entstehen durch die sog. Prädiktive Motion Estimation. Zuerst wird einDifferenzbild des aktuellen und des nächsten Bildes erstellt. Dann werden die Makroblöckedes aktuellen Bildes im nächsten Bild gesucht. Werden sie gefunden, brauchen nur derMotion Vektor und der Prediction Error gespeichert werden. Dann müssen nur noch die Teiledes zweiten Bildes intrakodiert werden, die nicht aus dem aktuellen Bild hergeleitet werdenkönnen. Die P-Frames entstehen also durch Vorwärts-Prädiktion des aktuellen Bildes. Siehaben eine bessere Kompressionsrate als die I-Frames, aber nicht so gute Qualität. Außerdembrauchen sie ein rückwärtiges Referenzbild, können allerdings auch selbst als Referenzbilddienen.

Die Bidirectional Predicted Frames entstehen auch aus der Prädiktiven Motion Estimation.Allerdings werden zwei Referenzbilder, ein rückwärtiges und ein nachfolgendes, benötigt.Man versucht dann, das Bild aus Makroblöcken des ersten und des zweiten Referenzbildes zuerstellen. Dadurch werden mehr Makroblöcke wiedergefunden und der Kompressionsgradwird besser. Diese Frames tragen sehr stark zur Fehlerfortpflanzung bei, deshalb dürfen sieselbst auch nicht als Referenzen für weitere Bilder dienen. Dafür haben sie allerdings denhöchsten Kompressionsgrad.

Abbildung 6: Verweisstruktur bei Prädiktion [3]

Es kann passieren, das sich Bilder nicht aus vorangegangenen bzw. nachfolgenden Bilderndurch Verschiebung von Vektoren darstellen lassen (z.B. durch einen komplettenSzenenwechsel). Dann können auch B- bzw. P-Frames nur durch Intrakodierung komprimiertwerden und haben dann natürlich einen schlechteren Kompressionsfaktor.

Insgesamt besteht eine MPEG-1-Videosequenz also aus verschiedenen Frames, wobei eineProportionalität zwischen Speicherplatz und Qualität des Video-Streams besteht. Während I-und P- Frames die Qualität verbessern, verringern B-Frames den benötigten Speicherplatz.Eine mögliche Framefolge mit akzeptabler Qualität bei akzeptabler Dateigrösse istIBBPBBPBBIBBPBBP... Auch muss die Reihenfolge der Bilder im Code nicht gleich derOriginalreihenfolge sein. Das hängt damit zusammen, dass z.B. die Referenzbilder vor den B-Frames decodiert werden müssen. Deshalb kann die Reihenfolge auch folgende sein:


Abbildung 7: Mögliche Reihenfolge der Bilder [3]

2.2.3 Diskrete Cosinus Transformation (DCT) mit QuantisierungDies ist ein weiterer Schritt, um die Kompressionsrate zu verbessern. Aus einem Blockwerden die 64 Pixelinformationen in einen Frequenzraum transformiert. Die Frequenzbeschreibt, wie schnell sich die Farben ändern, und die Amplituden beschreiben die Stärke derVeränderung. Nach der Transformation werden in der Regel weniger Koeffizientengebraucht, um das gleiche Bild darzustellen. Lediglich beim sog. Weißen Rauschen werdengleich viele benötigt. Die nicht gebrauchten Koeffizienten werden natürlich Null und dadurchist die Transformierte Matrix in der Regel sehr dünn besetzt. Die Blöcke werden dann nachder Transformation noch nach der Run and Level Kodierung effizient komprimiert (sieheunten).

Abbildung 8: Beispiel-Block zu unteren Tabellen [6]


120 108 90 75 69 73 82 89127 115 97 81 75 79 88 95134 122 105 89 83 87 96 103137 125 107 92 86 90 99 106131 119 101 86 80 83 93 100117 105 87 72 65 69 78 85100 88 70 55 49 53 62 6989 77 59 44 38 42 51 58

Tabelle 1: Pixelinformationen [6]

700 90 100 0 0 0 0 090 0 0 0 0 0 0 0

-89 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 0

Tabelle 2: Transformierte Matrix [6]

Die DCT hat noch weitere Vorteile:Bei Pixelinformationen sind benachbarte Pixel oft ähnlich, bei den DCT-Koeffizienten ist dasnicht der Fall. Diese Transformation ist durch einen einfachen Algorithmus auch in Echtzeitimplementierbar und, bis auf Rundungsfehler, umkehrbar (durch die Inverse Diskrete CosinusTransformation). Außerdem haben die Koeffizienten nach der Transformation nicht mehrWerte im Intervall [-255;255], sondern im Intervall [-2048;2048]. Dadurch lässt sich einegenauere Quantisierung durchführen.

Durch die Quantisierung werden aus der Transformierten Matrix noch mehr Koeffizientengedrückt oder auf Null gebracht. Die Quantifizierungs- oder Bewertungsfunktionen veränderndie Matrix dahingehend, dass wieder für das Auge unsichtbare oder vernachlässigbare Teileaus dem Bild entfernt werden sollen. Man kann benutzerdefinierte Matrizen angeben und mitübertragen (auf der Sequenzebene), oder man benutzt die Standardmatrizen. Für denBetrachter der Szene macht sich die Quantisierung dahingehend bemerkbar, dass z.B. Kantenverschwimmen und scharfe Kontraste abgeschwächt werden. Deshalb ist dieser Teil auchwieder verlustbehaftet.

Das gesamte Verfahren kann durch die Inverse Diskrete Cosinus Transformation (IDCT)wieder rückgängig gemacht werden.

2.2.4 Run and Level Kodierung / HuffmankodierungDie so gewonnen Block Matrizen müssen nun in einen String umgewandelt und zusammenmit den Motion Vektoren und den einzelnen Header Informationen kodiert und übertragenwerden. Zuerst werden die Matrizen dazu in einen String verwandelt. Aufgrund der


besonderen Gestalt der Matrizen werden diese mit dem sog. Zickzackdurchlauf durchlaufen,weil so die Wahrscheinlichkeit am grössten ist, auf möglichst lange Nullreihen zu stossen.

Abbildung 9: Zickzackdurchlauf [5]

Ein weiterer Trick, die Koeffizienten klein zu halten, besteht darin, dass nur der Koeffizientoben links, der sog. DC-Koeffizient, direkt gespeichert wird. Alle anderen, die sog. AC-Koeffizienten, werden nur als Differenz zu ihrem Vorgänger gespeichert. An folgenderMatrix wird das Zickzackdurchlaufverfahren einmal demonstriert:

700 90 100 0 0 0 0 090 0 0 0 0 0 0 0

-89 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 0

Tabelle 3: Transformierte Matrix [5] (nochmal)

Aus dieser Tabelle wird dann die Folge (700, 90, 90, -89, 0, 100, 0...0) extrahiert.Nach der Run and Level Kodierung, einem symmetrischen verlustfreien Kodierverfahren,wird diese Folge so kodiert: 700 90 90 –89 1:100 EOBEOB bedeutet, dass nur noch Nullen folgen. Ansonsten werden die Anzahl der Nullengespeichert und der Wert, der danach kommt. Bei einem Auftauchen von 0:700 wird nur die700 und nicht 0:700 gespeichert. Die obrige Matrix lässt sich also mit nur 7 Symbolenkodieren. Die so kodierten Blöcke werden dann zusammen mit den Motion Vektoren mit dersog. Huffman-Kodierung komprimiert.

Der Huffman-Code ist ein symmetrisches verlustfreies Kodierverfahren mit variablerCodelänge. Über einem vorher bestimmten Alphabet mit festen Zugriffswahrscheinlichkeitenwird ein Codebaum generiert, der dem häufigstem Element einen möglichst kurzen Codezuordnet.


Tabelle 4: Beispiel zur Huffman Kodierung [8]

Allerdings muss darauf geachtet werden, dass kein Codewort mit dem Präfix eines anderenCodewortes übereinstimmt (Gegenbeispiel: a = 0; b = 1; c = 01; dann: 01 = ab = c). Um einensolchen Code zu finden, wird der Huffman Code benutzt. Alle Symbole des Alphabeteswerden mit ihren Zugriffswahrscheinlichkeiten in eine Liste gespeichert. Dann werden diezwei Elemente mit der niedrigsten Wahrscheinlichkeit mit einem gemeinsamen Vaterverbunden, der als Wert die addierte Wahrscheinlichkeit der Söhne erhält. Dieser wird wiederin die Liste eingefügt. Das wird solange gemacht, bis nur noch ein Baum in der Liste ist.Dann repräsentieren die Blätter die Symbole und die inneren Knoten bestehen ausWahrscheinlichkeiten. Alle Kanten, die nach links abzweigen, werden mit Null beschriftetund alle, die nach rechts abzweigen, mit Eins. Der Code ist dann die Konkation der Nullenund Einsen vom Wuzelknoten bis zum entsprechenden Zeichen. (Derivate dieses Verfahrenswerden übrigens auch von RAR, ARJ und ähnlichen Packprogrammen verwendet).

Abbildung 10: Huffman Baum

Damit ist die Kodierung nach MPEG-1 abgeschlossen und der Code kann übertragen werden.

2.3 MPEG-2Das MPEG-2-Format ist eine Erweiterung zum MPEG-1 Format. MPEG-2 hat mehrereLevels für die Auflösung, um auch hochauflösende Filme zu kodieren. Außerdem existierenverschiedene Profile, um den MPEG-Stream an die gegebenen Hardwareanforderungenanpassen zu können. Der Ton kann nicht nur, wie bei MPEG-1, im 2-Kanal-Ton, sondernauch in Dolby-Sorround gespeichert werden. Außerdem gibt es noch kleine Unterschiede beider DCT (es kann einen zweiten Stream geben, der nur zusätzliche DCT-Daten enthält, umeine noch bessere IDCT durchführen zu können).Ansonsten ist aber das Verfahren genau das gleiche, wie MPEG-1. Das Main-Profil mit derLow-Level-Auflösung ist praktisch das gleiche wie MPEG-1 und rückwärts-kompatibel.


Tabelle 5: Unterschiede zwischen MPEG-1 und MPEG-2 [7]

Die wichtigste Neuerung von MPEG-2 ist die Skalierbarkeit. Dadurch kann der Benutzerinteraktiv auf den Videostream einwirken und entweder die Qualität verbessern und dadurchden Bitstrom verschlechtern oder umgekehrt. Es gibt drei Arten von Skalierbarkeit: Spatial,Temporal und SNR Skalierbarkeit. Bei der Ersten wird Einfluss auf die Auflösunggenommen, bei der Zweiten auf die Bildwiederholfrequenz und bei der Dritten auf dieQuantisierungsstufe. Dies wird verwirklicht, indem die Daten jeweils in verschiedenenLayern gespeichert werden. Die Auflösung wird so gespeichert, dass man mehr Layer nehmenmuss, je höher man die Auflösung gestellt hat. Bei der Bildwiederholfrequenz muss manmehr Layer akzeptieren, wenn man eine höhere Frequenz haben möchte. Bei derQuantisierungstufe heben die zusätzlichen Quantisierungslayer Fehler wieder auf, die dieersten gemacht haben. Man addiert also die einzelnen Quantisierungslayer und erhält einebessere Qualität.

3 Andere MPEG StandardsNeben diesen beiden Standards hat MPEG noch weitere Standards für den Umgang mitMultimediainhalten geschaffen. Diese sind allerdings (noch) nicht so wichtig und verbreitetwie die ersten beiden.

3.1 MPEG-4Durch die immer größere Nachfrage nach digitalen Medien, speziell durch das Internet undden Mobilfunk, die natürlich auch nur möglichst kleine Bitraten benutzen dürfen, wurdeMPEG-4 entwickelt. Dieses Format ist nicht nur für einfache Videos entwickelt worden,sondern zur Übertragung komplexer digitaler Szenen bei kleinen Bitraten. Die Grundidee ist,das man eine grosse Szene in mehrere kleinere Objekte zerlegen kann.

Es gibt ein Beispiel:Ein Moderator sitzt in einem Büro mit Möbeln und spricht in die Kamera. Dann würde beiMPEG-1 die ganze Szene, getrennt nach Film und Ton, übertragen. MPEG-4 allerdings machteine noch feinere Unterteilung. Dort werden die einzelnen Hintergrundobjekte (Möbel) als einObjekt gesehen und mit einer niedrigen Bildwiederholfrequenz (z.B. 10pps) übertragen, waskeinen Qualitätsverlust bedeutet, weil der Hintergrund konstant ist. Der Ton wird auchgetrennt kodiert und gesendet. Der Moderator wird mit z.B. 25pps übertragen, weil er in


Bewegung ist. Für den Betrachter dieser Szene läuft also alles flüssig, obwohl alle Objekteeinzeln kodiert wurden und andere PPS-Raten (pictures per second) haben, was natürlich zueiner Reduzierung der Bitrate führt. Außerdem kann man speziellere und damit effizientereCodes entwickeln, wenn der Anwendungsbereich eingeschränkt ist.

Abbildung 11: Objektbasierte Szene nach MPEG-4 [1]

Die Grundidee von MPEG-4 ist, dass man beim Kodieren die Szene aufteilt und die einzelnenObjekte mit einzelnen speziellen Encodern kodiert. Eine zentrale Einheit, der Multiplexer,sorgt für die Aufteilung der Szene und fügt auch Zeitmarken ein, um eine synchroneDecodierung zu ermöglichen. Bei der Dekompression teilt der Demultiplexer den Code aufdie verschiedenen Decoder auf, der Code wird decodiert und dann vom Compositor synchronwiedergegeben. Die Szene wird von einer speziellen Programmiersprache, Binary Format forScenes (BIFS), beschrieben. Dadurch erkennt der Multiplexer die Art der Objekte der Szeneund teilt die Szene richtig auf. Es gibt unter anderem extra Encoder für folgende Objekte:natürliche Bilder, natürlicher Ton, Sprache, künstlicher Ton und Film, Texte, physischeObjekte etc.

3.2 MPEG-7Dieser Standard unterscheidet sich ein wenig von den anderen. Während es bei den anderenStandards darum ging, den Inhalt einer Multimediadatei zu präsentieren, geht es bei MPEG-7darum, den Inhalt zu beschreiben, um danach suchen zu können, oder eine Zusammenfassungdes Inhaltes wiederzugeben. Das ist z.B. bei Texten sehr einfach, wirft aber schon bei VideosProbleme auf.


Abbildung 12: MPEG-7 Grundaufbau [1]

Die wichtigsten Elemente sind die Description Definition Language (DDL), die DescriptionSchemes (DS) und die Descriptoren (D). Ein Descriptor repräsentiert ein Feature, also einenbeliebigen Multimediainhalt in einem beliebigem Format, und beschreibt dessen Syntax undSemantik. Das Description Scheme stellt die einzelnen Komponenten einesMultimediainhaltes miteinander in Beziehung. Die Komponenten können D’s oder andereDS’s sein. Mit der Description Definition Language kann man D’s oder DS’s erstellen bzw.modifizieren. Die so gewonnenen Beschreibungen über die Multimediainhalte werden dannkodiert, um eine effiziente Übertragung bzw. Durchsuchung vornehmen und Fehlerminimieren bzw. fehlerhafte Übertragungen rekonstruieren zu können.


3.3 MPEG-21Dieser Standard definiert ein multimediales Rahmenwerk (Framework) bei der multimedialeInhalte über verschiedene digitale Geräte und Ressourcen in einem weiten Netzwerk genutztwerden sollen. Gleichzeitig sollen diese Geräte und Ressourcen eine stärkere Nutzungerfahren, indem sie von verschiedenen Gruppen gleichzeitig genutzt werden. Dieser Standardist allerdings noch in der Entwicklung und wird vielleicht in der Zukunft eine wichtige Rollespielen.

Abbildung 13: MPEG-21 Funktionsschema [2]

4 Vergleich zwischen den MPEG Standards und den H StandardsIm Jahre 1990 verabschiedete die CCITT (Comite Consultatif International Telegraphique etTelephonique, heute: International Telecommunication Union - TelecommunicationStandardization Sector, abgekürzt ITU-TSS) die Empfehlung Recommendation H.261. [10]

Diese Empfehlung sollte für die digitale Videoübertragung dienen. Sie wurde kurz vorMPEG-1 fertiggestellt und hatte dadurch starken Einfluss auf dessen Entwicklung. H.261kann als Vorgänger von MPEG-1 angesehen werden. Auch hier werden Intraframes undPredicted Frames unterschieden, allerdings existieren keine B Frames. Nach der MotionEstimation werden auch eine DCT und Run and Level- sowie Huffmankodierungdurchgeführt. Auf der Detailebene finden sich viele Unterschiede zwischen MPEG-1 undH.261, allerdings sind die grundsätzlichen Verfahren zur Kompression gleich.

H.261 wurde speziell für das ISDN Telefonsystem entwickelt und hat eine Bandbreite vonp*64KBit/sek, wobei p aus dem Intervall [1; 2; ... ; 30] kommt. Mit p = 30 (1920KBit) istungefähr die Qualität eines VHS- Signals erreicht.


Als die ITU Mitte der 90er Jahre erkannte, dass ihr Standard dem MPEG Standard unterlegenwar, entwickelte sie einen Nachfolger, H.263. In diesem Standard treten auch PB-Frames auf,die mit den MPEG-B-Frames vergleichbar sind. Auch ist eine Art Skalierbarkeit (sieheMPEG-2) eingebaut, die allerdings nicht auf Benutzereingaben, sondern auf Meldungen desDecoders beruht.

Diese beiden Standards können allerdings keine Audiokompression durchführen. Diese wird,genau wie das Multiplexen von Audio und Video, durch eigene Standards geregelt (sieheTabelle).

MPEG-2, ein asymmetrisches Kompressionsverfahren, setzt nicht den „progressive scan“voraus, sondern erlaubt auch das „Zeilensprungverfahren“ und bietet wahlfreien Zugriff aufdas Video. Es versucht, bei gleichbleibender Qualität eine möglichst kleine Bitrate zuproduzieren. Die H Standards versuchen dagegen, bei gleichbleibender Bitrate eine möglichstgute Qualität zu liefern und sind symmetrische Kompressionsverfahren. Daher resultierenauch die unterschiedlichen Anwendungen. MPEG dient dazu, digitales Videomaterial hoherQualität dauerhaft zu speichern (siehe DVD, Video-CD, Stream-Videos im Internet etc.). DieAnwendung der H Standards liegt im Bereich der Echtzeitanwendungen, vor allem beiVideokonferenzen.

Tabelle 6: Einbettung von H.261 und H.263 in Viedeokonferenzsysteme [11]

Bei diesen Videokonferenzsystemen werden neben Video und Audio auch allgemeineUserdaten übermittelt. Eine Videokonferenz kann mit verschiedenen Standards durchgeführtwerden. Die einzelnen Endbenutzer, Terminals, kodieren bzw. dekodieren nachunterschiedlichen, aber kompatiblen Standards und übertragen ihr Signal über verschiedeneNetzwerksysteme. Durch sog. Gateways werden die Signale dann an die verschiedenen


Teilnehmer weitergeleitet. Eine Konferenz zwischen nur zwei Teilnehmern kann auch ohneGateway stattfinden.

Abbildung 14: Schema einer Videokonferenz [12]

Durch ihre unterschiedlichen Anwendungsgebiete stehen die zwei Standardfamilien nicht inKonkurrenz, sondern existieren nebeneinander. Jede Familie ist in ihrem Gebiet einverbreiteter und wichtiger Standard.

5 FormelnFolgende Formeln sind für die Kompression nach MPEG-1 von grosser Bedeutung.

Y = 0,3R + 0,59G + 0,11BCr = 0,6R – 0,28G – 0,32BCb = 0,21R – 0,52G + 0,31B

Gleichung 1: Umwandlung von RGB nach YCrCb [2]

Gleichung 2: Diskrete Cosinus Transformation und Inverse [6]

Bei der Quantisierung wird die DCT-Matrix durch die Quantisierungmatrix dividiert, alsoF‘(u,v) = F(u,v) / q(u,v).


6 ZusammenfassungMPEG-1 und MPEG-2 sind für die Übertragung von audiovisuellen Daten geschaffen. Vorallem MPEG-2 ist ein sehr wichtiger Standard, da er z.B. von DVDs genutzt wird. Sie sindplattformunabhängig, da sie nur einen Datenfluss beschreiben bzw. keine direkteImplementierung vorgeben. Daher ist die Qualität aber nicht vorgeschrieben, sondern hängtvon der Implementierung des Encoders ab.MPEG-4 ist ein sehr mächtiges Werkzeug, da es audiovisuelle Daten nicht einfach nurüberträgt, sondern objektorientiert gliedert und verknüpft. Es kann jedoch auch Daten nurübertragen und dabei noch kleinere Bitraten erzielen als MPEG-2.MPEG-7 beschreibt den Inhalt multimedialer Daten, anstatt den Inhalt darzustellen. Es hatalso eine andere Zielrichtung als die ersten Standards und stellt eine sinnvolle Ergänzung derMPEG-Familie dar.Durch MPEG-21 wird die Vernetzung multimedialer Geräte und damit eine effizienteNutzung derselben vorangetrieben. Dieser Standard wird sich in der Zukunft noch beweisenmüssen.Der Hauptunterschied zwischen MPEG und den H Standards liegt darin, dass MPEG einasymmetrisches Verfahren ist, während die H Standards ein symmetrisches Verfahren sind.Bei MPEG ist die Qualität konstant und die Bitrate variabel, beim H Standard ist esumgekehrt. Daher ist die Hauptanwendung auch unterschiedlich. MPEG wird für dieKompression digitalen Videomaterials zur dauerhaften Speicherung benutzt, während die HStandards in Echtzeitanwendungen ihre Hauptanwendung finden.


7 Literatur

[1] Multimedia communicationsDirections and innovationsGibson, Jerry D.(Hrsg.)San Diego, CA; u.a.: Academic Pr., 2001 - XVIII, 318 S.ISBN: 0-12-282160-2

[2] http://www-ra.informatik.uni-Tuebingen.de/lehre/ws01/pro_internet_ausarbeitung/proseminar_bentz_ws01.pdf

[3] http://www.rechnerpost.de/home/jochen/proseminar.ppt

[4] http://www.cybersite.de/german/service/Tutorial/mpeg/

[5] http://goethe.ira.uka.de/seminare/redundanz/vortrag15/

[6] http://rnvs.informatik.tu-chemnitz.de/~jan/MPEG/HTML/mpeg_tech.html

[7] http://i31www.ira.uka.de/docs/semin94/06_MPEG/main_html.html

[8] http://www.infosun.fmi.uni-passau.de/br/lehrstuhl/Kurse/Proseminar_ss01/PS_Datenkompression.pdf

[9] http://www.cselt.it/mpeg/

[10] http://www.lpr.ei.tum.de/courses/seminar/realzeit_bv/mpeg/node4.html

[11] http://wwwpc.prz.tu-berlin.de/medienengineering/teledienste/videokonferenzsys/videokonf.ppt

[12] http://wwwpc.prz.tu-berlin.de/medienengineering/teledienste/videokonferenzsys/

Die MPEG Standards - RWTH Aachen · Decoder gelesen und dann wieder zurückgewandelt, dekodiert, so dass die Originaldaten wieder vorliegen. Es gibt verschiedene Typen von Kompressionsalgorithmen.

Documents