Phuong Antl

Phương án dự kiến trả lời Một Số Câu Hỏi Trong Đề Thi

Câu 1. Hãy phát biểu định luật về độ chói, vận dụng định luật về độ chói tính

màu tổng hợp với ……

-- Định luật về độ chói: Độ chói của màu tổng hợp bằng tổng độ chói của các màu thành phầnLΣ =LR +LG+LBr = r’/mg = g’/mb = b’/mtrong đó m = r`+g`+b`, m là độ chói của màur’, g’, b’ lần lượt là số lượng các màu cơ bản R, G, B, còn gọi là modul của các màu đó.

Câu 2. Anh/Chị hãy trình bày kiến trúc tổng quát của bộ mã hoá - giải mã âm

thoại

- Đối với bộ mã hóa, tín hiệu âm thoại đầu vào được xử lý và phân tích nhằm

thu được các thông số đại diện cho một khung truyền. Các thông số ngày được

mã hóa và lượng tử với mã chỉ số nhị phân và được gửi đi như là một chuỗi bit đã

được nén. Các chỉ số này được đóng gói và biểu diễn thành chuỗi bit, chúng được

sắp xếp thứ tự truyền dựa vào các thông số đã quyết định trước và được truyền

đến bộ giải mã.

- Bộ giải mã thực hiện việc phân tích chuỗi bit nhận được, các chỉ số nhị phân

được phục hồi sau quá trình phân tích và dùng để kết hợp với các thông số tương

ứng của bộ giải mã để có được các thông số đã được lượng tử. Các thông số giải

mã này sẽ kết hợp với nhau và được xử lý để tạo lại tín hiệu âm thoại tổng hợp.

Câu 3: Trình bày quá trình số hóa âm thanh? Phân biệt lượng hóa và mã hóa? Cho ví dụ? Về nguyên tắc có mấy loại nén âm thanh?

Trả lời:

Số hoá âm thanh gồm 2 quá trình: lấy mẫu và mã hoá

1. Lấy mẫu

1

Tín hiệu tương tự liên tục theo thời gian nhưng trong quá trình xử lý tín hiệu, thông thường ta xử lý trên tín hiệu số. Do đó cần phải thực hiện chuyển đổi tín hiệu liên tục thành tín hiệu rời rạc để xử lý. Quá trình này gọi là lấy mẫu tín hiệu (sampling), đó là thay tín hiệu liên tục bằng biên độ của nó ở những thời điểm cách đều nhau, gọi là chu kỳ lấy mẫu. Các giá trị này sẽ được chuyển thành số nhị phân để có thể xử lý được. Vấn đề ở đây là phải lấy mẫu như thế nào để có thể khôi phục lại tín hiệu gốc. Tín hiệu lấy mẫu của tín hiệu gốc s(t) biểu diễn là s(nT) với T là chu kỳ lấy mẫu. s(nT) = s(t)u(t)

(1.1)

Hình 1.1 – Tín hiệu lấy mẫu và phổ1.1. Tần số lấy mẫuXét tín hiệu sin có tần số f và quá trình lấy mẫu với các chu kỳ lấy mẫu

khác nhau. Ta thấy tỷ số 1/chu kỳ lấy mẫu sẽ là tần số lấy mẫu. Vậy tần số lấy mẫu chính là số mẫu ta thu được trong một khoảng thời gian 1 giây.

Như vậy, ta thấy rằng nếu tần số lấy mẫu càng cao thì dạng của tín hiệu càng có khả năng khôi phục giống như tín hiệu gốc. Tuy nhiên, nếu tần số càng cao thì cần phải dùng dung lượng lớn hơn để lưu trữ và đồng thời tốc độ xử lý sẽ chậm lại do cần xử lý số lượng dữ liệu lớn. Từ đó, ta cần xác định tần số lấy mẫu sao cho có thể khôi phục lại gần đúng dạng tín hiệu với yêu cầu tốc độ xử lý giới hạn trong mức cho phép.

2

Hình 1.2 – Lấy mẫu tín hiệu với các tần số khác nhauTa có định lý lấy mẫu phát biểu như sau:"Một tín hiệu không chứa bất kỳ thành phần tần số nào lớn hơn hay

bằng một giá trị fm có thể biểu diễn chính xác bằng tập các giá trị của nó với chu kỳ lấy mẫu T = 1/2fm"

Như vậy, tần số lấy mẫu phải thoả mãn điều kiện fs ≥ 2fm trong đó fm là thành phần tần số lớn nhất có trong tín hiệu. Tần số giới hạn này được gọi là tần số Nyquist và khoảng (-fs/2,fs/2) gọi là khoảng Nyquist. Trong thực tế , tín hiệu trước khi lấy mẫu sẽ bị giới hạn bằng một mạch lọc để tần số tín hiệu nằm trong khoảng Nyquist.

Ví dụ như tín hiệu âm thanh thường nằm trong khoảng (300,3400) Hz nên người ta sẽ đưa tí hiệu qua mạch lọc thông thấp để loại các thành phần tần số bậc cao và thực hiện lấy mẫu ở tần số tối thiểu là 6,8 KHz.

Thông thường trong các file âm thanh số (WAV) có tần số lấy mẫu là 44,1KHz.

1.2 Lượng tử hoá

3

Lượng tử hoá là quá trình xấp xỉ các giá trị của tín hiệu lấy mẫu s(nT) bằng bội số của một giá trị q (q gọi là bước lượng tử). Nếu q không thay đổi thì quá trình lượng tử gọi là đồng nhất. Quá trình này thực hiện bằng hàm bậc thang mô tả như sau:

Hình 1.3 – Hàm lượng tử với bước lượng tử q = 1Số lượng các bước lượng tử (số bội số của q) càng lớn sẽ làm cho dung

lượng lưu trữ tăng lên cao nhưng bù lại khả năng khôi phục giống như tín hiệu gốc càng cao, tín hiệu âm thanh càng trung thực. Từ đó, ta cần xác định số bước lượng tử sao cho có thể khôi phục lại gần đúng dạng tín hiệu với yêu cầu tốc độ xử lý giới hạn trong mức cho phép. Trong thực tế với loại file âm thanh định dạng WAV có số bước lượng tử là 256 (với loại 8 bít) hoặc 65536 (với loại 16 bít).

Vậy độ phân giải chính là số lượng bước lượng tử của cường độ. Độ phân giải của file wav chính là 256 (với loại 8 bít) và 65536 (với loại 16 bit).

2. Mã hoáTín hiệu ở ngõ ra bộ lượng tử hóa được đưa đến bộ mã hóa, bộ mã hóa sẽ

gán một số nhị phân cho mỗi mức lượng tử. Quá trình này gọi là mã hóa.

4

Có nhiều phương pháp mã hóa khác nhau nhưng trong đa số hệ thống xử lý tín hiệu số sử dụng phương pháp bù 2. Một ví dụ đối với N = 3 như sau:

Số nhị phân Giá trị Số nhị phân Giá trị000 0 000 0001 1/4 001 ¼010 1/2 010 ½011 3/4 011 ¾111 - ¼ 100 1110 - ½ 101 5/4101 - ¾ 110 3/2100 -1 111 7/4

Phân biệt lượng tử hóa và mã hóa khác nhau ở chỗ:

- Lượng tử hóa: Chuyển tín hiệu rời rạc ở trên -> tín hiệu rời rạc theo thời

gian và biên độ

- Còn mã hóa: Chuyển tín hiệu số thành tín hiệu liên tục để nghe đượcCâu 4: Trình bày giải thuật nén âm thanh theo thuật toán cosin.Cách nén ảnh sử dụng DTC. Gồm các bước sau:

Ảnh được chia thành k khối 8x8, điểm (x,y) được kí hiệu là pxy. Nếu số

hàng của ảnh không chia hết cho 8 , các hàng phía cuối được lặp lại một

số lần.

DTC hai chiều được áp dụng cho các khối ảnh Bi. Kết quả là khối các

vecter W(i) gồm 64 hệ số của phép biến đổi w(i)j ; j=0,1,…,63; k vecter

W(i) là các hàng của ma trận W

5

64 cột của ma trận W kí hiệu là C(0), C(1), . . . , C(63); k phần tử của C(j) là w(1)j

, w(2)j,….. ,w(k)j , các hệ số thứ nhất của vecter C(0) chứa k hệ số

DC.

Mỗi vecter C(j) được lượng hóa riêng lẻ ta thu được vecter Q(j) gồm các

hệ số lượng hóa , các phần tử của Q(j) được viết vào dòng kết quả nén, phụ

thuộc vào từng trường hợp kích thước mã được gán thay đổi để làm xuất

hiện nhiều chữ số 0, nhờ đó hiệu quả nén tăng cao.

Câu 5 : Nêu nguyên tắc nén dữ liệu video; Trình bày một số nguyên tắc nén đơn

giản.

Trả lời:

1- Nguyên tắc nén video

Để nén dữ liệu video người ta dựa vào hai nguyên tắc :

o Vứt bỏ dữ liệu dư thừa về không gian (spatial redundancy) mà nó có trên

mỗi ảnh. Thực chất bỏ bớt các phần giống nhau trên một ảnh

o Vứt bỏ dữ liệu dư thừa theo thời gian (temporal redundancy), điều xảy ra

do các ảnh video cạnh nhau tương đối giống nhau. Thực chất bỏ bớt các

phần giống nhau trên các ảnh cạnh nhau (sử dụng ảnh I, B, P)

2- Một số phương pháp nén trực quan đơn giản dữ liệu video

6

a. Phương pháp Subsampling

Bộ mã hóa (encoder) chọn ra các ảnh khác nhau và viết nó vào dòng nén

(compressed stream) cách làm này cho hệ số nén bằng 2. Bộ giải mã đưa vào các

ảnh và nhân nó lên thành hai ảnh.

b. Differencing (mã các điểm khác nhau):

Ảnh được so với ảnh đứng trước nó, nếu sự khác nhau giữa chúng nhỏ (một

số ít điểm), khi đó bộ mã chỉ mã các điểm khác nhau bằng cách viết 3 số vào

dòng nén cho mỗi điểm, gồm tọa độ điểm ảnh và giá trị khác nhau của hai điểm

ảnh. Nếu sự khác nhau giữa hai ảnh là lớn, trên ảnh hiện thời người ta ghi dòng ra

nguyên dạng. Nếu sự sai khác giữa cường độ điểm ảnh trong ảnh trước và ảnh

hiện thời nhỏ hơn ngưỡng nào đó, điểm được coi là không khác nhau.

c. Block Differencing (mã các khối khác nhau)

Đây là phương pháp tốt hơn phương pháp differencing, ảnh được chia

thành nhiều khối, trong mỗi khối B của ảnh hiện thời được so với khối P tương

ứng ở ảnh đứng trước nó. Nếu hai khối khác nhau nhiều hơn số nào đó, thì B

được nén bằng cách ghi lại tọa độ ảnh của khối, tiếp theo u là các giá trị của các

điểm ảnh hoặc phần sai khác của các điểm ảnh vào dòng nén. Ưu điểm của tọa độ

khối nhỏ hơn ghi tọa độ điểm ảnh và tọa độ khối chỉ ghi một lần. Ở bên trong giá

trị của tất cả các điểm ảnh, ngay cả khi các điểm ảnh không thay đổi cũng phải

7

viết vào dòng ra. Mặc dù các các giá trị này được coi là khác nhau nên chúng

nhỏ. Do đó phương pháp này, làm nhỏ rất nhiều kích thước khối.

d. Motion Compensation (bù chuyển động):

Chúng ta biết rằng sự khác nhau giữa các ảnh liên tiếp trong fiml (movie)

rất nhỏ vì nó là kết quả của chuyển động của camera quay hoặc giữa hai ảnh, đặc

tính này được khai thác để làm tốt hơn cho việc nén ảnh. Nếu bộ mã hóa phát

hiện ra rằng phần P của ảnh trước đó chuyển đến vị trí khác trong ảnh hiện thời,

thì P có thể nén bằng cách ghi tiếp theo 3 trường (item) vào dòng nén, vị trí trước

của nó, vị trí hiện thời và thông tin để xác định các biên của P. Phần sau chúng ta

sẽ nói đến bù chuyển động dựa vào (Manning 98)

Về nguyên tắc một phần có thể có mẫu bất kỳ. Trong thực tế chúng ta giới

hạn các khối có kích thước như nhau (có thể hình vuông, chữ nhật), bộ mã hóa sẽ

scan lần lượt các khối trên ảnh hiện thời. Với mỗi khối B nó đi tìm trên ảnh trước

đó khối C giống hệt (nếu nén không mất thông tin) hoặc gần giống (nếu nén có

mất dữ liệu). Phát hiện ra khối như thế, bộ mã hóa sẽ viết vào dòng ra sự sai khác

giá vị trí hiện thời và vị trí đã gặp trước đó. Sự sai khác này cho ở dạng

(Cx − Bx, Cy − By) = (Δx, Δy). Nó được gọi là vecter dịch chuyển

Hình dưới đây là ví dụ. Trong hình này mặt trời và các cây di chuyển về bên phải

(do camera chuyển động), trong khi đó câu bé di chuyển một khoảng cách khác

về bên trái (đó là cảnh chuyển động).

8

Bù chuyển động rất hiệu quả nếu object dịch chuyển nhưng không thay đổi tỷ lệ

hoặc không quay. Sự thay đổi nhanh cường độ sang (illuminate) từ ảnh này sang

ảnh khác cũng làm giảm hiệu quả của phương pháp này. Nói chung bù chuyển

động cũng là kỹ thuật nén làm mất dữ liệu.

e. Frame Segmentation (phân đoạn ảnh):

Ảnh hiện thời được phân chia thành các khối không chồng nhau

(nonoverlapping blocks), các khối có thể là vuông hay chữ nhật, sau đó ta coi

rằng chuyển động trong video chủ yếu theo đường ngang (horizontal), như vậy

các khối ngang sẽ làm giảm số vecter chuyển động không làm giảm tỉ lệ nén.

Kích thước khối là quan trọng vì khối lớn sẽ làm giảm cơ hội tìm ra cái giống nó,

khối quá nhỏ thì có quá nhiều vecter chuyển động, trong thực tế người ta lấy kích

thước là bội mũ của 2 để tiện sử lý trong phần mềm như 2, 4, 8, 16..

f. Search Threshold (tìm theo ngưỡng):

Mỗi khối B trong ảnh hiện thời trước tiên được so với bản sao C trong ảnh

trước nó, nếu chúng giống nhau hoặc sự khác nhau giữa chúng dưới ngưỡng qui

định khi đó bộ mã hóa coi như khối không có chuyển động.

- Block Search (tìm khối)

9

Đây là quá trình mất nhiều thời gian do vậy khi thiết kế thuật toán cần lưu

ý. Nếu khối B hiện thời trong ảnh hiện thời, lúc đó cần tìm trong ảnh trước khối

giống hoặc gần giống với B. Việc tìm kiếm được hạn chế trong một vùng nhỏ

(gọi là vùng tìm kiếm) quanh khối B, vùng này được xác định bởi tham số di

chuyển cực đại dx, dy. các tham số này ấn định khoảng cách tính bằng pixel theo

chiều ngang và chiều thẳng đứng cực đại giữa khối B và khối bất kỳ giống B

trong ảnh trước.Nếu B là hình vuông cạnh b, thì vùng tìm kiếm chứa (b + 2dx)(b

+ 2dy) pixel và sẽ có

(2dx+1)(2dy +1) hình khác nhau, chồng nhau bxb hình vuông. Số khối cần tuyển

chọn (candidate) trong vùng này tỉ lệ với dxdy. Hình dưới đây minh họa vùng tìm

kiếm.

- Distortion measure (Đo độ sai khác)

Đây là phần quan trọng đối với bộ mã hóa, độ đo sai lệch cho phép chọn

khối thích hợp nhất với khối B, nó phải đơn giản, nhanh và tin cậy. Có một vài

cách chọn dẽ đề cập ở section 4.14

Độ sai khác tuyệt đối trung bình (mean absolutw error) được tính trung bình theo

sự sai khác tuyệt đối giữa Bij trong khối B và điểm tương ứng Cij trong khối

tuyển chọn C (candidate block C)

10

Độ đo này được tính cho mỗi khối trong số (2dx+1)(2dy +1) khối khác

nhau và b xb khối cần lựa chọn (candidate) có giao. Nếu độ đo của khối C k nhỏ

hơn ngưỡng thì nó được coi là giống B

Trái lại sẽ không có khối nào giống B và B được mã không bù chuyển

động.

Một cách tự nhiên phát sinh câu hỏi ở đây là điều gì sẽ xảy ra khi khối

trong ảnh hiện thời không trùng với với khối nào trong ảnh trước. Câu trả lời là

chúng ta hãy tưởng tượng camera dịch lia từ trái qua phải, đối tượng mới được

đưa vào từ bên phải trong thời gian lia, khôi bên phải của ảnh có thể chứa các đối

tượng không có trong ảnh trước.

- Độ sai khác trung bình bình phương (mean square difference) là cho ở dạng:

- Độ đo PDC (Pel difference Classification (PDC)

- Pel ở đây được coi là điểm ảnh, tương đương pixel

- Độ đo PDC nó phân loại sự sai khác theo các diểm ảnh, cụ thể là sai khác theo

hàng, sau đó sai khác theo cột

Câu 6. Ảnh số hiển thị trên màn hình VGA có kích thước 1280 x 800 điểm, số lượng các mức xám là 1024. Hỏi có thể được lưu lại trong bộ nhớ với kích thước bao nhiêu Bytes

- Mức xám là 1024 tương ứng với (10 bits/mẫu) //=210

(Cơ sở lý thuyết: Số lượng mức xám có thể gán cho 1 điểm ảnh L thường

được lựa chọn L=2k (K là 1 số nguyên dương))

- Số lượng Bits được sử dụng để biểu diễn 1 ảnh số được xác định theo công

thức:

11

b=MxNxK =1280 x 800 x 10=10240000 bits

- Số Byte để lưu trữ là : 1280000 bytes

Câu 7. Hỏi số lượng Bytes để biểu diễn một ảnh số là bao nhiêu? với Ảnh số hiện thị trên màn hình VGA có kích thước 800 x 600 điểm, số lượng mức xám là 5096.LG: Đáp án Tương tự như câu trên(cách hỏi khác thôi)

Câu 8. Bóng đèn sợi tóc có hệ số phát sáng là 8 15 lumen/walt với công suất p =100 walt, và với hàm độ nhạy phổ của mắt người cảm nhận tốt nhất tia bức xạ.

a. Hãy tìm quang thông

F = 8*100 15*100 = 800 1500 ( lumen)

b. Tìm độ sáng trung bình (Itb) nguồn sáng trên.

LG: a, - Theo công thức tính quang thông :

(1)

- Theo giả thiết hàm độ nhạy của mắt người là tốt nhất nên ta có

(mặt người cảm nhận tốt nhất tia bức xạ có bước sóng bằng 555nm

- Từ (1) => =kp=(8 15) *100=(800 1500) ( lumen)

c. b. Tìm độ sáng trung bình (Itb) nguồn sáng trên.

Câu 9. Độ chói là gì? Cho độ chói của vật phát sáng là Bóng đèn TV 40 – 80. Hãy xác định độ sáng trên 10 m2. -- Độ chói là mật độ độ sáng trên bề mặt phát sáng. Độ chói đặc trưng cho mức độ sáng của nguồn sáng.

12

--Cho độ chói của vật phát sáng là Bóng đèn TV 40 – 80. Hãy xác định độ sáng trên 10 m2.LG: - Theo công thức độ chói

=> Độ sáng I0 = L0 * S = (40 80)*10 =400 800 cendelaCâu 10. Cho thông điệp

“BBCAACADBDCADAEEEABACDBACADCBADABEABEAAA". Hãy sử

dụng phương pháp nén không mất thông tin Shannon – Fano để nén thông điệp

trên.

Tần suất xuất hiện của các ký tự trong thông điệp lần lượt bằng:

A: 15; B: 8; C: 6; D: 6; E: 5.

Ký hiệu Tần suất Xác suất (pi ) log2(1/pi) Từ Mã Độ dài từ

mã

(bits)(n i )

Tổng chiều

dài

A 15 0.375 1.41 00 2 30

B 8 0.175 2.51 01 2 16

C 6 0.15 2.73 10 2 12

D 6 0.15 2.73 110 3 18

E 5 0.125 3 111 3 15

13

A: 00; B: 01; C: 10; D: 110; E: 111.

- Entropy:

= 0,375 * 1,41 + 0,175 *2,51 + 0,15*2,73 + 0,15*2,73 + 0,125*3

= 2,162(bits)

- Chiều dài trung bình:

= 2*0,375 + 2*0,175 + 2*0,15 + 3*0,15 + 3*0,125

= 2,225 (bits)

- Hiệu suất lập mã:

= 2,162/2,225 = 97,16%

Số lượng bit dùng để chứa chuỗi 2*15+2*8+2*6+3*6+3*5=91 (bits).

Nếu dùng mã ASCII: 40x8=320 (bits).

Tỷ lệ nén: 91/320 = 28,43%

Câu 11. Cho thông điệp

14

“BBCAACADBDCADAEEEABACDBACADCBADABEABEAAA".Hãy sử

dụng phương pháp nén không mất thông tin Huffman để nén thông điệp trên.

Tần suất xuất hiện của các ký tự trong thông điệp lần lượt bằng:

A: 15; B: 8; C: 6; D: 6; E: 5.

Ký hiệu Tần suất Xác suất (pi ) log2(1/pi) Từ Mã Độ dài từ

mã

(bits)(n i )

Tổng chiều

dài

A 15 0.375 1.41 0 1 15

B 8 0.175 2.51 100 3 24

C 6 0.15 2.73 101 3 18

D 6 0.15 2.73 110 3 18

E 5 0.125 3 111 3 15

A: 0; B: 100; C: 101; D: 110; E: 111.

- Entropy:

15

= 0,375 * 1,41 + 0,175 *2,51 + 0,15*2,73 + 0,15*2,73 + 0,125*3

= 2,162(bits)

- Chiều dài trung bình:

= 1*0,375+ 3*0,175 + 3*0,15 + 3*0,15 + 3*0,125

= 2,175 (bits).

- Hiệu suất lập mã:

= 2,162/2,175 = 99,40%

Mã Huffman là mã có tính prefix ( mã tiền tố).

Số lượng bit dùng để chứa chuỗi mã:

1*15 + 3*8 + 3*6 + 3*6 + 3*5 = 90 (bits)

Nếu dùng mã ASCII: 40x8=320 (bits).

Tỷ lệ nén: 90/320=28,12%

Câu 12. Trình bày tóm tắt quá trình nén ảnh JPEG . Tại sao cơ chế mã hóa của

JPEG chiếm ưu thế trong các ứng dụng thời gian thực?

quá trình nén ảnh JPEG

1- Chuyển đổi không gian màu- Chuyển ảnh từ không gian màu RGB sang không gian màu ( brightness,

Hue, Saturation). Lý do mắt người nhận ra những thay đổi nhỏ của thành phần

16

luminance nhưng không nhậy cảm với sự thanh đổi của thành phần chrominance, người ta dựa vào điều này để bỏ bớt dữ liệu của thành phần chrominance . Việc chuyển đổi không gian màu trong Jpeg và Mpeg được thực hiện theo công thức sau :

sử dụng ba tham số Y, Cb, Cr ; Y ứng với brightness (Độ sáng, độ chói) Cb,Cr là hai thành phần ứng với Hue (sắc màu) và Saturation(độ đậm nhạt). với y thuộc khoảng [16, 235], khi đó việc chuyển không gian màu được thực hiện theo công thức sau:

Y = (77/256)R + (150/256)G + (29/256)B,Cb = −(44/256)R − (87/256)G + (131/256)B + 128,Cr = (131/256)R − (110/256)G − (21/256)B + 128;

Phép chuyển ngược từ YCbCr theo công thức :R=Y+1.371(Cr − 128) ;G=Y − 0.698(Cr − 128) − 0.336(Cb − 128) ;B=Y+1.732(Cb − 128).

2- Giảm độ phân giải

Sau khi chuyển đổi không gian màu , người ta giảm độ phân giải của ảnh gốc, để làm giảm dữ liệu của thành phần Hue và Saturation. Việc làm này có thể theo các tỉ lệ khác nhau. ví dụ độ phân giải có thể thay đổi theo tỉ lệ 2:1 giữa hàng và cột3. – Chia ảnh thành các khối 8 x8 Ảnh màu được chia thành các khối 8 x8 , coi khối này là một đơn vị dữ liệu. các đơn vị dữ liệu được nén riêng biệt. Trong trường hợp kích thước ảnh không là bội của 8, ta thêm hàng vào hàng cuối ảnh, thêm cột vào cột cuối bên phải.4- Thực hiện biến đổi cosin trên sơ đồ zizagSử dụng phép biến đổi cosin để biến đổi trên khối 8 x8 ( đơn vị dữ liệu ). Phép biến đổi dược thực hiện trên mảng 8 x 8 hay trên đơn vị dữ liệu ảnh theo công thức sau :

Khi giải nén sử dụng phép biến đổi cosin ngược theo công thức

17

5.- Lượng hóa : Sau khi biến đổi cosin trên các đơn vị dữ liệu ta nhận được dãy có 64 thành phần , các thành phần này gọi là các hệ số lượng tử hay hệ số QC ( quantization coefficient -QC) .Các hệ số QC được làm tròn về dạng số nguyên. Sau đó người sử dụng nhiều khi thuật khác nhau để giảm kích thước dữ liệu của các thành phần này. Chẳng hạn kỹ thuật lưu giữ sự sai khác tương đối của các hệ số QC hoặc sử dụng các bảng lượng hóa màu đã được khuyến cáo bởi nhóm Jpeg.6- Sử dụng kỹ thuật nénSử dụng kỹ thuật nén RLE hoặc mã Hufman, mã số học để mã các hệ số QC. Mã số học được coi là kỹ thuật mã tối ưu.

Tại sao cơ chế mã hóa của JPEG chiếm ưu thế trong các ứng dụng

thời gian thực?

Câu 13. Một số ứng dụng chuẩn MPEG-4

18

Khả năng phân cấp và phân chia độc lập các khung hình thành các đối tượng khiến cho MPEG-4 trở thành một công cụ hữu hiệu trong việc tạo thuận lợi cho các ứng dụng trên Internet nói riêng và trên môi trường mạng nói chung (kể cả các mạng LAN, WAN, Intranet…) đó là các ứng dụng:

Truyền thông multimedia theo dòng (Multimedia stream), trong đó dòng audio và video sẽ được biến đổi thích nghi với yêu cầu băng thông và chất lượng hình nhờ loại bỏ những đối tượng (hình ảnh, âm thanh) không cần thiết khỏi dòng dữ liệu và đồng bộ các thông tin được nhúng trong dòng dữ liệu đó. Thêm vào đó, MPEG-4 sẽ cho phép người sử dụng khả năng tương tác trực tiếp với dòng dữ liệu (dừng tiến hay lùi nhanh, kích chuột để kích hoạt các tuỳ chọn video và audio…)

Lưu giữ và phục hồi dữ liệu audio và video: do MPEG-4 phân chia các khung hình thành các đối tượng, việc trình duyệt Browser trên cơ sở nội dung (đối tượng) mong muốn sẽ được thực hiện một cách dễ dàng và nhờ vậy, các ứng dụng lưu giữ hay phục hồi thông tin trên cơ sở nội dung MPEG-4 sẽ được thuận lợi hơn;

Truyền thông báo đa phương tiện: các thông báo dưới dạng text, audio và video MPEG-4 sẽ được truyền đi với yêu cầu băng thông ít hơn, và có khả năng tự điều chỉnh chất lượng cho phù hợp với khả năng băng thông của thiết bị giải mã;

Thông tin giải trí: những sự trình diễn nghe nhìn tương tác (thế giới ảo, trò chơi tương tác …) có thể được triển khai trên cơ sở chuẩn MPEG-4 sẽ làm giảm yêu cầu về băng thông và làm cho thế giới ảo trở nên sinh động và giống như thực tế trên các trang web;

Ngoài các ứng dụng trên môi trường mạng nói chung và môi trường tương tác nói riêng - theo APB (04/2004) - các đài truyền hình Nhật Bản như NHK, TBS, NTV TV Asahi, Fuji và TV Tokyo đã chính thức chấp nhận đưa chuẩn MPEG-4/H.264 cho phát sóng số mặt đất cho thu di động, đây cũng là một khả năng lớn còn tiềm ẩn trong chuẩn mã hoá và trình diễn video này.

Công nghệ encode H264 mang đến chất lượng tương đương chuẩn MPEG-2 và MPEG-4 nhưng dung lượng nhỏ hơn 1,5 đến 4 lần. Dịch vụ chia sẻ Clip.vn mới đây đã triển khai chuẩn này trên website của mình.

19

Một số trang chia sẻ video nổi tiếng thế giới như YouTube, Todou… cũng đã chuyển từ kỹ thuật nén FLV chạy trên Flash Player sang H264 kể từ khi Flash Player hỗ trợ định dạng MP4 của H264.

Một ưu điểm nổi bật của công nghệ này là các tập tin MP4 có thể chạy trực tiếp trên các thiết bị di động như điện thoại, PDA… mà không phải cài thêm bất cứ phần mềm giải mã nào.

Câu 14. Truyền thông đa phương tiện là gì? Hãy nêu một số ứng dụng của truyền

thông đa phương tiện vào việc học tập của bạn.

- Khái niệm: Đa phương tiện là tích hợp của văn bản, âm thanh, hình ảnh của tất cả các loại và phần mềm có điều khiển trong một môi trường thông tin số.

- Định nghia: đa phương tiện là kỹ thuật mô phỏng và sử dụng đồng thời nhiều dạng phương tiện chuyển hoá thông tin và các tác phẩm từ các kỹ thuật đó

- Một số ứng dụng của truyền thông đa phương tiện vào việc học tập: ……………Câu 15. Giả sử ta có ảnh video có:

Dữ liệu ảnh: độ phân giải 360x288, độ sâu của ảnh (deepth) 24bits/pixel, tốc độ

refresh rate (làm tươi ảnh) 24 frame/s.

Dữ liệu âm thanh: tốc độ lấy mẫu 44 KHz, độ phân giải 16bits/sample.

Mode stereo.

Với đầu đọc có tốc độ 2Mbit/s, tỷ lệ nén ảnh là bao nhiêu (theo chuẩn MPEG -1).

GIẢI:

Khi đó tốc độ đọc phần dữ liệu ảnh là: 360*288*24*24=59719680 (bits/s);

Tốc độ đọc dữ liệu âm thanh: 2*44000*16=1408000 (bits/s)

Như vậy để đọc cả âm thanh và hình cần tốc độ khoảng 61.1 (Mbit/s).

Tốc độ đầu đọc =2 (Mbit/s).

20

Như vậy tỷ lệ nén theo chuẩn MPEG 1 là: 61.1/2=30.5 lần (Chưa tính đến thời

gian giải nén).

Câu 16. Các linh vực ứng dụng kỹ thuật xử lý ảnh.

-- Trong y học các thuật tóan xử lý ảnh cho phép biến đổi hình ảnh được tạo ra

từ nguồn bức xạ X -ray hay nguồn bức xạ siêu âm thành hình ảnh quang học trên

bề mặt film x-quang hoặc trực tiếp trên bề mặt màn hình hiển thị.

-- Trong linh vực địa chất, hình ảnh nhận được từ vệ tinh có thể được phân tích

để xác định cấu trúc bề mặt trái đất. Kỹ thuật làm nổi đường biên (image

enhancement) và khôi phục hình ảnh (image restoration) cho phép nâng cao chất

lượng ảnh vệ tinh và tạo ra các bản đồ địa hình 3-D với độ chính xác cao.

--Trong ngành khí tượng học, ảnh nhận được từ hệ thống vệ tinh theo dõi thời tiết

cũng được xử lý, nâng cao chất lượng và ghép hình để tạo ra ảnh bề mặt trái đất

trên một vùng rộng lớn, qua đó có thể thực hiện việc dự báo thời tiết một cách

chính xác hơn. Dựa trên các kết quả phân tích ảnh vệ tinh tại các khu vục đông

dân cư còn có thể dự đóan quá trình tăng trưởng dân số, tốc độ ô nhiễm môi

trường cũng như các yếu tố ảnh hưởng tới môi trường sinh thái. Ảnh chụp từ vệ

tinh có thể thu được thông qua các thiết bị ghi hình cảm nhận được tia sáng

quang học (λ = 450 − 520 nm) (hình 2a), hoặc tia hồng ngoại (λ = 760 − 900 nm).

--Xử lý ảnh còn được sử dụng nhiều trong các hệ thống quản lý chất lượng và số

lượng hàng hóa trong các dây truyền tự động, ví dụ như hệ thống phân tích ảnh

để phát hiện bọt khí bên vật thể đúc bằng nhựa, phát hiện các linh kiện không đạt

tiêu chuẩn (bị biến dạng) trong quá trình sản xuất hoặc hệ thống đếm sản phẩm

thông qua hình ảnh nhận được từ camera quan sát.

--Xử lý ảnh còn được sử dụng rộng rãi trong linh vực hình sự và các hệ thống bảo

mật hoặc kiểm soát truy cập: quá trình xử lý ảnh với mục đích nhận dạng vân tay

21

hay khuôn mặt cho phép phát hiện nhanh các đối tương nghi vấn cũng như nâng

cao hiệu quả hệ thống bảo mật cá nhân cũng như kiểm soát ra vào.

-- Ngoài ra, có thể kể đến các ứng dụng quan trọng khác của kỹ thuật xử lý ảnh

tinh cũng như ảnh động trong đời sống như tự động nhận dạng, nhận dạng mục

tiêu quân sự, máy nhìn công nghiệp trong các hệ thống điều khiển tự động, nén

ảnh tinh, ảnh động để lưu và truyền trong mạng viễn thông v.v.

Câu 17. Nêu nguyên tắc nén dữ liệu video; trình bày một số nguyên tắc nén video

dạng mpeg.

--Nguyên tắc nén dữ liệu video: Nén về cơ bản là một quá trình trong đó số lượng

số liệu (data) biểu diễn lượng thông tin của một ảnh hoặc nhiều ảnh được giảm

bớt bằng cách loại bỏ những số liệu dư thừa trong tín hiệu video. Các chuỗi ảnh

truyền hình có nhiều phần ảnh giống nhau. Vậy tín hiệu truyền hình có chứa

nhiều dữ liệu dư thừa, ta có thể bỏ qua mà không làm mất thông tin hình ảnh. Đó

là các phần xóa dòng, xóa mành, vùng ảnh tỉnh hoặc chuyển động rất chậm,vùng

ảnh nền giống nhau, mà ở đó các phần tử liên tiếp hoặc khác nhau rất ít. Ngoài ra,

để tăng hệ số nén ảnh động, chuyển động trong ảnh truyền hình phải được dự

báo, khi đó, ta chỉ cần truyền các thông tin về hướng và mức độ (vector) chuyển

động của các vùng ảnh khác nhau. Các phần tử lân cận trong ảnh thường giống

nhau, do đó chỉ cần truyền các thông tin biến đổi. Các hệ thống nén sử dụng đặc

tính này của tín hiệu video và các đặc trưng của mắt người (là kém nhạy với sai

số trong hình ảnh có nhiều chi tiết và các phần tử chuyển động). Quá trình giải

nén ảnh là quá trình xấp xỉ để khôi phục ảnh gốc (thường thực hiện ở phía thu).

+Một số nguyên tắc nén video dạng MPEG:Nén tín hiệu video theo chuẩn MPEG

(Moving Picture Experts Group) là phương phápnén ảnh động không những làm

giảm dư thừa không gian (như JPEG) mà còn làm giảm dư thừa thời gian giữa

các khung ảnh, đây là khác biệt so với JPEG là chuẩn nén ảnh tinh chỉ làm giảm

22

dư thừa thông gian trong một khung ảnh. Chuẩn MPEG định nghia một khái

niệm mới là “nhóm các khung ảnh” (GOP) để giải quyết dư thừa thời gian và cho

phép truy xuất ngẫu nhiên khi mã hoá MPEG dùng để lưu trữ. Trong chuẩn

MPEG, người ta quy định 3 loại khung ảnh phụ thuộc vào phương pháp nén: nén

trong khung ảnh (khung I), nén ước đoán (khung P) và nén nội suy hai chiều theo

thời gian (khung B). Khung I luôn luôn là khung ảnh đầu tiên trong nhóm GOP,

tạo điểm truy xuất ngẫu nhiên chuẩn.

Câu 18. Khái niệm QoS trong truyền thông multimedia?Các tham số cơ bản ảnh

hưởng đến chất lượng dịch vụ truyền thông multimedia?

Khái niệm QoS trong truyền thông media?

-- Khái niệm: Chất lượng dịch vụ (QoS) là một thuật ngữ dùng để chỉ chất

lượng của một hệ thống truyền thông hay một kết nối truyền thông trong

mạng viễn thông.

-- Nhu cầu về QoS: Theo truyền thống, khi nhu cầu về băng thông tăng lên,

hiện tượng nghẽn mạng có thể xảy ra. Ta có thể giải quyết bằng cách tăng

băng thông kết nối hoặc dùng thiết bị phần cứng khác thay thế. Nhược

điểm cách này là không chỉ ra cách thức để ưu tiên một loại traffic này so

với một traffic khác.

--QoS là một công cụ tổng thể được dùng để bảo vệ, ưu tiên một số traffic

quan trọng hoặc các traffic đòi hỏi xử lý nhanh về thời gian. QoS sẽ mô tả

cách thức packet được chuyển mạch (forward) như thế nào.

--Các ứng dụng khác nhau sẽ có các nhu cầu khác nhau cho việc truyền dữ

liệu. Ví dụ web, video, audio… Khi một packets đi từ host này đến host

kia, một gói tin (packet) có thể gặp các vấn đề:

+ Delay: do routers xử lý tìm kiếm trong bảng routing table, thời gian

packet truyền trên đường truyền.

23

+ Jitter: các packets không đến đúng như thời gian dự định. Các dữ liệu

dạng audio sẽ bị ảnh hưởng nhiều bởi vấn đề này.

+ Loss: mất packets

--Trong các mạng số liệu, QoS được đánh giá qua các tham số chính sau:

+ Độ sẵn sàng của dịch vụ

+Độ trễ

+Độ biến động trễ

+Thông lượng

+Tỷ lệ tổn thất gói (packet loss rate): tỷ lệ các gói bị mất, bị hủy, và bị lỗi

khi đi trong mạng.

--Chất lượng dịch vụ được áp dụng cho từng luồng dữ liệu riêng biệt hoặc

một nhóm luồng Luồng được xác định dựa vào 5 thông tin: giao thức lớp

vận chuyển, địa chỉ IP nguồn, địa chỉ IP đích, chỉ số cổng nguồn, chỉ số

cổng đích.

--Các yếu tố ảnh hưởng tới chất lượng dịch vụ truyền thông multimedia là:

+ các thành phần mạng

+ cơ chế xử lý ở các thiết bị đầu cuối

+ cơ chế điều khiển trong mạng

Câu 19. Anh/chị hãy trình bày các kiểu khung hình cơ bản của mã hóa video

Mpeg? Đặc tính và mối quan hệ giữa các kiểu khung hình đó?

--Các kiểu khung hình cơ bản của mă hóa video MPEG la :I,P,B,d

--Đặc tính và mối quan hệ giữa các kiểu khung hình đó

- Ảnh loại P (Predicted-picture): Là ảnh được mã hóa có bù chuyển động từ ảnh I

hoặc ảnh P phía trước. Ảnh P cung cấp cho hệ số nén cao hơn ảnh I và có thể sử

dụng làm một ảnh so sánh cho việc bù chuyển động cho các ảnh P và B khác.

- Ảnh loại I (Intra-picture): Là ảnh được mã hóa riêng, tương tự như việc mã hóa

24

ảnh tinh trong JPEG. Ảnh I chứa đựng dữ liệu để tái tạo lại toàn bộ hình ảnh vì

chúng được tạo thành bằng thông tin của chỉ một ảnh và để dự báo cho ảnh B,P.

Ảnh I cho phép truy cập ngẫu nhiên, tuy nhiên cho tỷ lệ nén thấp nhất

- Ảnh loại B ( Bi-directional predicted picture): Là ảnh được mã hóa sử dụng bù

chuyển động từ các ảnh I hoặc P ở phía trước và ở phía sau. Ảnh B cho tỷ lệ nén

cao nhất.

- Ảnh loại D ( Dc-coded picture): Là ảnh được sử dụng trong MPEG-1 và

MPEG-4 nhưng không được sử dụng trong MPEG-2. Nó giống như ảnh I, tuy

nhiên chỉ có thành phần một chiều ở đầu ra DCT được thể hiện. Nó cho phép dò

tìm nhanh nhưng chất lượng ảnh thấp.

Câu 20. Anh/Chị hãy trình bày các phương pháp mã hóa entropy?So sánh với mã

hóa nguồn?

Kỹ thuật mã hóa entropy(không tổn thất thông tin)

--Kỹ thuật này chỉ quan tâm đến độ đo tin trong dữ liệu mà không quan

tâm đến ngữ nghia của tin. Sau đây là một số kỹ thuật mã hoá entropy hay

dùng trong hệ thống xử lý video:

- Mã hoá chiều dài dải liên tục (RLC - Run Length Coding): các chuỗi

điểm ảnh có cùng độ chói (mức màu) sẽ được mã hoá bằng cặp thông tin

(độ chói, chiều dài chuỗi).

- Mã hoá bằng các loại bỏ trùng lặp: các chuỗi đặc biệt được thay thế bằng

cờ và số đếm lặp.

- Mã hoá dùng mẫu thay thế: đây là dạng mã hoá thống kê mà nó thay thế

các mẫu hay lặp lại bằng một mã.

- Mã hóa với độ dài (của từ mã) thay đổi (VLC- Variable-Length Coding).

Phương pháp này còn được gọi là mã hóa Huffman. Nguyên lý của nó dựa

25

trên xác suất xuất hiện của các giá trị biên độ trùng hợp trong một bức ảnh

và việc gán một từ mã ngắn cho các giá trị có tần suất xuất hiện cao nhất

và từ mã dài hơn cho các giá trị còn lại. Khi thực hiện giải nén, các thiết

lập mã trùng hợp sẽ được sử dụng để tạo lại giá trị tín hiệu ban đầu. Mã

hóa và giải mã Huffman có thể thực hiện một cách dễ dàng bằng cách sử

dụng các bảng tìm kiếm. Như vậy, mã Huffman dựa trên nguyên tắc “ký tự

có tần số suất hiện càng cao thì số bit mã hoá càng ngắn”.

26

Phuong Antl

Documents