ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 1 Lý thuyết thông tin và mã hóa Lý Lý thuy thuy ế ế t t thông thông tin tin v v à à mã mã h h ó ó a a T T à à i i li li ệ ệ u u tham tham kh kh ả ả o ch o ch í í nh nh 1. 1. Digital Communications, Simon Digital Communications, Simon Haykin Haykin , , Prentic Prentic Hall Hall 2004 2004 2. 2. Thông Thông tin tin s s ố ố , , Nguy Nguy ễ ễ n n Vi Vi ế ế t t K K í í nh nh , , Tr Tr ị ị nh nh Anh Anh V V ũ ũ Nh Nh à à xu xu ấ ấ t t b b ả ả n n Gi Gi á á o o d d ụ ụ c c , 2007 , 2007
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 1
Lý
thuyết
thông
tin và
mã hóa
LýLý
thuythuyếếtt
thôngthông
tin tin vvàà
mãmã hhóóaa
TTààii liliệệuu thamtham khkhảảo cho chíínhnh1.1.
Digital Communications, Simon Digital Communications, Simon HaykinHaykin, , PrenticPrentic
Hall Hall 20042004
2.2.
ThôngThông
tin tin ssốố, , NguyNguyễễnn
ViViếếtt
KKíínhnh, , TrTrịịnhnh
AnhAnh VVũũ
NhNhàà
xuxuấấtt
bbảảnn
GiGiááoo
ddụụcc, 2007, 2007
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 2
Nội dung •
Mở đầu.
•
Chủ đề
1: Entropi và
mã hóa nguồn rời rạc. •
Chủ đề 2: Dung năng và
mã kênh rời rạc.
Kiểm tra giữa kỳ•
Chủ đề
3: Entropi vi phân. Mã kênh liên tục.
•
Chủ đề
4: Mã hóa nguồn liên tục. Tốc độ
méo.•
Chủ đề
5: Mã Turbo và
LDPC.
•
Ôn tập.
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 3
Mở đầuLý
thuyết truyền
tin số
có
hai
bước
đột
phá
từ
các
công trình
của
Claude Shannon 1948:•
Truyền
tin hiệu quả,
đạt
được
do mã
nguồn
•
Truyền
tin tin
cậy,
đạt
được
do mã
điều khiển lỗi
(mã
kênh)
Các
kết quả
này
được xây dựng
từ
cơ sở
lýthuyết
thông
tin
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 4
Các
khái
niệm•
Hiệu quả: Khi
số
bít trung
bình
biểu diễn 1
mẫu (từ
mã)
nguồn là ít nhất
mà
không gây
mất
thông
tin.
•
Tin
cậy: Khi xác
suất lỗi truyền
tin có
thể nhỏ
tùy ý
(tiến
đến 0) với kỹ
thuật mã kênh
thích
hợp•
Đạt
được: Tiến
đến giới hạn như
Entropi
của
nguồn
hay
Capacity của kênh
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 5
Chủ đề
1 Entropi và
mã hóa nguồn rời rạc
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 6
Khái niêm thông tin:
- Một sự
kiện gọi là chứa
nhiều
thông
tin nếu khi xảy ra đem
đến
cho
người tiếp nhận
nhiều
điều
chưa biết.- Sở
dĩ
có
nhiều
điều chưa biết vì sự
kiện
này
hiếm khi xảy ra.-
Vậy một sự
kiện với xác suất xảy ra nhỏ, nếu
xảy
ra
cho
nhiều
thông
tin chưa biết, hay lượng thông
tin tỷ
lệ
ngược với xác suất xảy ra sự
kiện.-
Để
thông
tin có
tính
cộng, người
ta
dùng
logarit
của xác suất sự
kiện và định
nghĩa như
sau:
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 7
Thông
tin của một sự
kiện•
Đn : Một sự
kiện sk
có
xác
suất xảy ra là
pk
có lượng
thông
tin là:
•
nếu pk
=1, thông
tin về
sự
kiện = 0•
khi
pk
=0.5, thông
tin = 1 bít
(đây
cũng
là
đơn vị đo
thông
tin hay đơn vị
biểu diễn
thông
tin)
•
khi
xác
suất sự
kiện xảy ra nhỏ, thông
tin có
giá trị
lớn cần
nhiều bít để
biểu diễn nó
kk psI 1log2
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 8
Thông
tin của một nguồn hữu hạn: Entropi
•
Đn: Một
nguồn rời rạc có
hữu hạn sự
kiện ứng với bảng
K chữ
cái
với xác suất xuất hiện
độc
lập:
thông
tin của
nguồn
này
(gọi
là
Entropi) là
tổng thông
tin các
sự
kiện
có
trong
nguồn với trọng
số
là
xác
suất xảy ra
các
sự
kiện
đó :
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 9
Tính
chất của
Entropi•
Entropi
ứng
với số
bít
tb
biểu diễn một sự
kiện (chữ
cái, một mẫu) của nguồn. •
T/c của
entropi:
- Biên thấp
ứng
với một chữ
cái
có
xác suất =1
- biên cao ứng
với xác suất bằng
nhau giữa các
chữ
cái hay
bất
định
cực
đại
(hỗn loạn cực
đại cũng
là
entropy max, giống
khái
niệm
trong
vật lý)
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 10
Ví
dụ
nguồn nhị
phân
không
nhớ•
K=2, p1
+p0
=1 entropi
cực
đại khi p0
=0.5
•
K=3
•
Đối với nguồn mở
rộng
(ứng
với một khối n chữcái
độc lập).
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 11
Ví
dụ
nguồn mở
rộng
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 12
Mã
hóa không
mất
mát nguồn rời rạc•
ĐN: Mã
hóa nguồn rời rạc hữu hạn nhằm biểu diễn mỗi
mẫu nguồn (chữ
cái)
bằng
một
nhóm bít (từ
mã). Hiệu quả mã
được
đo bằng
tỷ
số
giữa
H(X) và
số
bít
tb
của từ
mã.
Giả
sử
X là
một
nguồn rời rạc
(có
L chữ
cái)•
Xét
trường
hợp xác suất chữ
cái
bằng
nhau
(entropi
max)
- Khi L = lũy thừa của 2, số
bít
tối thiểu cần
cho
mã
hóa
từ mã
sẽ
là
R=log2
L và
H(X)/R=1 (hiệu suất
100%)-
Khi
L không
phái
lũy thừa 2, chọn R=[log2
L]+1, H(X)/R <1 (hiệu suất
< 100%).
Có
thể
tăng
hiệu suất mã bằng
cách mã
một
nhóm
J chữ cái
một lúc (bảng
Lj
chữ
cái
mở
rộng) chứ
không
phải mã từng
chữ
cái. Từ
mã
N bít
tối thiểu khi đó là:
N=[Jlog2
L]+1.Số
bit/chữ
cái
R=N/J →H(X). Khi
cho
J đủ
lớn
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 13
Mã hóa không mất mát nguồn rời rạc•
Khi
xác
suất chữ
cái
không
bằng
nhau: Dùng
từ
mã
độ
dài
thay
đổi
(mã
Morse). Chữ
cái
hay xảy ra
gán
từ
mã
ngắn. Chữ
cái
ít
xảy ra gán từ
mã
dài
hơn. Loại
mã
này
cũng tiến gần
entropi
(còn gọi là mã Entropi).
•
Ngoài
việc
đạt
entropi
mã
thiết kế
phải
khả
thi trong
truyền
tin, tức là phải thỏa mã đ/k
tức thời
và
duy
nhất. 3 nội
dung xem
xét
ở đây
là:–
Đk tiền tố
là
điều kiện
thích
hợp cho việc thiết kế
mã
tức thời
và
duy
nhất
(Mã
huffman
và
lempel-Zip xây dựng
theo
phương
pháp
này)
–
Có
luôn
tồn tại mã thỏa mãn điều kiện tiền tố
không.–
Mã
tiền tố
có
đạt
entropi
không
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 14
Điều kiện tiền tố•
Giả
sử
từ
mã
của chữ
cái
sk
làTrong
đó
i bit đầu tiên là:
•
Đn: Điều kiện tiền tố
là
đk
trong
đó
không
có
từ
mã
nào là
nhóm
đầu tiên (tiền tố) của từ
mã
khác
(trong
bảng
chỉ
có
loại II là thỏa mãn điều kiện này)•
Đ/k tiền tố
cho
phép
giải mã giải
duy
nhất và tức thời
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 15
Giải mã tiền tố•
Giải mã của loại
mã
này
bắt
đầu từ đầu
dãy
và
giải mã từng
từ
mã
một. •
Mỗi khi đến
điểm cuối
cây mã bộ
giải mã lại
đilại từ đầu. Ví
dụ
dãy
được mã là
1011111000, •
Giải mã là s1
s3
s2
s0
s0
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 16
Điều kiện tồn tại mã tiền tố•
BĐT Kraft: Cần và đủ
để
tồn tại mã tiền tố
(có
các
độ
dài
n1
≤n2
.. ≤nL
) là:
•
CM Điều kiện
đủ
(xây
dựngcây
nL
tầng)
•
CM Điều kiện cần (xây dựngcây
n>nL
tầng)
121
L
k
nk
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 17
Định
lý
mã
hóa nguồn rời rạc•
Định
lý
Shannon 1: Tồn tại
mã
nguồn
không
mất
mát
khi
tốc
độ
mã
R>H(X). Không
tồn tại
mã
nguồn
không
mất mát
nếu tốc
đô mã
R<H(X). Để
CM cần chuẩn bị
k/niệm
•
Dãy đại diện: Giả
sử
bảng
chữ
cái: S={a1
,a2
,..aN
} với xác suất p1
,p2
,..pN
. Với x có độ
dài n
rất lớn (luật số
lớn) ai
trong
x sẽ
xuất hiện npi
lần
(x gọi là dãy đại diện )
•
Cần nH(X) bít để
biểu diễn một
dãy
đại diện hay
số
bít cho
1 từ
là:
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 18
CM định lý mã nguồn•
CM: Trước hết chỉ
ra tồn tại mã sai khác 1 bit
với H(x) Chọn mã có độ
dài: thỏa mãn tiêu chuẩn Kraft nên độ
dài mã tb có biên trên:
•
Để
chỉ ra biên dưới, xét bài toán tối ưu có điều kiện với
•
Dùng tiêu chuẩn lagrange:•
suy ra hệ:
hay entropi là biên dưới
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 19
Định
lý
đạt
entropi
của mã tiền tố
(cách CM khác)
•
Định
lý: Có
thể
cấu trúc một mã tiền tố, có
độ dài
tb
R thỏa mãn: H(X)≤R≤H(X)+1.
CM: •
BĐT trái:
từ
công
thức Kraft
(Sử
dụng
lnx≤x-1)
Đẳng
thức xảy
ra
khi
và
chỉ
khi
pk
=2-nk
đối với 0≤k≤L
L
k k
n
k
L
k k
n
k
L
kkk
L
k kk
ppe
pp
npp
pRXH
kk
12
12
112
2lnlog2log
1log)(
012log12log)(1
21
2
L
k
nL
k k
n
kk
k
ep
peRXH
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 20
Định lý đạt entropi của mã tiền tố
•
BĐT phải:
có
thể
khi
chọn {nk
} sao
cho
Theo Kraft, tồn tại mã tiền tố. Lấy
logarit hai vế:
logpk
<-nk
+1 hay nk
<1-logpk
Nhân
2 vế
với pk
và
lấy tổng
theo
k ta
có vế
BĐT vế
phải
122 kk nk
n p
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 21
Mã
Huffman•
Qui tắc
mã: Ký
hiệu
nguồn
được xếp theo thứ
tự
xác
suất giảm.
2 ký
hiệu với xác suất thấp nhất được gán 0 và 1
•
2 ký
hiệu
nguồn
này
được tổ
hợp thành ký hiệu nguồn mới với xác suất = tổng
xs
của
2 nguồn
ban đầu và được
thay
thế
vào
danh
sách
ứng với giá trị
của nó
•
Quá
trình
được lặp lại cho đến hết
danh
sách
chỉ còn
2 nguồn. Sau
đó
dùng
0 và
1 gán
cho
nó
•
Mã
nguồn
tìm
được bằng
cách
đi ngược lại
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 22
Ví
dụ
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 23
Tính chất
mã
Huffman•
Quá
trình
mã
Huffman là
không
duy
nhất
•
Mã
Huffman tạo
nên
mã
tiền tố
có
R thỏa mãnH(X)≤R≤H(X)+1
•
Khi
thực hiện
mã
theo
khối (mở
rông)JH(X)≤RJ
≤JH(X)+1hay H(X)≤RJ
/J≤H(X)+1/J•
Bên
cạnh
giá
trị
tb, phương
sai
của
độ
dài
mã
là
•
Khi
thay
thế
vị
trí
ký
hiệu mới
ở
vị
trí
cao
hơn ký hiệu cũ cùng
xác
suất
luôn
cho
phương
sai
nhỏ
hơn
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 24
Ví
dụ•
Nguồn 3 chữ
x1
,x2
,x3
có
xác
suất tương ứng
0.45, 0.35, 0.2.
•
Tính
H(X),R theo
mã
Huffman, hiệu suất mã
•
Tính
cho
nguồn mở
rộng
2 ký
hiệu. Entropi
của
nguồn
này
độ
dài
mã
và
hiệu
suất•
Đ/s: 1.518, 1.55, η=97,9%
•
3.0675, 1.534, η=99,%
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 25
Mã
Lempel-Ziv•
Nhược
điểm của
mã
Huffman là
phải biết trước
xác
suất
nguồn
(xác suất xuất hiện các ký
hiệu). –
Thực tế
không
phải
lúc
nào
cũng
biết trước xác suất
nguồn–
Ngoài
ra
mã
Huffman không tính đến sự
liên
hệ
giữa
từ
và
nhóm
từ
nên
cũng
làm
giảm hiệu quả
mã.•
Mã
Lempel-Ziv thích
nghi
và
khả
thi
hơn mã
Huffman, mã này còn
gọi là mã nguồn vạn năng•
Qui tắc mã:
Chia
dòng
dữ
liệu thành các mảnh
có
độ
dài
ngắn nhất chưa gặp phải trước
đó
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 26
Ví
dụ
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 27
Giải mã•
Giải
mã
dùng
con trỏ
xác
định
dãy
gốc sau đó
thêm
vào
ký
hiệu làm mới•
LZ dùng
mã
độ
dài
cố định
để
biểu diễn
các
ký
hiệu
nên
dễ
cho
truyền
đồng
bộ.•
Trong
ví
dụ
44 bit thành
16 từ
mã
5 bit=80 có
vẻ
không
hiệu quả
song tăng
độ
dài
mã
sẽ
hiệu quả. •
Thực tế
mã
độ
dài
12 bit được
dùng
cho
sách
mã
4096
đầu vào. Bảng
mã
có
thể
quá
tải
song chỉ
cần
bên
mã
và giải mã giống
nhau, khi
chạy sẽ
loại bỏ
từ
mã
không
dùng,
giảm
quá
tải bảng
mã.•
LZ là
thuật toán tiêu chuẩn hiện
nay cho
nén
file. Đối với
tiếng
Anh
nó
đạt
độ
nén
55%. Còn
mã
Huffman chỉ
nén 43%. Nguyên
do mã
Huffman không
tận dụng
ưu thế
dư
thừa giữa
các
ký
hiệu
trong
ngôn
ngữ
ĐHCN-ĐHQG Hà nội Khoa Điện tử Viễn thông 28
Tóm tắt•
Entropi là thước đo thông tin một nguồn tin và
là
giới hạn dưới của độ
dài trung
bình từ
mã nguồn tin•
Mã hóa nguồn đạt được entropi và
thích
hợp cho truyền tin là
mã thỏa mãn t/c tiền tố
và
có độ
dài khối lớn
•
Mã Huffman và
Lempel-ziv là
loại mã tiền tố đạt entropi song Lempel-ziv thực tế