1 PHẦN MỞ ĐẦU Tính cấp thiết của luận án Ngày nay với sự phát triển mạnh mẽ của các thiết bị thu nhận hình ảnh kỹ thuật số đã dẫn đến sự bùng nổ về dữ liệu đa phương tiện. Tận dụng nguồn dữ liệu đa phương tiện sẵn có với nội dung hấp dẫn thu hút được khối lượng lớn người xem như phim ảnh, video truyền hình, thể thao, … các đối tượng quảng cáo được tích hợp, chèn trực tiếp vào nội dung của các video này. Đây là phương pháp phổ biến và nhanh nhất đưa thông tin quảng bá về sản phẩm, nhãn hiệu, thương hiệu, ... (gọi tắt là đối tượng quảng cáo) đến đông đảo khách hàng, người tiêu dùng. Quá trình chèn đối tượng quảng cáo mới hay thay thế đối tượng quảng cáo đã có trong video bằng đối tượng quảng cáo khác nhằm tận dụng những video sẵn có hiện nay phần lớn được thực hiện theo phương pháp thủ công. Tuy nhiên với sự bùng nổ về số lượng video có sẵn cả về trực tuyến và ngoại tuyến làm cho việc phân tích, xử lý tất cả nội dung video theo cách thủ công rất tốn kém và không khả thi. Điều này đã thúc đẩy luận án nghiên cứu các kỹ thuật hỗ trợ quá trình hậu xử lý video tự động áp dụng trong lĩnh vực thương mại như phân tích nội dung quảng cáo trong video hay tích hợp, thay thế đối tượng quảng cáo vào video đã sẵn có nội dung. Mục tiêu của luận án Mục tiêu của luận án là tập trung nghiên cứu, cải tiến các kỹ thuật xử lý các vấn đề quan trọng trong bài toán hậu xử lý, hiểu video ứng dụng cho bài toán phát hiện và thay thế đối tượng quảng cáo trong video nhằm đạt được hiệu năng cao trên hai phương diện
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
PHẦN MỞ ĐẦU
Tính cấp thiết của luận án
Ngày nay với sự phát triển mạnh mẽ của các thiết bị thu
nhận hình ảnh kỹ thuật số đã dẫn đến sự bùng nổ về dữ liệu đa
phương tiện. Tận dụng nguồn dữ liệu đa phương tiện sẵn có với nội
dung hấp dẫn thu hút được khối lượng lớn người xem như phim ảnh,
video truyền hình, thể thao, … các đối tượng quảng cáo được tích
hợp, chèn trực tiếp vào nội dung của các video này. Đây là phương
pháp phổ biến và nhanh nhất đưa thông tin quảng bá về sản phẩm,
nhãn hiệu, thương hiệu, ... (gọi tắt là đối tượng quảng cáo) đến đông
đảo khách hàng, người tiêu dùng.
Quá trình chèn đối tượng quảng cáo mới hay thay thế đối
tượng quảng cáo đã có trong video bằng đối tượng quảng cáo khác
nhằm tận dụng những video sẵn có hiện nay phần lớn được thực hiện
theo phương pháp thủ công. Tuy nhiên với sự bùng nổ về số lượng
video có sẵn cả về trực tuyến và ngoại tuyến làm cho việc phân tích,
xử lý tất cả nội dung video theo cách thủ công rất tốn kém và không
khả thi. Điều này đã thúc đẩy luận án nghiên cứu các kỹ thuật hỗ trợ
quá trình hậu xử lý video tự động áp dụng trong lĩnh vực thương mại
như phân tích nội dung quảng cáo trong video hay tích hợp, thay thế
đối tượng quảng cáo vào video đã sẵn có nội dung.
Mục tiêu của luận án
Mục tiêu của luận án là tập trung nghiên cứu, cải tiến các kỹ
thuật xử lý các vấn đề quan trọng trong bài toán hậu xử lý, hiểu
video ứng dụng cho bài toán phát hiện và thay thế đối tượng quảng
cáo trong video nhằm đạt được hiệu năng cao trên hai phương diện
2
tốc độ và độ chính xác. Các vấn đề xử lý gồm: phát hiện đối tượng
quảng cáo trong video gồm dò tìm và nhận dạng hình dáng của đối
tượng trong video; thay thế đối tượng trong video gồm phân vùng,
trích chọn phần hiển thị của đối tượng; hoàn thiện video sau khi thay
thế đối tượng tìm thấy trong video bằng đối tượng được lựa chọn.
Đối tượng, phạm vi nghiên cứu của luận án
Đối tượng nghiên cứu của luận án là các mô hình dò tìm đối
tượng trong video. Các kỹ thuật lập chỉ mục tập vector đặc trưng
khổng lồ với số chiều lớn, các kỹ thuật tìm kiếm lân cận xấp xỉ gần
nhất (ANN) ứng dụng trong nhận dạng hình dạng đối tượng. Các mô
hình phân vùng đối tượng, hoàn thiện, tái tạo video sau khi loại bỏ
hoặc thay thế đối tượng.
Phạm vi nghiên cứu của luận án tập trung vào các đoạn
video thể thao, quảng cáo, phim ảnh đã được phân thành một chuỗi
các frame liên tiếp nhau. Đối tượng quảng cáo là các đối tượng hình
ảnh tĩnh, hai chiều. Các thể hiện của đối tượng có kích thước không
quá nhỏ, giới hạn trong khoảng từ 20px đến 400px mỗi chiều.
Phương pháp và nội dung nghiên cứu
Phương pháp luận trong nghiên cứu của luận án là kết hợp
giữa nghiên cứu lý thuyết và thực nghiệm, gồm có: phân tích, so
sánh, tổng hợp và đánh giá kết quả dựa trên thực nghiệm.
Nội dung nghiên cứu của luận án tập trung cải tiến mô hình
dò tìm đối tượng trong video dựa trên mạng tích chập học sâu
(DCNN). Cải tiến kỹ thuật lập chỉ mục dựa trên phép lượng tử hóa
tích đề các (PQ), kỹ thuật tìm kiếm, đối sánh mẫu áp dụng cho bài
toán nhận dạng hình dạng của đối tượng. Cải tiến kỹ thuật phân vùng
3
thực thể đối tượng, hoàn thiện vùng trống/vùng bị phá hủy trong
video dựa trên DCNN.
Các đóng góp của luận án
(i) Cải tiến hiệu năng thực thi mô hình dò tìm đối tượng
trong video theo hướng tiếp cận dựa trên DCNN.
(ii) Cải tiến kỹ thuật lập chỉ mục vector đặc trưng lượng tử
hoá tích đề các theo cụm vector (PSVQ), nâng cao chất lượng mã
hóa tập dữ liệu vector có số chiều lớn.
(iii) Cải tiến mô hình inpainting ảnh RBPconv áp dụng cho
bài toán hoàn thiện và tái tạo vùng trống được sinh ra trong video sau
khi thay thế đối tượng.
CHƯƠNG 1. TỔNG QUAN VỀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO
1.1. Dò tìm đối tượng
Với phương pháp truyền thống, giải thuật dò tìm đối tượng
được chia thành hai giai đoạn độc lập: trích chọn đặc trưng thô và mô
tả, biểu diễn các đặc trưng này. Trong đó, trích trọn đặc trưng thô là
tiến trình dò tìm các điểm có tính bất biến cao với một số phép biến
đổi hình học. Do chỉ chú trọng đến các phép hình thái nên nhược
điểm của mô hình này là các đặc trưng được xác định theo chủ quan
cho tất cả các lớp đối tượng, vì vậy không có tính phổ quát cao. Bên
cạnh đó các giải thuật này có độ phức tạp, chi phí tính toán rất lớn.
Với phương pháp dò tìm đối tượng dựa trên DCNN. Tất cả
các bước rời rạc trước đây được chuyển qua các lớp của một mạng
nơron duy nhất. Dựa trên DCNN, mô hình dò tìm đối tượng được
phân thành hai loại: mô hình dò tìm đối tượng hai trạng thái và một
4
trạng thái. Trong mô hình hai trạng thái, đầu tiên đề xuất vùng đối
tượng được xác định. Tiếp theo mạng DCNN được sử dụng để trích
xuất đặc trưng từ các đề xuất vùng, cuối cùng tiến hành phân lớp/hồi
quy để xác định lớp và bao đóng chứa đối tượng. Ưu điểm của
phương pháp này là độ chính xác tương đối cao, tuy nhiên tốc độ xử
lý tương đối chậm với ngay cả cho một ảnh. Khắc phục nhược điểm
của mô hình hai trạng thái, mô hình một trạng thái không sử dụng đề
xuất vùng đối tượng mà chỉ dựa trên một mạng DCNN duy nhất ánh
xạ trực tiếp các điểm ảnh tới tọa độ vùng bao đóng và xác suất phân
lớp được nghiên cứu. Các mô hình tiêu biểu trong nhóm này là
YOLO, SSD đã đạt được thành công về mặt thời gian thực thi trong
việc phát hiện đối tượng, tuy nhiên nhược điểm chỉ dựa vào các đặc
trưng mức cao nên độ chính xác chưa cao.
1.2. Nhận dạng hình dạng của đối tượng
Để nhận dạng hình dạng của đối tượng dựa trên vector đặc
trưng trích chọn trong quá trình dò tìm đối tượng nhiều kỹ thuật lập
chỉ mục cho tập dữ liệu với số chiều lớn đã được nhiên cứu. Các kỹ
thuật hiệu quả gồm: kỹ thuật trên hàm băm, dựa trên phân cụm, dựa
trên phân hoạch không gian, và dựa trên lượng tử hóa tích đề các.
Trong số các kỹ thuật này, phương pháp tìm kiếm dựa trên lượng tử
hóa tích đề các trên tập dữ liệu vector số chiều lớn cho kết quả tối ưu
hơn cả. Vì vậy, kỹ thuật này được luận án nghiên cứu chi tiết, cải
tiến, phát triển cho bài toán đối sánh tìm ra hình dạng đối tượng từ
tập hình dạng cho trước dựa trên vector đặc trưng.
Với kích thước tập dữ liệu đối sánh có thể lên đến hàng triệu
bản ghi và mỗi vector có số chiều lớn (hàng nghìn chiều), thời gian
đối sánh là một vấn đề quan trọng cần phải giải quyết cho các ứng
5
dụng xử lý video cần theo thời gian thực. Để tối ưu hóa thời gian đối
sánh mẫu, tập vector đặc trưng được lập chỉ mục, mã hoá bằng kỹ
thuật PQ nhằm giảm kích thước không gian lưu trữ. Sau đó, các
phương pháp tìm kiếm ANN nhanh trên không gian mã hóa để tìm ra
đối tượng xấp xỉ gần nhất.
1.3. Thay thế, hoàn thiện video
Sau khi đối tượng trong video được phát hiện, vùng hiển thị
của đối tượng cần được trích chọn và loại bỏ khỏi video. Tương tự,
vùng đối tượng được thay thế cũng được trích trọn từ ảnh đích để
chèn vào vùng nguồn vừa bị loại bỏ trong video. Tiến trình hiệu
chỉnh video này sẽ làm xuất hiện các vùng bị phá hủy do sự chồng
lấp không đầy đủ và cần được hoàn thiện trong quá trình hậu xử lý.
Video inpainting là kỹ thuật thích hợp để tái tạo và hoàn thiện các
vùng này. Để đạt được mục tiêu khôi phục ảnh bị phá hủy xấp xỉ ảnh
nguyên bản đã có nhiều nghiên cứu về video inpainting, nhưng chủ
yếu phát triển theo hai hướng tiếp cận: dựa trên lấy mẫu, hoặc dựa
trên CNN.
Với các tiếp cận dựa trên lấy mẫu, phần ảnh bị mất được
khôi phục theo cách gia tăng vùng hoàn thiện từ mép ngoài vào trong
tâm vùng bằng cách tìm kiếm các bản mẫu thích hợp và ghép chúng
với nhau. Nhược điểm lớn nhất là chúng không thể giải quyết trường
hợp các phần bị mất mát không thể được tìm thấy từ dữ liệu.
Các nghiên cứu sử dụng CNN để hoàn thiện vùng trống
thường sử dụng một kiến trúc cơ bản là mạng encoder-decoder có thể
học các đặc trưng ngữ cảnh của ảnh từ đó hoàn thiện ảnh. Ảnh thu
được thường có tính chân thực cao hơn cách tiếp cận lấy mẫu.
6
Kết luận chương 1
Trong chương này, các mô hình dò tìm đối tượng, kỹ thuật
nhận dạng hình thể của đối tượng trong video dựa trên tập dữ liệu
vector đặc trưng, mô hình hoàn thiện vùng bị phá hủy trong video đã
được trình bày tổng quan. Thông qua đánh giá ưu điểm, hạn chế của
các nghiên cứu trước đó, luận án đã xác định được hướng nghiên cứu
phù hợp cho bài toán phát hiện và thay thế đối tượng trong video.
CHƯƠNG 2. PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO
Nội dung của chương tập trung giới thiệu mô hình dò tìm đối
đượng cải tiến theo thời gian thực với độ chính xác cao. Tốc độ dò
tìm (>30 frame mỗi giây) là yếu tố then chốt trong việc lựa chọn mô
hình. Vì vậy, luận án tập trung nghiên cứu cải tiến mô hình YOLO
cho phù hợp với đối tượng quảng cáo nhằm gia tăng độ chính xác
trong khi vẫn duy trì tốc độ theo thời gian thực. Sau đó kỹ thuật
PSVQ cải tiến kết hợp với cây phân cụm thứ bậc để tìm ra đối tượng
có hình dạng tương đồng nhất từ tập đối tượng có sẵn dựa trên tập
vector đặc trưng đã được trích chọn.
2.1. Dò tìm đối tượng trong video
2.1.1. Một số cải tiến trong mô hình YOLO-Adv
2.1.1.1. Cải tiến hàm loss
Để giảm sự ảnh hưởng về kích thước, độ nghiêng của đối
tượng lên mô hình, phương pháp tính toán hàm mất mát thông tin
theo chiều rộng và chiều dài của bounding box được cải tiến. Các độ
đo kích thước tương đối được sử dụng thay thế cho độ đo tuyệt đối
trong hàm loss này của mạng YOLO nguyên bản (thành phần đánh
dấu *). Hàm loss cải tiến được định nghĩa theo công thức sau:
7
= ∑ ∑ ( − ) + ( − )
+ ∑ ∑ ( ) + ( ) (*)
+ ∑ ∑ −
+ ∑ ∑ −
+ ∑ ∑ ( ( ) − ̂ ( ))∈
Cụ thể, trong hàm loss mới, độ đo , và được sử
dụng thay thế cho − và ℎ − ℎ . Tác dụng của cải tiến
này đã làm gia tăng độ chính xác trong dò tìm các bounding box, làm
giảm sự ảnh hưởng khi kích thước, độ nghiêng của đối tượng trong
các frame khi chúng bị thay đổi. Đồng thời cũng làm gia tăng tốc độ
hội tụ trong pha huấn luyện.
2.1.1.2. Cải tiến trong kiến trúc mạng
Với mạng DCNN, các đặc trưng cục bộ xuất hiện trong các
tầng thấp. Để sử dụng các đặc trưng cục bộ này, một chiến lược hợp
nhất đặc trưng đa tầng được sử dụng bên trong kiến trúc mạng
Darknet-53. Với chiến lược này, kết quả bản đồ đặc trưng ảnh qua
khối Residual 8x256 tiếp tục nhân chập với mặt nạ 3x3x256 và
1x1x64, sau đó toán tử ReShape/2 được sử dụng để tái cấu trúc lại
bản đồ đặc trưng với mục đích làm làm cho bản đồ đặc trưng của
tầng này giống với cấu trúc bản đồ đặc trưng các tầng sau. Cuối
cùng, các đặc trưng ở các mức khác nhau được hợp nhất với mục
đích làm giàu các đặc trưng cục bộ.
8
2.1.2. Ước lượng, đánh giá mô hình dò tìm đối tượng cải tiến
2.1.2.1. Dữ liệu kiểm thử và môi trường cài đặt
Để huấn luyện và kiểm thử mô hình YOLO-Adv, bộ dữ liệu
flickrlogos-47 được sử dụng.
Quá trình phát hiện đối tượng trong video được thực nghiệm
trên máy chủ GPU. GPU được sử dụng là Nvidia Tesla K80, bộ nhớ
video 24GB, và điều hành Ubuntu 14 với bộ nhớ trong 64GB.
Hình 2.1. Giá trị hàm loss trung bình huấn luyện
2.1.2.2. Kết quả thực nghiệm
Ước lượng pha huấn luyện
Biểu đồ hình 2.1 biễu diễn đồ thị giá trị hàm loss trung bình
của 3 mô hình YOLO-Adv, YOLO-Loss và YOLOv3 nguyên bản.
Trong đó YOLO-Loss là mô hình chỉ cải tiến hàm loss, YOLO-Adv
là mô hình cải tiến đồng thời hàm loss và kiến trúc mạng. Cả ba mô
hình được huấn luyện trên tập dữ liệu flickrlogos-47. Kết quả cho ta
thấy giá trị hàm loss trung bình của cả 3 mô hình có khuynh hướng
9
giảm nhanh trong 5000 vòng lặp đầu tiên, cuối cùng hướng về sự ổn
định tại giá trị rất nhỏ sau khoảng 15000 vòng lặp. Tuy nhiên, mô
hình YOLO-Adv có độ lỗi trung bình giảm nhanh nhất tại thời điểm
bắt đầu và đạt giá trị nhỏ nhất đầu tiên trong ba mô hình theo sau bởi
hai mô hình YOLO-Loss và YOLOv3. Điều này chứng tỏ hàm loss
và kiến trúc mạng cải tiến làm cho mô hình có tính ổn định cao, ít bị
tác động bởi các kích thước và độ nghiêng của đối tượng quảng cáo,
thích hợp cho tập dữ liệu huấn luyện được chọn.
(a) YOLOv3 (b) YOLO-Loss (c) YOLO-Adv
Hình 2.2. Biểu đồ giá trị IoU huấn luyện
Kết quả so sánh hệ số IoU thể hiện độ chính xác trong việc
định vị các bounding box được minh họa trong hình 2.2. Hệ số IoU
trung bình của cả ba mô hình có khuynh hướng tăng đều và giữ ổn
định trong khoảng [0.7 - 1.0]. Điều này chứng tỏ cả 3 mô hình cho
độ chính xác cao khi xác định vị trí bounding box. Tuy nhiên giá trị
IoU của mô hình YOLO-Adv có khuynh hướng tăng nhanh nhất, tức
là tốc độ huấn luyện nhanh nhất trong ba mô hình trên. Bên cạnh đó
giá trị IoU của YOLO-Adv cũng giữ giá trị ổn định ở mức cao nhất,
đồng nghĩa với độ chính xác trong phát hiện đối tượng là cao nhất.
10
Ước lượng pha kiểm thử
Độ chính xác trong phân lớp của mô hình YOLO-Adv tiếp
theo lần lượt được so sánh với các mô hình YOLOv3 và YOLO-Loss
trên tập dữ liệu huấn luyện Flickrlogos-47 với ngưỡng = 0.5, sử
dụng độ đo ước lượng mAP.
So sánh kết quả dò tìm đối tượng trên độ đo mAP cho thấy
YOLO-Adv cho độ chính xác cao nhất trong phát hiện, với mAP đạt
80.2 (bảng 2.1) so với các mô hình YOLO-Loss, YOLOv3 chỉ đạt
tương ứng là 77.4 và 74.0. Ngoài ra với tốc độ xử lý trung bình đạt
0.028s cho mỗi frame, mô hình YOLO-Logo có thể đạt tốc độ xử lý
theo thời gian thực với khoảng 35 frame xử lý được trong 1 giây.
Bảng 2.1. Hiệu năng thực thi trên tập dữ liệu Flickrlogos-47
Mô hình mAP s/Img YOLOv3 74.0 0.038
YOLO-Loss 77.4 0.032 YOLO-Adv 80.2 0.028
2.2. Nhận dạng hình dạng đối tượng
Nhiệm vụ chính của pha nhận dạng hình dạng đối tượng là
xác định chính xác hình dạng của đối tượng đã tìm thấy trong pha
trước đó. Để thực hiện tác vụ này, luận án đã sử tập dữ liệu rất lớn
vector đặc trưng về hình dạng của đối tượng được trích chọn bằng
mô hình YOLO-Adv. Tập dữ liệu này được lập chỉ mục, mã hoá và
quá trình nhận dạng được thực hiện bằng cách đối sánh vector đặc
trưng của đối tượng truy vấn với các vector trong tập dữ liệu.
11
2.2.1. Mô hình lập chỉ mục PSVQ
Gọi X là tập các vector đặc trưng đã trích chọn được. Ký
hiệu ∈ là một vector hay điểm dữ liệu trong tập dữ liệu X. Ký
hiệu ( ) ∈ ( ) là vector con thứ j của x với j=1,2, … m.
Không gian dữ liệu gốc X trước hết được chia thành m không
gian con phân biệt tách rời nhau, mỗi vector con này có số chiều là
D/m. Để giải quyết vấn đề còn hạn chế về mối tương quan dữ liệu
giữa các không gian con không được xem xét dẫn tới sự dư thừa các
codeword, PSVQ được phát triển dựa trên ý tưởng gộp h không gian
liền kề nhau trong m không gian này. Sau đó áp dụng phép lượng tử
hóa vector cho các không gian gộp này. Cụ thể kết hợp h (1 ≤ ℎ ≤
) không gian liền kề nhau tạo thành _ = /ℎ không gian con và
thực hiện lượng tử hóa riêng biệt trên _ tập con vừa hình thành này
với _ bộ lượng tử thấp. Như vậy, mỗi không gian con lúc này có
_ = ℎ × tâm cụm. Do đó, sẽ có một vài không gian con chia sẻ
cùng một bộ lượng tử. Vì vậy tạo ra các phân rã mịn hơn trên dữ liệu
ban đầu trong khi không làm gia tăng số lượng các codeword (có tất
cả _ × _ = × codeword).
Như vậy với một tập dữ liệu vector đặc trưng X gồm n điểm
trong không gian R(d), bằng cách áp dụng tiến trình lượng tử hóa trên
cho tất cả các điểm dữ liệu trong X dựa trên các codebook { ∗ } thu
được trong quá trình huấn luyện ta thu được tập mã lượng tử Q gồm
n lượng tử cho từng phần tử trong X. Mỗi phần tử trong Q là một
vectơ của kích thước m và có giá trị trong khoảng [0, _K-1]. Tập Q
lúc này có kích thước n x m phần tử nguyên, do vậy không gian nhớ
hơn giảm nhiều lần so với tập dữ liệu số thực X.
12
2.2.2. Tìm kiếm ANN dựa trên cây phân cụm thứ bậc
Quá trình tìm kiếm ANN được thực hiện dựa trên cây phân
cụm thứ bậc hoàn chỉnh kết hợp trên tập dữ liệu mã hoá bằng
phương pháp lượng tử PSVQ bao gồm 2 pha: offline – pha chuẩn bị
dữ liệu, tạo cây tìm kiếm và tìm kiếm online – pha duyệt cây.
Trong pha offline, tập ℒ (kích thước m x _K) là tập codebook
của X được xây dựng theo phương pháp PSVQ. Mỗi mã lượng tử
trong ℒ hình thành từ quá trình lượng tử một điểm dữ liệu ∈ dựa
trên cookbook { ∗}. Tập codebook ℒ được lưu trữ phục vụ cho việc
tra cứu để tính khoảng cách giữa vector truy vấn r và các điểm dữ
liệu trong X. Với (∗)( ) = ủ .
Song song với quá trình hình thành tập dữ liệu tra cứu ℒ, tập
dữ liệu vector đặc trưng ban đầu cũng được dùng để tạo ra một cây
phân cụm thứ bậc hoàn chỉnh nhằm biểu diễn tất cả các điểm dữ liệu
trong không gian ban đầu. Tiến trình tạo cây bắt đầu tạo ra nút gốc
tương ứng với toàn bộ tập dữ liệu. Tiếp theo, giải thuật phân cụm
(Kmeans) được áp dụng để phân cụm dữ liệu trên nút này thành K
cụm con, mỗi một cụm được gọi là một nút trong biểu diễn và được
đại diện bởi tâm cụm (codeword). Tiến trình này được lặp lại đệ quy
cho đến khi lực lượng tại cụm con là đủ nhỏ, được coi là nút lá.
Pha online là quá trình tìm kiếm một vector xấp xỉ trong tập
dữ liệu vector đặc trưng so với vector truy vấn r trong không gian
R(D). Bản chất của quá trình tìm kiếm này là quá trình duyệt cây phân
cụm thứ bậc đã được tạo ra trước. Xuất phát từ nút gốc, nút con mà
có khoảng cách từ r đến là bé nhất được chọn duyệt tiếp theo. Quá
trình duyệt cây được lặp đệ quy đến khi tìm ra nút lá thích hợp nhất.
13
2.2.3. Ước lượng đánh giá
2.2.3.1. Ước lượng, đánh giá kỹ thuật PSVQ
Tập dữ liệu và cấu hình phần cứng
Dữ liệu được sử dụng trong quá trình thực nghiệm gồm các
tập dữ liệu có số chiều lớn là ANN_GIST1M, VGG. Giải thuật được
cài đặt trên môi trường C/C++ và thực nghiệm được tiến hành một
máy tính cấu hình phần cứng chuẩn gồm: RAM 16GB, chip Intel
Core (Dual-Core) i7 2.1 GHz, được cài hệ điều hành Windows 7.
Ước lượng, đánh giá chất lượng mã hóa
Chất lượng mã hóa của PSVQ với các tham số h=2,4,8 được
so sánh với các phương pháp dựa trên cách tiếp cận PQ sử dụng cơ
chế tối ưu hóa các bộ lượng tử là PQ chuẩn và ck-means. Kết quả so
sánh minh họa trong biểu đồ hình 2.3 cho thấy mô hình đề xuất với
h=8 thực thi tốt hơn so với các phương pháp còn lại trên cả hai tập
dữ liệu kiểm thử GIST và VGG. Kết quả này chứng tỏ sự tương quan
của dữ liệu được xem xét tối đa trên tất cả các không gian con.
(a) 1M 960D ANN_GIST (b) 500K 4096D VGG
Hình 2.3. Chất lượng mã hóa PSVQ
14
2.2.3.2 Ước lượng, đánh giá tốc độ tìm kiếm ANN
Để chứng minh tính hiệu quả của thuật toán trong pha tìm
kiếm hình dạng của đối tượng, luận án đã tiến hành một số thực
nghiệm trên các tập dữ liệu chuẩn khác nhau để tìm ra tham số tối ưu
nhất dùng để xây dựng bộ lượng tử. Kết quả nhận được là d=48,
k=256 trên tập ANN_GIST với các vector 960 chiều và d=64, k=128
trên tập VGG gồm các vector 4096 chiều.
Ước lượng giải thuật tìm kiếm
Hiệu năng tìm kiếm của phương pháp đề xuất được so sánh
với nhiều phương pháp khác nhau trong lớp bài toán tìm kiếm ANN