tom tat luan an tieng viet 8 2020 - ictu.edu.vn

1

PHẦN MỞ ĐẦU

Tính cấp thiết của luận án

Ngày nay với sự phát triển mạnh mẽ của các thiết bị thu

nhận hình ảnh kỹ thuật số đã dẫn đến sự bùng nổ về dữ liệu đa

phương tiện. Tận dụng nguồn dữ liệu đa phương tiện sẵn có với nội

dung hấp dẫn thu hút được khối lượng lớn người xem như phim ảnh,

video truyền hình, thể thao, … các đối tượng quảng cáo được tích

hợp, chèn trực tiếp vào nội dung của các video này. Đây là phương

pháp phổ biến và nhanh nhất đưa thông tin quảng bá về sản phẩm,

nhãn hiệu, thương hiệu, ... (gọi tắt là đối tượng quảng cáo) đến đông

đảo khách hàng, người tiêu dùng.

Quá trình chèn đối tượng quảng cáo mới hay thay thế đối

tượng quảng cáo đã có trong video bằng đối tượng quảng cáo khác

nhằm tận dụng những video sẵn có hiện nay phần lớn được thực hiện

theo phương pháp thủ công. Tuy nhiên với sự bùng nổ về số lượng

video có sẵn cả về trực tuyến và ngoại tuyến làm cho việc phân tích,

xử lý tất cả nội dung video theo cách thủ công rất tốn kém và không

khả thi. Điều này đã thúc đẩy luận án nghiên cứu các kỹ thuật hỗ trợ

quá trình hậu xử lý video tự động áp dụng trong lĩnh vực thương mại

như phân tích nội dung quảng cáo trong video hay tích hợp, thay thế

đối tượng quảng cáo vào video đã sẵn có nội dung.

Mục tiêu của luận án

Mục tiêu của luận án là tập trung nghiên cứu, cải tiến các kỹ

thuật xử lý các vấn đề quan trọng trong bài toán hậu xử lý, hiểu

video ứng dụng cho bài toán phát hiện và thay thế đối tượng quảng

cáo trong video nhằm đạt được hiệu năng cao trên hai phương diện

2

tốc độ và độ chính xác. Các vấn đề xử lý gồm: phát hiện đối tượng

quảng cáo trong video gồm dò tìm và nhận dạng hình dáng của đối

tượng trong video; thay thế đối tượng trong video gồm phân vùng,

trích chọn phần hiển thị của đối tượng; hoàn thiện video sau khi thay

thế đối tượng tìm thấy trong video bằng đối tượng được lựa chọn.

Đối tượng, phạm vi nghiên cứu của luận án

Đối tượng nghiên cứu của luận án là các mô hình dò tìm đối

tượng trong video. Các kỹ thuật lập chỉ mục tập vector đặc trưng

khổng lồ với số chiều lớn, các kỹ thuật tìm kiếm lân cận xấp xỉ gần

nhất (ANN) ứng dụng trong nhận dạng hình dạng đối tượng. Các mô

hình phân vùng đối tượng, hoàn thiện, tái tạo video sau khi loại bỏ

hoặc thay thế đối tượng.

Phạm vi nghiên cứu của luận án tập trung vào các đoạn

video thể thao, quảng cáo, phim ảnh đã được phân thành một chuỗi

các frame liên tiếp nhau. Đối tượng quảng cáo là các đối tượng hình

ảnh tĩnh, hai chiều. Các thể hiện của đối tượng có kích thước không

quá nhỏ, giới hạn trong khoảng từ 20px đến 400px mỗi chiều.

Phương pháp và nội dung nghiên cứu

Phương pháp luận trong nghiên cứu của luận án là kết hợp

giữa nghiên cứu lý thuyết và thực nghiệm, gồm có: phân tích, so

sánh, tổng hợp và đánh giá kết quả dựa trên thực nghiệm.

Nội dung nghiên cứu của luận án tập trung cải tiến mô hình

dò tìm đối tượng trong video dựa trên mạng tích chập học sâu

(DCNN). Cải tiến kỹ thuật lập chỉ mục dựa trên phép lượng tử hóa

tích đề các (PQ), kỹ thuật tìm kiếm, đối sánh mẫu áp dụng cho bài

toán nhận dạng hình dạng của đối tượng. Cải tiến kỹ thuật phân vùng

3

thực thể đối tượng, hoàn thiện vùng trống/vùng bị phá hủy trong

video dựa trên DCNN.

Các đóng góp của luận án

(i) Cải tiến hiệu năng thực thi mô hình dò tìm đối tượng

trong video theo hướng tiếp cận dựa trên DCNN.

(ii) Cải tiến kỹ thuật lập chỉ mục vector đặc trưng lượng tử

hoá tích đề các theo cụm vector (PSVQ), nâng cao chất lượng mã

hóa tập dữ liệu vector có số chiều lớn.

(iii) Cải tiến mô hình inpainting ảnh RBPconv áp dụng cho

bài toán hoàn thiện và tái tạo vùng trống được sinh ra trong video sau

khi thay thế đối tượng.

CHƯƠNG 1. TỔNG QUAN VỀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO

1.1. Dò tìm đối tượng

Với phương pháp truyền thống, giải thuật dò tìm đối tượng

được chia thành hai giai đoạn độc lập: trích chọn đặc trưng thô và mô

tả, biểu diễn các đặc trưng này. Trong đó, trích trọn đặc trưng thô là

tiến trình dò tìm các điểm có tính bất biến cao với một số phép biến

đổi hình học. Do chỉ chú trọng đến các phép hình thái nên nhược

điểm của mô hình này là các đặc trưng được xác định theo chủ quan

cho tất cả các lớp đối tượng, vì vậy không có tính phổ quát cao. Bên

cạnh đó các giải thuật này có độ phức tạp, chi phí tính toán rất lớn.

Với phương pháp dò tìm đối tượng dựa trên DCNN. Tất cả

các bước rời rạc trước đây được chuyển qua các lớp của một mạng

nơron duy nhất. Dựa trên DCNN, mô hình dò tìm đối tượng được

phân thành hai loại: mô hình dò tìm đối tượng hai trạng thái và một

4

trạng thái. Trong mô hình hai trạng thái, đầu tiên đề xuất vùng đối

tượng được xác định. Tiếp theo mạng DCNN được sử dụng để trích

xuất đặc trưng từ các đề xuất vùng, cuối cùng tiến hành phân lớp/hồi

quy để xác định lớp và bao đóng chứa đối tượng. Ưu điểm của

phương pháp này là độ chính xác tương đối cao, tuy nhiên tốc độ xử

lý tương đối chậm với ngay cả cho một ảnh. Khắc phục nhược điểm

của mô hình hai trạng thái, mô hình một trạng thái không sử dụng đề

xuất vùng đối tượng mà chỉ dựa trên một mạng DCNN duy nhất ánh

xạ trực tiếp các điểm ảnh tới tọa độ vùng bao đóng và xác suất phân

lớp được nghiên cứu. Các mô hình tiêu biểu trong nhóm này là

YOLO, SSD đã đạt được thành công về mặt thời gian thực thi trong

việc phát hiện đối tượng, tuy nhiên nhược điểm chỉ dựa vào các đặc

trưng mức cao nên độ chính xác chưa cao.

1.2. Nhận dạng hình dạng của đối tượng

Để nhận dạng hình dạng của đối tượng dựa trên vector đặc

trưng trích chọn trong quá trình dò tìm đối tượng nhiều kỹ thuật lập

chỉ mục cho tập dữ liệu với số chiều lớn đã được nhiên cứu. Các kỹ

thuật hiệu quả gồm: kỹ thuật trên hàm băm, dựa trên phân cụm, dựa

trên phân hoạch không gian, và dựa trên lượng tử hóa tích đề các.

Trong số các kỹ thuật này, phương pháp tìm kiếm dựa trên lượng tử

hóa tích đề các trên tập dữ liệu vector số chiều lớn cho kết quả tối ưu

hơn cả. Vì vậy, kỹ thuật này được luận án nghiên cứu chi tiết, cải

tiến, phát triển cho bài toán đối sánh tìm ra hình dạng đối tượng từ

tập hình dạng cho trước dựa trên vector đặc trưng.

Với kích thước tập dữ liệu đối sánh có thể lên đến hàng triệu

bản ghi và mỗi vector có số chiều lớn (hàng nghìn chiều), thời gian

đối sánh là một vấn đề quan trọng cần phải giải quyết cho các ứng

5

dụng xử lý video cần theo thời gian thực. Để tối ưu hóa thời gian đối

sánh mẫu, tập vector đặc trưng được lập chỉ mục, mã hoá bằng kỹ

thuật PQ nhằm giảm kích thước không gian lưu trữ. Sau đó, các

phương pháp tìm kiếm ANN nhanh trên không gian mã hóa để tìm ra

đối tượng xấp xỉ gần nhất.

1.3. Thay thế, hoàn thiện video

Sau khi đối tượng trong video được phát hiện, vùng hiển thị

của đối tượng cần được trích chọn và loại bỏ khỏi video. Tương tự,

vùng đối tượng được thay thế cũng được trích trọn từ ảnh đích để

chèn vào vùng nguồn vừa bị loại bỏ trong video. Tiến trình hiệu

chỉnh video này sẽ làm xuất hiện các vùng bị phá hủy do sự chồng

lấp không đầy đủ và cần được hoàn thiện trong quá trình hậu xử lý.

Video inpainting là kỹ thuật thích hợp để tái tạo và hoàn thiện các

vùng này. Để đạt được mục tiêu khôi phục ảnh bị phá hủy xấp xỉ ảnh

nguyên bản đã có nhiều nghiên cứu về video inpainting, nhưng chủ

yếu phát triển theo hai hướng tiếp cận: dựa trên lấy mẫu, hoặc dựa

trên CNN.

Với các tiếp cận dựa trên lấy mẫu, phần ảnh bị mất được

khôi phục theo cách gia tăng vùng hoàn thiện từ mép ngoài vào trong

tâm vùng bằng cách tìm kiếm các bản mẫu thích hợp và ghép chúng

với nhau. Nhược điểm lớn nhất là chúng không thể giải quyết trường

hợp các phần bị mất mát không thể được tìm thấy từ dữ liệu.

Các nghiên cứu sử dụng CNN để hoàn thiện vùng trống

thường sử dụng một kiến trúc cơ bản là mạng encoder-decoder có thể

học các đặc trưng ngữ cảnh của ảnh từ đó hoàn thiện ảnh. Ảnh thu

được thường có tính chân thực cao hơn cách tiếp cận lấy mẫu.

6

Kết luận chương 1

Trong chương này, các mô hình dò tìm đối tượng, kỹ thuật

nhận dạng hình thể của đối tượng trong video dựa trên tập dữ liệu

vector đặc trưng, mô hình hoàn thiện vùng bị phá hủy trong video đã

được trình bày tổng quan. Thông qua đánh giá ưu điểm, hạn chế của

các nghiên cứu trước đó, luận án đã xác định được hướng nghiên cứu

phù hợp cho bài toán phát hiện và thay thế đối tượng trong video.

CHƯƠNG 2. PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO

Nội dung của chương tập trung giới thiệu mô hình dò tìm đối

đượng cải tiến theo thời gian thực với độ chính xác cao. Tốc độ dò

tìm (>30 frame mỗi giây) là yếu tố then chốt trong việc lựa chọn mô

hình. Vì vậy, luận án tập trung nghiên cứu cải tiến mô hình YOLO

cho phù hợp với đối tượng quảng cáo nhằm gia tăng độ chính xác

trong khi vẫn duy trì tốc độ theo thời gian thực. Sau đó kỹ thuật

PSVQ cải tiến kết hợp với cây phân cụm thứ bậc để tìm ra đối tượng

có hình dạng tương đồng nhất từ tập đối tượng có sẵn dựa trên tập

vector đặc trưng đã được trích chọn.

2.1. Dò tìm đối tượng trong video

2.1.1. Một số cải tiến trong mô hình YOLO-Adv

2.1.1.1. Cải tiến hàm loss

Để giảm sự ảnh hưởng về kích thước, độ nghiêng của đối

tượng lên mô hình, phương pháp tính toán hàm mất mát thông tin

theo chiều rộng và chiều dài của bounding box được cải tiến. Các độ

đo kích thước tương đối được sử dụng thay thế cho độ đo tuyệt đối

trong hàm loss này của mạng YOLO nguyên bản (thành phần đánh

dấu *). Hàm loss cải tiến được định nghĩa theo công thức sau:

7

= ∑ ∑ ( − ) + ( − )

+ ∑ ∑ ( ) + ( ) (*)

+ ∑ ∑ −

+ ∑ ∑ −

+ ∑ ∑ ( ( ) − ̂ ( ))∈

Cụ thể, trong hàm loss mới, độ đo , và được sử

dụng thay thế cho − và ℎ − ℎ . Tác dụng của cải tiến

này đã làm gia tăng độ chính xác trong dò tìm các bounding box, làm

giảm sự ảnh hưởng khi kích thước, độ nghiêng của đối tượng trong

các frame khi chúng bị thay đổi. Đồng thời cũng làm gia tăng tốc độ

hội tụ trong pha huấn luyện.

2.1.1.2. Cải tiến trong kiến trúc mạng

Với mạng DCNN, các đặc trưng cục bộ xuất hiện trong các

tầng thấp. Để sử dụng các đặc trưng cục bộ này, một chiến lược hợp

nhất đặc trưng đa tầng được sử dụng bên trong kiến trúc mạng

Darknet-53. Với chiến lược này, kết quả bản đồ đặc trưng ảnh qua

khối Residual 8x256 tiếp tục nhân chập với mặt nạ 3x3x256 và

1x1x64, sau đó toán tử ReShape/2 được sử dụng để tái cấu trúc lại

bản đồ đặc trưng với mục đích làm làm cho bản đồ đặc trưng của

tầng này giống với cấu trúc bản đồ đặc trưng các tầng sau. Cuối

cùng, các đặc trưng ở các mức khác nhau được hợp nhất với mục

đích làm giàu các đặc trưng cục bộ.

8

2.1.2. Ước lượng, đánh giá mô hình dò tìm đối tượng cải tiến

2.1.2.1. Dữ liệu kiểm thử và môi trường cài đặt

Để huấn luyện và kiểm thử mô hình YOLO-Adv, bộ dữ liệu

flickrlogos-47 được sử dụng.

Quá trình phát hiện đối tượng trong video được thực nghiệm

trên máy chủ GPU. GPU được sử dụng là Nvidia Tesla K80, bộ nhớ

video 24GB, và điều hành Ubuntu 14 với bộ nhớ trong 64GB.

Hình 2.1. Giá trị hàm loss trung bình huấn luyện

2.1.2.2. Kết quả thực nghiệm

Ước lượng pha huấn luyện

Biểu đồ hình 2.1 biễu diễn đồ thị giá trị hàm loss trung bình

của 3 mô hình YOLO-Adv, YOLO-Loss và YOLOv3 nguyên bản.

Trong đó YOLO-Loss là mô hình chỉ cải tiến hàm loss, YOLO-Adv

là mô hình cải tiến đồng thời hàm loss và kiến trúc mạng. Cả ba mô

hình được huấn luyện trên tập dữ liệu flickrlogos-47. Kết quả cho ta

thấy giá trị hàm loss trung bình của cả 3 mô hình có khuynh hướng

9

giảm nhanh trong 5000 vòng lặp đầu tiên, cuối cùng hướng về sự ổn

định tại giá trị rất nhỏ sau khoảng 15000 vòng lặp. Tuy nhiên, mô

hình YOLO-Adv có độ lỗi trung bình giảm nhanh nhất tại thời điểm

bắt đầu và đạt giá trị nhỏ nhất đầu tiên trong ba mô hình theo sau bởi

hai mô hình YOLO-Loss và YOLOv3. Điều này chứng tỏ hàm loss

và kiến trúc mạng cải tiến làm cho mô hình có tính ổn định cao, ít bị

tác động bởi các kích thước và độ nghiêng của đối tượng quảng cáo,

thích hợp cho tập dữ liệu huấn luyện được chọn.

(a) YOLOv3 (b) YOLO-Loss (c) YOLO-Adv

Hình 2.2. Biểu đồ giá trị IoU huấn luyện

Kết quả so sánh hệ số IoU thể hiện độ chính xác trong việc

định vị các bounding box được minh họa trong hình 2.2. Hệ số IoU

trung bình của cả ba mô hình có khuynh hướng tăng đều và giữ ổn

định trong khoảng [0.7 - 1.0]. Điều này chứng tỏ cả 3 mô hình cho

độ chính xác cao khi xác định vị trí bounding box. Tuy nhiên giá trị

IoU của mô hình YOLO-Adv có khuynh hướng tăng nhanh nhất, tức

là tốc độ huấn luyện nhanh nhất trong ba mô hình trên. Bên cạnh đó

giá trị IoU của YOLO-Adv cũng giữ giá trị ổn định ở mức cao nhất,

đồng nghĩa với độ chính xác trong phát hiện đối tượng là cao nhất.

10

Ước lượng pha kiểm thử

Độ chính xác trong phân lớp của mô hình YOLO-Adv tiếp

theo lần lượt được so sánh với các mô hình YOLOv3 và YOLO-Loss

trên tập dữ liệu huấn luyện Flickrlogos-47 với ngưỡng = 0.5, sử

dụng độ đo ước lượng mAP.

So sánh kết quả dò tìm đối tượng trên độ đo mAP cho thấy

YOLO-Adv cho độ chính xác cao nhất trong phát hiện, với mAP đạt

80.2 (bảng 2.1) so với các mô hình YOLO-Loss, YOLOv3 chỉ đạt

tương ứng là 77.4 và 74.0. Ngoài ra với tốc độ xử lý trung bình đạt

0.028s cho mỗi frame, mô hình YOLO-Logo có thể đạt tốc độ xử lý

theo thời gian thực với khoảng 35 frame xử lý được trong 1 giây.

Bảng 2.1. Hiệu năng thực thi trên tập dữ liệu Flickrlogos-47

Mô hình mAP s/Img YOLOv3 74.0 0.038

YOLO-Loss 77.4 0.032 YOLO-Adv 80.2 0.028

2.2. Nhận dạng hình dạng đối tượng

Nhiệm vụ chính của pha nhận dạng hình dạng đối tượng là

xác định chính xác hình dạng của đối tượng đã tìm thấy trong pha

trước đó. Để thực hiện tác vụ này, luận án đã sử tập dữ liệu rất lớn

vector đặc trưng về hình dạng của đối tượng được trích chọn bằng

mô hình YOLO-Adv. Tập dữ liệu này được lập chỉ mục, mã hoá và

quá trình nhận dạng được thực hiện bằng cách đối sánh vector đặc

trưng của đối tượng truy vấn với các vector trong tập dữ liệu.

11

2.2.1. Mô hình lập chỉ mục PSVQ

Gọi X là tập các vector đặc trưng đã trích chọn được. Ký

hiệu ∈ là một vector hay điểm dữ liệu trong tập dữ liệu X. Ký

hiệu ( ) ∈ ( ) là vector con thứ j của x với j=1,2, … m.

Không gian dữ liệu gốc X trước hết được chia thành m không

gian con phân biệt tách rời nhau, mỗi vector con này có số chiều là

D/m. Để giải quyết vấn đề còn hạn chế về mối tương quan dữ liệu

giữa các không gian con không được xem xét dẫn tới sự dư thừa các

codeword, PSVQ được phát triển dựa trên ý tưởng gộp h không gian

liền kề nhau trong m không gian này. Sau đó áp dụng phép lượng tử

hóa vector cho các không gian gộp này. Cụ thể kết hợp h (1 ≤ ℎ ≤

) không gian liền kề nhau tạo thành _ = /ℎ không gian con và

thực hiện lượng tử hóa riêng biệt trên _ tập con vừa hình thành này

với _ bộ lượng tử thấp. Như vậy, mỗi không gian con lúc này có

_ = ℎ × tâm cụm. Do đó, sẽ có một vài không gian con chia sẻ

cùng một bộ lượng tử. Vì vậy tạo ra các phân rã mịn hơn trên dữ liệu

ban đầu trong khi không làm gia tăng số lượng các codeword (có tất

cả _ × _ = × codeword).

Như vậy với một tập dữ liệu vector đặc trưng X gồm n điểm

trong không gian R(d), bằng cách áp dụng tiến trình lượng tử hóa trên

cho tất cả các điểm dữ liệu trong X dựa trên các codebook { ∗ } thu

được trong quá trình huấn luyện ta thu được tập mã lượng tử Q gồm

n lượng tử cho từng phần tử trong X. Mỗi phần tử trong Q là một

vectơ của kích thước m và có giá trị trong khoảng [0, _K-1]. Tập Q

lúc này có kích thước n x m phần tử nguyên, do vậy không gian nhớ

hơn giảm nhiều lần so với tập dữ liệu số thực X.

12

2.2.2. Tìm kiếm ANN dựa trên cây phân cụm thứ bậc

Quá trình tìm kiếm ANN được thực hiện dựa trên cây phân

cụm thứ bậc hoàn chỉnh kết hợp trên tập dữ liệu mã hoá bằng

phương pháp lượng tử PSVQ bao gồm 2 pha: offline – pha chuẩn bị

dữ liệu, tạo cây tìm kiếm và tìm kiếm online – pha duyệt cây.

Trong pha offline, tập ℒ (kích thước m x _K) là tập codebook

của X được xây dựng theo phương pháp PSVQ. Mỗi mã lượng tử

trong ℒ hình thành từ quá trình lượng tử một điểm dữ liệu ∈ dựa

trên cookbook { ∗}. Tập codebook ℒ được lưu trữ phục vụ cho việc

tra cứu để tính khoảng cách giữa vector truy vấn r và các điểm dữ

liệu trong X. Với (∗)( ) = ủ .

Song song với quá trình hình thành tập dữ liệu tra cứu ℒ, tập

dữ liệu vector đặc trưng ban đầu cũng được dùng để tạo ra một cây

phân cụm thứ bậc hoàn chỉnh nhằm biểu diễn tất cả các điểm dữ liệu

trong không gian ban đầu. Tiến trình tạo cây bắt đầu tạo ra nút gốc

tương ứng với toàn bộ tập dữ liệu. Tiếp theo, giải thuật phân cụm

(Kmeans) được áp dụng để phân cụm dữ liệu trên nút này thành K

cụm con, mỗi một cụm được gọi là một nút trong biểu diễn và được

đại diện bởi tâm cụm (codeword). Tiến trình này được lặp lại đệ quy

cho đến khi lực lượng tại cụm con là đủ nhỏ, được coi là nút lá.

Pha online là quá trình tìm kiếm một vector xấp xỉ trong tập

dữ liệu vector đặc trưng so với vector truy vấn r trong không gian

R(D). Bản chất của quá trình tìm kiếm này là quá trình duyệt cây phân

cụm thứ bậc đã được tạo ra trước. Xuất phát từ nút gốc, nút con mà

có khoảng cách từ r đến là bé nhất được chọn duyệt tiếp theo. Quá

trình duyệt cây được lặp đệ quy đến khi tìm ra nút lá thích hợp nhất.

13

2.2.3. Ước lượng đánh giá

2.2.3.1. Ước lượng, đánh giá kỹ thuật PSVQ

Tập dữ liệu và cấu hình phần cứng

Dữ liệu được sử dụng trong quá trình thực nghiệm gồm các

tập dữ liệu có số chiều lớn là ANN_GIST1M, VGG. Giải thuật được

cài đặt trên môi trường C/C++ và thực nghiệm được tiến hành một

máy tính cấu hình phần cứng chuẩn gồm: RAM 16GB, chip Intel

Core (Dual-Core) i7 2.1 GHz, được cài hệ điều hành Windows 7.

Ước lượng, đánh giá chất lượng mã hóa

Chất lượng mã hóa của PSVQ với các tham số h=2,4,8 được

so sánh với các phương pháp dựa trên cách tiếp cận PQ sử dụng cơ

chế tối ưu hóa các bộ lượng tử là PQ chuẩn và ck-means. Kết quả so

sánh minh họa trong biểu đồ hình 2.3 cho thấy mô hình đề xuất với

h=8 thực thi tốt hơn so với các phương pháp còn lại trên cả hai tập

dữ liệu kiểm thử GIST và VGG. Kết quả này chứng tỏ sự tương quan

của dữ liệu được xem xét tối đa trên tất cả các không gian con.

(a) 1M 960D ANN_GIST (b) 500K 4096D VGG

Hình 2.3. Chất lượng mã hóa PSVQ

14

2.2.3.2 Ước lượng, đánh giá tốc độ tìm kiếm ANN

Để chứng minh tính hiệu quả của thuật toán trong pha tìm

kiếm hình dạng của đối tượng, luận án đã tiến hành một số thực

nghiệm trên các tập dữ liệu chuẩn khác nhau để tìm ra tham số tối ưu

nhất dùng để xây dựng bộ lượng tử. Kết quả nhận được là d=48,

k=256 trên tập ANN_GIST với các vector 960 chiều và d=64, k=128

trên tập VGG gồm các vector 4096 chiều.

Ước lượng giải thuật tìm kiếm

Hiệu năng tìm kiếm của phương pháp đề xuất được so sánh

với nhiều phương pháp khác nhau trong lớp bài toán tìm kiếm ANN

gồm: Randomized KD-trees, Randomized K-medoids, K-means tree,

POC-trees và EPQ. Khi xem xét tốc độ tìm kiếm với độ chính xác

đạt trên 80% trên tập dữ liệu GIST (hình 2.4.a) kết quả hiển thị trên

biểu đồ cho thấy tốc độ tìm kiếm của phương pháp đề xuất trội hơn

so các phương pháp còn lại. Trung bình, phương pháp đề xuất nhanh

hơn khoảng 2 lần so với phương pháp EPQ có tốc độ nhanh thứ 2 và

(a) 1M 960D ANN_GIST (b) 500K 4096D VGG

Hình 2.4. Tốc độ tìm kiếm ANN trên các tập đặc trưng

15

nhanh hơn khoảng 7 lần so với phương pháp tìm kiếm trong thư viện

FLANN (FLANN-RC-8trees). Đặc biệt, với độ chính xác tìm kiếm

trên 90%, phương pháp đề xuất vẫn cho tốc độ tìm kiếm trội hơn so

với các phương pháp khác.

Kết quả tương tự khi thực nghiệm trên tập dữ liệu có số chiều

dữ liệu cực lớn VGG gồm các vector đặc trưng 4096 chiều (hình

2.4.b), tốc độ tìm kiếm của phương pháp đề xuất cho kết quả vượt

trội, nhanh hơn khoảng 1.3 đến 2.0 lần so với kỹ thuật EPQ là kỹ

thuật tốt nhất so trong các kỹ thuật còn lại và gấp nhiều lần so với kỹ

thuật trong thư viện FLANN như flann-kmeans-1tree.

Kết luận chương 2

Trong chương này, vấn đề phát hiện đối tượng trong video

được giải quyết bằng mô hình YOLO-Adv cải tiến và kỹ thuật PSVQ

cải tiến.

Ưu điểm của mô hình YOLO-Adv là duy trì được tốc độ tính

toán đáp ứng theo thời gian thực và độ chính xác cũng được gia tăng,

phù hợp với tập dữ liệu đối tượng quảng cáo.

Kỹ thuật PSVQ cải tiến dùng để lập chỉ mục tập dữ liệu đặc

trưng. Tiến trình nhận dạng hình dạng đối tượng truy vấn được thực

hiện dựa trên cây phân cụm thứ bậc trên tập dữ liệu lập chỉ mục, mã

hoá bằng kỹ thuật PSVQ. Các kết quả thực nghiệm cho thấy sự vượt

trội về hiệu năng thực thi của mô hình đề xuất so với các mô hình

khác trong lĩnh vực tìm kiếm ANN.

16

CHƯƠNG 3. THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO

3.1. Phân vùng theo thực thể đối tượng

Phân vùng đối tượng là tiến trình xác định chính xác vùng

hiển thị của đối tượng trong ảnh. Phân vùng đối tượng thông thường

được chia thành hai loại: phân vùng ngữ nghĩa và phân vùng thực

thể. Phương pháp phân vùng ngữ nghĩa có nhược điểm là khi các thể

hiện của cùng một lớp đối tượng cạnh nhau thì chúng được gộp vào

cùng một vùng. Vì vậy, luận án sử dụng các kỹ thuật phân vùng thực

thể để xác định vùng đối tượng.

3.1.1. Các kỹ thuật phân vùng thực thể

Trước khi mạng CNN ra đời, đã có rất nhiều kỹ thuật phân

vùng ảnh được phát triển và sử dụng rộng rãi. Các giải thuật truyền

thống này có thể kể đến như: phân ngưỡng, phân cụm, histogram, dò

tìm biên. Tuy nhiên do sử dụng các giải thuật cứng nhắc và yêu cầu

có sự can thiệp của người dùng nên rất kém hiệu quả.

Các kỹ thuật phân vùng dựa trên CNN bao gồm hai giai

đoạn: xác định các vùng tiềm năng (RoI) chứa đối tượng, sau đó tiến

hành phân vùng trên các RoI này. Một số kỹ thuật điển hình là FRM,

Mask-RCNN cho độ chính xác cao nhưng tốc độ chưa đạt như mong

muốn. Trong khi đó mô hình YOLACT có tốc độ đáp ứng thời gian

thực nhưng độ chính xác thấp. Tuy nhiên với chỉ 1 hoặc 2 đối tượng

cần được phân vùng thì Mask R-CNN đạt tốc độ chấp nhận được.

Chính vì vậy, nghiên cứu Mask R-CNN sử dụng phân vùng đối

tượng được luận án kế thừa để tìm vùng hiển thị của đối tượng.

17

3.1.2. Mô hình phân vùng thực thể

Luận án kế thừa mô hình phân vùng thực thể được đề xuất

bởi Laradji để đánh dấu, trích chọn vùng hiển thị đối tượng trong

ảnh. Chi tiết mô hình được thể hiện trong hình 3.1. Mô hình này bao

gồm hai phân nhánh: Nhánh phát sinh các mặt nạ đánh dấu vùng đối

tượng (gọi tắt là mặt nạ vùng) và nhánh phân vùng thực thể. Mỗi

phân nhánh này sử dụng một kiến trúc mạng tích chập học sâu khác

nhau cho mỗi nhánh.

Hình 3.1. Mô hình huấn luyện mạng phân vùng ảnh

Nhánh phát sinh mặt nạ vùng

Quá trình phát sinh mặt nạ vùng được thực hiện qua một số

bước, trước hết mô hình PRM được áp dụng để phát sinh các điểm

trọng tâm vùng là các phần nổi bật của các thực thể. Với phương

pháp PRM, FCN đưa ra một bản đồ kích hoạt lớp (CAM) xác định

định hệ số tin cậy phân lớp tại mỗi vị trí trong ảnh, sau đó được phân

lớp dựa trên CAM, kết quả thu được chuyển qua lớp kích hoạt cực

đại (PSL) cho kết quả là tọa độ các vị trí trọng tâm của đối tượng.

Dựa vào vị trí này, các mặt nạ vùng được tạo ra.

PSL

Loss

FCN

Mask R-CNN

Bản đồ kích hoạt Cực trị cục bộ

Mạt nạ vùng Kết qủa dự đoán

18

Nhánh phân vùng thực thể

Trong nhánh phân vùng thực thể, mạng Mask R-CNN được

sử dụng. Quá trình huấn luyện là tiến trình huấn luyện tham số dựa

trên tập ảnh huấn luyện và mặt nạ vùng sinh ra từ nhánh tạo mặt nạ

vùng để tối thiểu hàm lỗi:

ℒ( , , ) = ℒ + ℒ

3.1.3. Kết quả thực nghiệm bằng mô hình phân vùng thực thể

Phương pháp luận án sử dụng được so sánh với một số

phương pháp phân vùng phổ biến khác dựa trên mạng huấn luyện

đầy đủ sử dụng độ đo chính xác trung bình mAP. So với Mask R-

CNN phương pháp đề xuất có hiệu năng thực thi tốt hơn theo hai

cách tạo mặt nạ dùng trong huấn luyện, một là sử dụng ở mức

bounding box và một là ở mức ảnh để tạo ra các nhãn trong ảnh huấn

luyện (bảng 3.1).

Bảng 3.1. So sánh kết quả của mô hình sử dụng với các phương pháp

khác theo các phương pháp sinh mặt nạ huấn luyện

Mặt nạ huấn luyện mAP Mask R-CNN Mức điểm ảnh 51.4 DeepMask Mức điểm ảnh 41.7 PRM Mức ảnh 26.8 DeepMask Mức hộp bao 8.1 Mô hình sử dụng Mức ảnh 41.7

Hình 3.4 thể hiện hiệu năng thực thi của mô hình được luận

án lựa chọn dùng để phân đoạn với kích thước các đối tượng khác

nhau và với số lượng đối tượng khác nhau. Kết quả cho thấy độ

chính xác của mô hình Mask R-CNN huấn luyện trên mặt nạ sinh ra

dựa trên mức điểm ảnh cao hơn một chút so với mô hình kế thừa.

19

Với bài toán mà đối tượng cần khoanh vùng chỉ là một thì độ chính

xác đạt được cũng tương đối cao, mAP đạt trên 65.

Hình 3.4. Phân tích hiệu năng thực thi phân lớp trên tập dữ liệu

PASCAL VOC 2012

3.2. Mô hình hoàn thiện video

3.2.1. Kiến trúc mô hình V-RBPconv

Mô hình cải tiến V-RBPconv (Hình 3.5) được sử dụng để

hoàn thiện, tái tạo vùng bị mất mát thông tin bao gồm bộ sinh ảnh và

bộ phân biệt ảnh. Bộ sinh ảnh sử dụng kiến trúc RBPconv tận dụng

tối đa các thông tin từ các frame lân cận để xử lý các các vùng bị phá

huỷ với hình dạng bất kỳ và kích thước không quá lớn. Bộ phân biệt

ảnh tái tạo và ảnh gốc theo thời gian Temporal PatchGAN tập trung

vào việc phát hiện các đặc trưng khác biệt về mặt không gian, thời

gian để hiệu chỉnh và nâng cao chất lượng video đầu ra.

Hình 3.5. Kiến trúc mô hình video inpainting V-RBPconv

Loss

Input

Mặt nạ

Output video

Ground truth

(a) (b)

20

3.2.2. Mô hình kiến trúc mạng RBPconv

Mô hình đề xuất cho bộ sinh ảnh G để tạo ra video

inpainting thô dựa trên kiến trúc mạng RBPconv với nền tảng là mô

hình kiến trúc U-net cải tiến chi tiết được minh họa trong hình 3.6.

Trong mô hình này mỗi tầng nhân chập nguyên bản trong U-net

được thay thế là một khối residual cải tiến. Trong cải tiến này mỗi

tầng nhân chập con được theo sau bởi chuẩn hóa batch và hàm kích

hoạt. Hàm kích hoạt ReLU được sử dụng cho các tầng encoder và

LeakyReLU với alpha=0.2 được sử dụng trong các tầng decoder.

Bên cạnh đó, tất cả các tầng nhân chập được thay thế bằng nhân chập

từng phần. Zero padding với kích thước 1 được sử dụng để làm cho

tất cả các bản đồ đặc trưng có cùng kích thước.

Hình 3.6. Kiến trúc mô hình RBPconv

3.2.3. Hàm loss

Hàm loss dùng để huấn luyện mô hình được định nghĩa:

= ℒ + ℒ + ℒ + ℒ

Trong đó ℒ là hàm loss cấu trúc, ℒ là hàm loss trực

quan, ℒ là hàm loss hình dáng, ℒ là hàm loss đo sự khác biệt

giữa ảnh thực và ảnh tái tạo.

21

3.2.4. Ước lượng, đánh giá mô hình hoàn thiện video

Thiết lập môi trường thực nghiệm

Tập mặt nạ huấn luyện. Các mặt nạ huấn luyện được chia

vào 3 nhóm gồm: mặt nạ hình điểm, mặt nạ dạng hình chữ nhật, mặt

nạ hình đường vẽ. Tuy nhiên do phạm vi, đặc trưng của bài toán

nghiên cứu nhóm mặt nạ hình chữ nhật không được dùng để kiểm

thử mà tập trung vào nhóm hình điểm và hình đường vẽ, đặc biệt là

nhóm mặt nạ hình đường vẽ bất kỳ được kiểm nghiệm nhiều nhất do

phù hợp nhất với bài toán thay thế logo trong video.

Tập dữ liệu kiểm thử. Luận án sử dụng 2 bộ dữ liệu thực

nghiệm. Bộ dữ liệu Places2 dùng để so sánh kết quả thực nghiệm của

mô hình RBPConv với các kết quả thực nghiệm của các nghiên cứu

gần nhất. Để so sánh kết quả thực nghiệm của mô hình V-RBPconv,

tập dữ liệu FVI (Free-form video inpainting) được lựa chọn.

Môi trường thực nghiệm. Tiến trình huấn luyện được thực

hiện trên máy chủ Nvidia Tesla V100 GPU (16GB). Mô hình đề xuất

được tối ưu hóa sử dụng giải thuật Adam với tỷ lệ học là 0.0002,

kích thước mỗi batch là 16.

Các kết quả so sánh định lượng

Chất lượng hình ảnh thu được sau khi inpainting có thể được

đánh giá định lượng thông qua các chỉ số đo. Để so sánh định lượng

mô hình inpainting ảnh đề xuất RBPConv với các mô hình khác cho

lớp bài toán inpainting ảnh, luận án sử dụng các độ đo chất lượng

ảnh SSIM và PSNR.

Mô hình RBPConv được so sánh định lượng dựa trên các chỉ

số đo PSNR và SSIM với các mô hình inpainting ảnh được phát triển

22

trước đó gồm CA(Contextual Attention), PConv (Partial Convolution

Unet) và EC (EdgeConnect). Các giá trị cụ thể được thể hiện trong

bảng 3.2 với PSNR của mô hình đề xuất đạt ở ngưỡng 25.29 cho

thấy ảnh được tái tạo có tính chân thực cao. Cả hai chỉ số đo cho thấy

mô hình RBPcov cho chất lượng cao hơn các phương pháp khác.

Bảng 3.2. Kết quả định tính trên tập dữ liệu Places2 của các mô hình:

CA, PConv and EC, và RBPConv

CA PConv* EC RBPConv

PSNR 21.34 24.54 24.65 25.29

SSIM 0.806 0.775 0.857 0.868

Để ước lượng chất lượng video tái tạo trên phương diện nhất

quán về thời gian, độ đo và Frechet Inception Distance (FID) được

sử dụng. Các mô hình thử nghiệm trên tập kiểm thử FVI với mặt nạ

có kích thước không quá lớn tối đa 50% so với đối tượng. Kết quả

thể hiện trên bảng 3.3 cho thấy chỉ số FID cho cả hai loại mặt nạ

hình đường kẻ và hình điểm đều thấp nhất so với các mô hình còn

lại, thậm chí chỉ bằng một nữa so với kỹ thuật EC. Chứng tỏ mô hình

đề xuất duy trì tốt tính kết cấu về thời gian, video tái tạo có tính chân

thực cao gần với video gốc.

Bảng 3.3. Kết quả định tính trên tập dữ liệu FVI với các mô hình:

EC, CombCN, 3Dgated và V- RBPConv

Dạng mặt

nạ

EC CombCN 3DGated V-RBPConv

FID Đường vẽ 1.033 0.766 0.609 0.598

Điểm 1.083 1.091 0.905 0.886

23

Tóm tắt chương 3

Trong chương này, mô hình phân vùng thực thể đối tượng

dùng cho bước trích chọn và đánh dấu đối tượng dựa trên mạng

Mask R-CNN đã được trình bày. Mặc dù độ chính xác và thời gian

phân vùng đã đáp ứng được kỳ vọng nhưng vẫn còn thấp hơn so với

mạng phân vùng Mask R-CNN. Tuy nhiên, với ưu điểm tiết kiệm về

chi phí và thời gian rất nhiều để tạo ra tập dữ liệu mặt nạ vùng huấn

luyện nên giải thuật vẫn được luận án kế thừa sử dụng. Tiếp theo mô

hình V-RBPconv dựa trên mô hình inpainting ảnh cải tiến RBPconv

đã được sử dụng cho bài toán hoàn thiện vùng trống sinh ra sau khi

loại bỏ hay thay thế đối tượng trong video. Các thực nghiệm đã

chứng minh mức độ hiệu quả của mô hình cải tiến so với các mô

hình khác trong lĩnh vực inpainting.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Luận án đã trình bày các mô hình cải tiến áp dụng cho bài

toán thay thế đối tượng trong video. Luận án đã đạt được một số kết

quả nhất định, cụ thể như sau:

- Cải tiến hiệu năng thực thi mô hình dò tìm đối tượng trong

video dựa trên mạng YOLO. Mô hình đề xuất có tính tổng quát, độ

chính xác cao, ảnh đầu vào không cần qua bước tiền xử lý, đáp ứng

thời gian thực khi áp dụng cho video.

- Cải tiến độ chính xác, gia tăng tốc độ thực thi cho kỹ thuật

nhận dạng hình dạng của đối tượng dựa trên phương pháp lập chỉ

mục vector đặc trưng. Tập dữ liệu các hình dạng của đối tượng được

trích trọn đặc trưng, lập chỉ mục bằng kỹ thuật PSVQ cải tiến. Quá

trình tìm kiếm ANN dựa trên cây phân cụm thứ bậc được sử dụng

24

trên tập dữ liệu chỉ mục, mã hoá bằng PSVQ để tìm ra hình dạng

tương đồng nhất với đối tượng truy vấn.

- Mô hình video inpainting cải tiến cho tốc độ và độ chính

cao, bảo toàn tính kết cấu về không gian và thời gian khi hoàn thiện,

tái tạo video sau hiệu chỉnh với vùng tái tạo có hình dạng bất kỳ và

kích thước không quá lớn.

Tuy nhiên, luận án còn một số hạn chế:

- Chưa xây dựng được bộ dữ liệu đặc trưng xuyên xuốt cho

bài toán phát hiện và hoàn thiện video

- Vấn đề ảnh hưởng của các yếu tố liên quan đến cấu thành

video để phân đoạn video, trích chọn frame và tính nhất quán về thời

gian trong nhận dạng hình dạng của đối tượng chưa được xem xét;

- Chưa đề xuất được mô hình đầu cuối cho bài toán phát hiện

và thay thế đối tượng trong video.

Từ những hạn chế trên, hướng nghiên cứu tiếp theo của luận án là:

(1) Phát triển bộ dữ liệu ảnh, video huấn luyện cho các pha

dò tìm, nhận dạng, và phân vùng đối tượng.

(2) Nghiên cứu sự tác động của các yếu tố cấu thành video,

định dạng video đến quá trình thay thế và hoàn thiện video.

(3) Nghiên cứu mô hình DCNN đầu cuối để có thể đồng thời

phát hiện, nhận dạng và phân vùng các đối tượng trong video.

25

26

DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ

[CT1] Lê Đình Nghiệp, Phạm Việt Bình, Đỗ Năng Toàn,

Phạm Thu Hà, Trần Văn Huy (2019), “Cải tiến kiên trúc mạng Yolo

cho bài toán nhận dạng logo” TNU Journal of Science and

Technology, vol. 200, no. 07, pp. 199-205.

[CT2] The-Anh Pham, Van-Hao Le, Dinh-Nghiep Le

(2018), “A review of feature indexing methods for fast approximate

nearest neighbor search” 5th NAFOSTED Conference on

Information and Computer Science (NICS), pp. 372 – 377.

[CT3] Van-Hao Le, The-Anh Pham, Dinh-Nghiep Le (2019),

“Hierarchical product quantization for effective feature indexing”

ICT, 26th International Conference on Telecommunications, pp. 386

– 390.

[CT4] The-Anh Pham, Dinh-Nghiep Le, Thi-Lan-Phuong

Nguyen (2019), “Product sub-vector quatization for feature

indexing” Jounal of Computer Science and Cybernetics, vol. 35,

no. 11, pp. 69-83.

[CT5] Lê Đình Nghiệp, Phạm Việt Bình, Đỗ Năng Toàn,

Hoàng Văn Thi (2019), “Hoàn thiện các vùng phá hủy hình dạng bất

kỳ trong ảnh sử dụng kiến trúc mạng thặng dư và nhân chập từng

phần” TNU Journal of Science and Technology, vol.208, no.15,

pp.19-26.

[CT6] Dinh-Nghiep Le, Van-Thi Hoang, Van-Hao Le, The-

Anh Pham (2020), “A study on parameter tuning for optimal

indexing on large scale datasets” Journal of Science and Technology

on Information and Communications.

tom tat luan an tieng viet 8 2020 - ictu.edu.vn

Documents