1 ỨNG DỤNG CÔNG NGHỆ TRI THỨC TRONG TÍCH HỢP DỮ LIỆU ĐÔ THỊ VÀ XÂY DỰNG THÀNH PHỐ THÔNG MINH Phòng Thông tin Xây dựng Trung tâm Thông tin và Dịch vụ xây dựng Sở Xây dựng TP. Hồ Chí Minh I. TÍCH HỢP DỮ LIỆU VÀ CÔNG NGHỆ TRI THỨC 1. Tích hợp dữ liệu Các nghiên cứu về công nghệ tích hợp dữ liệu bắt đầu từ giữa những năm 1980s và đã tồn tại suốt hơn 20 năm nay. Lúc đầu là việc tích hợp nhiều cơ sở dữ liệu (multi- databases), và hiện nay đã phát triển thành việc tích hợp dữ liệu dị biệt (heterogeneous data integration). Tính dị biệt của dữ liệu có thể chia thành bốn nhóm chính, đó là sự khác nhau về các mặt: hệ thống, cú pháp, cấu trúc và ngữ nghĩa (system, syntax, structure and semantic). Phạm vi và vai trò của việc tích hợp dữ liệu theo đà phát triển của CNTT sau này đã được mở rộng về nhiều mặt. Nhưng cho đến nay, ba trong bốn vấn đề này đã được giải quyết bởi những công nghệ đa ngành như: CORBA, DCOM, XML, GML… ngoại trừ về vấn đề ngữ nghĩa vẫn còn đang được tiếp tục hoàn thiện bởi công nghệ tri thức. 2. Hiện trạng dữ liệu đô thị Ngày nay, việc tổng hợp dữ liệu giữa các ngành của đô thị rất khó khăn, do được lưu ở những nơi khác nhau và quy mô dữ liệu hình thành ngày càng tăng tốc độ cấp số nhân. Dữ liệu đô thị thường khác nhau về quy mô, tốc độ, chất lượng, định dạng và quan trọng nhất là khác biệt về mặt ngữ nghĩa và thường áp dụng các mô hình và lược đồ dữ liệu (data model and schema) khác nhau để mô tả chúng khi thiết kế. Dữ liệu đô thị thường ở dạng tĩnh hay bán tĩnh như: quản lý nhân khẩu, thống kê dân số, phân bố tuổi tác, giới tính, thu nhập bình quân, diện tích sử dụng đất… Ngoài những dữ liệu tĩnh, còn có ngày càng nhiều luồng dữ liệu động xuất phát từ các nguồn như: các hệ thống cảm biến, camera, dòng xe cộ lưu thông, tình hình thời tiết và những thông số về điều kiện môi trường… Ngày nay, nền tảng của một đô thị kỹ thuật số bao gồm nhiều loại công nghệ thông tin khác nhau như: CAD, GIS, VR, Web, RS (remote sensing), công nghệ tri thức…. Hơn nữa, dữ liệu đô thị càng phức tạp do có thể khác nhau rất nhiều về: cấp chính xác, mức độ chi tiết, độ phân giải, tần suất xảy ra, dữ liệu tri thức theo không gian- thời gian (spatio-temporal knowledge)... Ngoài ra, do sự phức tạp và khác nhau giữa các kho dữ liệu nên trong quá trình quản lý và ra quyết định, các ngành thường tiếp cận một cách riêng lẻ, thao tác trên
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
ỨNG DỤNG CÔNG NGHỆ TRI THỨC
TRONG TÍCH HỢP DỮ LIỆU ĐÔ THỊ
VÀ XÂY DỰNG THÀNH PHỐ THÔNG MINH
Phòng Thông tin Xây dựng
Trung tâm Thông tin và Dịch vụ xây dựng
Sở Xây dựng TP. Hồ Chí Minh
I. TÍCH HỢP DỮ LIỆU VÀ CÔNG NGHỆ TRI THỨC
1. Tích hợp dữ liệu
Các nghiên cứu về công nghệ tích hợp dữ liệu bắt đầu từ giữa những năm 1980s
và đã tồn tại suốt hơn 20 năm nay. Lúc đầu là việc tích hợp nhiều cơ sở dữ liệu (multi-
databases), và hiện nay đã phát triển thành việc tích hợp dữ liệu dị biệt (heterogeneous
data integration). Tính dị biệt của dữ liệu có thể chia thành bốn nhóm chính, đó là sự
khác nhau về các mặt: hệ thống, cú pháp, cấu trúc và ngữ nghĩa (system, syntax,
structure and semantic).
Phạm vi và vai trò của việc tích hợp dữ liệu theo đà phát triển của CNTT sau này
đã được mở rộng về nhiều mặt. Nhưng cho đến nay, ba trong bốn vấn đề này đã được
giải quyết bởi những công nghệ đa ngành như: CORBA, DCOM, XML, GML… ngoại
trừ về vấn đề ngữ nghĩa vẫn còn đang được tiếp tục hoàn thiện bởi công nghệ tri thức.
2. Hiện trạng dữ liệu đô thị
Ngày nay, việc tổng hợp dữ liệu giữa các ngành của đô thị rất khó khăn, do được
lưu ở những nơi khác nhau và quy mô dữ liệu hình thành ngày càng tăng tốc độ cấp số
nhân. Dữ liệu đô thị thường khác nhau về quy mô, tốc độ, chất lượng, định dạng và
quan trọng nhất là khác biệt về mặt ngữ nghĩa và thường áp dụng các mô hình và lược
đồ dữ liệu (data model and schema) khác nhau để mô tả chúng khi thiết kế.
Dữ liệu đô thị thường ở dạng tĩnh hay bán tĩnh như: quản lý nhân khẩu, thống kê
dân số, phân bố tuổi tác, giới tính, thu nhập bình quân, diện tích sử dụng đất… Ngoài
những dữ liệu tĩnh, còn có ngày càng nhiều luồng dữ liệu động xuất phát từ các nguồn
như: các hệ thống cảm biến, camera, dòng xe cộ lưu thông, tình hình thời tiết và những
thông số về điều kiện môi trường…
Ngày nay, nền tảng của một đô thị kỹ thuật số bao gồm nhiều loại công nghệ
thông tin khác nhau như: CAD, GIS, VR, Web, RS (remote sensing), công nghệ tri
thức…. Hơn nữa, dữ liệu đô thị càng phức tạp do có thể khác nhau rất nhiều về: cấp
chính xác, mức độ chi tiết, độ phân giải, tần suất xảy ra, dữ liệu tri thức theo không
gian- thời gian (spatio-temporal knowledge)...
Ngoài ra, do sự phức tạp và khác nhau giữa các kho dữ liệu nên trong quá trình
quản lý và ra quyết định, các ngành thường tiếp cận một cách riêng lẻ, thao tác trên
2
những tập dữ liệu nội bộ để những giải quyết vấn đề trước mắt và phục vụ cho mục đính
của riêng ngành mình. Hầu hết sự kết nối thông tin giữa các bộ phận của đô thị hiện nay
thực hiện thủ công nên tốn nhiều thời gian, công sức.
Tình trạng này dẫn đến nhu cầu cần phải có giải pháp khung cho phép liên thông
để trao đổi và sử dụng chung dữ liệu, bằng cách khai thác một cách có hệ thống tiềm
năng tổng hợp của nhiều nguồn dữ liệu khác nhau của đô thị. Cách tiếp cận như vậy là
đặc biệt quan trọng khi xây dựng thành phố thông minh.
3. Công nghệ tri thức và tích hợp dữ liệu
a. Công cụ tri thức ontology
Khái niệm ontology (bản thể) ban đầu xuất phát từ triết học, nó thể hiện bản chất,
tinh chất của sự vật. Có nhiều định nghĩa về khái niệm ontology theo cách tiếp cận trong
các lĩnh vực như: triết học, ngôn ngữ học, trí thông minh nhân tạo, truy xuất thông
tin…Ở đây ta chọn định nghĩa trong lĩnh vực trí thông minh nhân tạo do Gruber đề xuất
năm 1993: Ontology là “những đặc điểm của khái niệm, được sử dụng để giúp các
chương trình máy tính và con người chia sẻ tri thức” [6].
Theo Studer, ontology là sự mô tả cụ thể, chính tắc và có tính pháp lý để chia sẻ
mô hình nhận thức (“specific, formal and canonical explanation for sharing conceptual
model” [7]). Ontology là mô tả chuẩn tắc và rõ ràng về một khái niệm. Vì vậy, áp dụng
công nghệ này có thể giải quyết tận gốc vấn đề còn tồn tại lâu nay là việc hiểu khác
nhau về ngữ nghĩa khi trao đổi thông tin, dữ liệu và có thể giúp hiện thực hóa việc tích
hợp dữ liệu ở cấp cao nhất ở bước thiết kế tổng thể.
b. Ứng dụng công ontology trong tích hợp dữ liệu
Các hệ thống tích hợp dữ liệu thời gian đầu chủ yếu áp dụng mô hình dữ liệu
quan hệ (relational data model) hoặc mô hình hướng đối tượng (object-oriented data
model) như là mô hình dữ liệu chung trước khi xuất hiện ngôn ngữ đánh dấu mở rộng
XML (Extensible Markup Language).
Mô hình quan hệ thích hợp và thành công cho những chương trình ứng dụng giải
quyết dữ liệu có cấu trúc đơn giản (lý lịch cá nhân, tài khoản ngân hàng…) và không
thể áp dụng đối với dữ liệu có cấu trúc phức tạp (dữ liệu GIS, đa phương tiện…). Đối
với những dữ liệu phức tạp thì mô hình hướng đối tượng hiệu quả hơn do gần gủi với
các khái niệm tự nhiên của con người và đã được ứng dụng rộng rãi trong các lĩnh vực
phức tạp như: dữ liệu không gian, trí thông minh nhân tạo, công nghệ phần mềm, tương
tác giữa người và máy… Tuy nhiên, do còn hạn chế về mặt ngữ nghĩa liên quan đến
công nghệ tri thức, nên mô hình hướng đối tượng thường cắt gọt bớt và chỉ giới hạn một
số thông tin cần thiết để giải quyết những vấn đề nhất định và tỏ ra không hiệu quả cho
việc mô hình hóa những cấu trúc phức tạp.
Ngoài ra, sự xuất hiện của ngôn ngữ XML, do không phụ thuộc vào bất kỳ hệ
điều hành nào, đã giúp cho dữ liệu khác nhau từ nhiều nguồn có thể được kết hợp, trao
đổi và chia sẻ và tạo cơ hội cho việc tích hợp dữ liệu bị biệt. Qua phân tích các hệ thống
tích hợp dữ liệu khác nhau sử dụng công nghệ ngôn ngữ XML, tất cả các hệ thống này
3
có thể giải quyết hiệu quả các sự khác biệt về mặt cú pháp (syntax), ngoại trừ sự dị biệt
về mặt ngữ giữa các nguồn dữ liệu khác nhau.
Trong khi đó, công cụ ontology dựa trên công nghệ tri thức, thường bao hàm
toàn bộ tri thức trong phạm vi miền (domain) nghiên cứu và nhấn mạnh đến sự toàn
vẹn của tri thức. Sự phát triển của công nghệ tri thức theo thời gian, mô hình dữ liệu
theo công nghệ ontology là một quá trình phát triển không ngừng. Đối với các loại dữ
liệu đô thị thời đại kỹ thuật số vô cùng phức tạp như đã đề cập ở phần I, thì với mô hình
dữ liệu theo công nghệ tri thức ontology mới có thể đảm bảo xây dựng mô hình đô thị
một cách trung thực và toàn vẹn dữ liệu nhất.
Mô hình ontology có quan hệ gần với mô hình hướng đối tượng, tuy nhiên hai
mô hình có bản chất khác nhau. Mô hình hướng đối tượng sử dụng ngông ngữ UML và
mô hình ontology sử dụng ngôn ngữ OWL (Web Ontology Langague). Mô hình hướng
đối tượng ở giai phát triển hệ thống phần mềm, còn mô hình ontology ở giai đoạn thiết
kế khái niệm tổng thể. Thông qua định nghĩa ontology, ta có thể mô tả một cách tường
minh, chính tắc các dung sai và hệ thống những điều không thể của thực thể và mối
quan hệ của chúng. Điều đó cung cấp phương pháp khả dĩ cho việc tích hợp về mặt ngữ
nghĩa.
Do đó, sử dụng công nghệ ontology để nghiên cứu về tích hợp dữ liệu có thể
giúp giải quyết tận gốc bài toán về sự dị biệt ngữ nghĩa và có thể thực hiện tích hợp
thông tin từ cấp cao nhất là thiết kế tổng thể. Phương pháp này cải thiện đáng kể hiệu
quả tích hợp dữ liệu và mở rộng quy mô chia sẻ dữ liệu. Xét trên quan điểm này, công
nghệ tri thức ontology có những ưu điểm mà những công nghệ khác không có [3].
II. MỘT SỐ ỨNG DỤNG THỰC TẾ Ở CÁC NƯỚC
1. Dự án thí điểm ứng dụng công nghệ tri thức trong quản lý đô thị ở Pháp
Năm 2002, dự án Towntology được khởi động qua sự hợp tác giữa hai phòng thí
nghiệm ở INSA – Lyon, gồm LIRIS chuyên về CNTT và EDU chuyên về quy hoạch
đô thị. Phòng thí nghiệm EDU phụ trách triển khai phát triển ontology, trong khi LIRIS
chịu trách nhiệm định nghĩa các cấu trúc dữ liệu và thiết kế các module phần mềm ứng
dụng. Dự án triển khai thí điểm 3 phần mềm ứng dụng công nghệ tri thức ontology trong
lĩnh vực quản lý đô thị, cụ thể về: quản lý lòng lề đường, quản lý giao thông đô thị và
quản lý chỉnh trang đô thị.
Với mục đích triển khai thí điểm để tham khảo và đúc kết kinh nghiệm, ba nghiên
cứu này được chọn sao cho công tác mô hình hóa dữ liệu từ đơn giản đến phức tạp. Ở
trường hợp thứ nhất khá đơn giản; trường hợp thứ hai phức tạp hơn, do các mối quan
hệ bị “mờ” (fuzzy) vì việc hiểu thế nào phụ thuộc vào ngữ cảnh; và ở trường hợp thứ
ba phức tạp nhất, do có sự xuất hiện của các yếu tố xã hội trong công tác chỉnh trang đô
thị.
Sơ đồ mô hình hóa các mối quan hệ giữa các đối tượng ở nghiên cứu thứ ba được
trình bày ở Hình 1 dưới đây. Chi tiết về dự án có thể tham khảo tại [4] và [5].
4
Hình 1. Sơ đồ mô hình dữ liệu công tác chỉnh trang đô thị
2. Ứng dụng công nghệ tri thức để tích hợp dữ liệu đô thị phục vụ ra quyết
định quản lý.
a. Phần mềm ứng dụng SocialGlass.
Ứng dụng được xây dựng hoạt động trên môi trường web, áp dụng công nghệ tri
thức ontology, gồm có ba module chính:
- Bộ mô tả dữ liệu ứng dụng công nghệ tri thức ontology (OSMoSys-OntoPolis
Symantic Modeling System).
- Trình duyệt web ứng dụng công nghệ tri thức ontology (OSMoSys Browser).
- Công cụ biểu đồ công nghệ tri thức.
Ứng dụng này rất mạnh, với nhiều tính năng có thể tích hợp tất cả các loại dữ
liệu đô thị trên môi trường web, kể cả các loại dữ liệu từ các mạng xã hội nên có thể
tiếp nhận, thể hiện, xử lý và phân tích hầu như tức thời (real-time) các hệ thống dữ liệu
đô thị có quy mô lớn nhằm phục vụ kịp thời cho việc ra quyết định của lãnh đạo; điều
này đặc biệt có ý nghĩa khi tổ chức những sự kiện lớn. Chi tiết về ứng dụng này có thể
tham khảo tại [1] và [2].
b. Một số minh họa về tích hợp, xử lý dữ liệu đô thị phục vụ ra quyết định sử
dụng ứng dụng SocialGlass.
(1) Bản đồ thể hiện những cụm điểm động (dinamic point clusters) và hình mẫu
lộ trình (path patterns) từ dữ liệu mạng Twitter giúp đánh giá sự tập trung và hoạt động
của du khách nước ngoài tại những địa điểm nhất định và theo thời gian ở thành phố
Rotterdam (Hình 2).
5
Hình 2. Bản đồ phân tích hoạt động của du khách nước ngoài
dựa trên dữ liệu Twitter ở thành phố Rotterdam.
(2) Bản đồ dạng gradient nhiệt (heat maps) thể hiện dữ liệu mạng xã hội Twitter giúp
đánh giá mật độ tập trung người trong sự kiện Amsterdam Light Festival từ 9pm đến 12am.
Thanh trượt theo thời gian có thể giúp phân tích dữ liệu tức thời hay vừa xảy ra (Hình 3).
Hình 3. Bản đồ phân tích mật độ trung đông người tại sự kiện
Amsterdam Light Festival từ 9 am đến 12pm.
6
(3) Bản đồ tích hợp dữ liệu mạng xã hội Instagram cho phép tùy chọn phân tích
dữ liệu theo nhiều tiêu chí khác nhau (giới tính, phân bố tuổi, tỷ lệ tội phạm…) tại các
quận của thành phố Amsterdam (trường học, điểm tổ chức sự kiện; khu vực giải trí,
mua sắm…) (Hình 4).
Hình 4. Bản đồ thể hiện những địa điểm tập trung đông người và mật độ
hoạt động tương ứng ở các quận thuộc thành phố Amsterdam.
TÀI LIỆU THAM KHẢO
[1] Ontology-Based Data Integration from Heterogeneous Urban Systems: A Knowledge
Representation Framework for Smart Cities.
A. Psyllidis Chair of Hyperbody – Digitally-driven Architecture, Department of Architectural
Engineering & Technology. Faculty of Architecture and the Built Environment, Delft
University of Technology (TU Delft), 2628 BL, Delft, The Netherlands.
[2] A Platform for Urban Analytics and Semantic Data Integration in City Planning.
Achilleas Psyllidis, Alessandro Bozzon, Stefano Bocconi, and Christiaan Titos Bolivar
Delft University of Technology, Delft, The Netherlands.
[3] The study of Integration of Multi-Sources Heterogeneous Data Based On The Ontology.
Luo Jing, Dang An-rong, Mao Qi-zhi - School of Architecture, Tsinghua University,Beijing.
[4] Urban Ontologies: The Towntology Prototype towards Case Studies. Chatal Berdier and
Catherine Roussey – EDU laboratory, INSA Lyon.
[5] Workshop on Urban Ontologies – Robert Laurirni, INSA, Lyon.
7
[6]. Thomas R. Gruber. A translation approach to portable ontology specifications. Knowledge
Acquisition, 5(2):199–220, 1993.
[7] Rudi Studer, V. Richard Benjamins, and Dieter Fensel. Knowledge engineering: Principles
and methods. Data & Knowledge Engineering, 25(1-2):161–197, 1998.
[8] Object-Oriented Modelling for GIS
Max J. Egenhofer – National Center for Gegraphic Information and Analysis, Department of
Surveying Engineering, University of Maine.
Andrew U. Frank - Department of Geo-Informatin, Technical University, Vienne, Austria.
[9] Modeling Spatial and Temporal Semantics in a Large Heterogeneous GIS Database
Environment - Sudha Ram Jinsoo Park Department of Management Information Systems
College of Business and Public Administration 430 McClelland Hall University of Arizona
Tucson, Problems with Current GIS Data Management.
[10] Framework for Semantic GIS Interoperability - Leonid Stoimenov, Slobodanka