Submitted by admin on Thu, 10/31/2019 - 09:31

Dữ liệu được so sánh như là “dầu lửa” trong nền kinh tế của thời kì cách mạng công nghiệp lần thứ 4 (CMCN 4.0). Lượng dữ liệu sinh ra ngày càng lớn, đa dạng về chủng loại và có tốc độ tăng trưởng rất nhanh. Xây dựng hệ sinh thái dữ liệu mở là một hướng đi tất yếu và hiệu quả để có thể chuyển hóa dữ liệu lớn thành tri thức của xã hội và mang lại giá trị cho nền kinh tế. Để hình thành nên một hệ sinh thái cần phải quan tâm đầy đủ tới các yếu tố về tính pháp lí, mạng lưới tổ chức, mô hình kinh doanh và tiêu chuẩn kĩ thuật.

Dữ liệu trong thời kì CMCN 4.0

Thông tin, dữ liệu đã luôn có vai trò ảnh hưởng quan trọng đối với nền kinh tế công nghiệp. Tuy nhiên khi đến thời đại CMCN 4.0 thì nó chiếm giữ ở vị trí số 1 và trở thành động lực chính tạo ra giá trị gia tăng cho xã hội. Trước đây dữ liệu chỉ được sinh ra bởi con người với các phương tiện thô sơ thủ công, thì nay dữ liệu có thể được thu thập một cách tự động từ các thiết bị cảm biến thông qua nền tảng công nghệ IoT. Dự tính đến 2023 trên thế giới sẽ có khoảng 50 tỷ thiết bị IoT (nguồn statista.com). Chúng cung cấp ra một khối lượng dữ liệu khổng lồ về hình ảnh, âm thanh, các số liệu đo đạc được thu thập từ hiện trường. Ngoài ra công nghệ cũng cho phép con người thực hiện ghi chép và tạo ra dữ liệu ở mọi lúc, mọi nơi và được ghi lưu lại một cách dễ dàng và nhanh chóng. Ngày nay trên các mạng xã hội lớn như Facebook, Twitter cứ sau mỗi phút thì một khối lượng lớn thông tin được tạo thêm từ các chia sẻ của người dùng.

Dữ liệu lớn tạo ra được khái quát bằng 5V (Volume — Velocity — Variety — Veracity — Value) để thể hiện cho các đặc điểm quan trọng của nó là: khối lượng lưu trữ rất lớn; tốc độ tăng trưởng nhanh theo thời gian thưc; đa dạng về chủng loại với hơn 80% là dữ liệu dạng phi cấu trúc; bị ảnh hưởng bởi nhiều nhiễu tác động tới sự đúng đắn của dữ liệu; và mang theo các giá trị tiềm ẩn có thể khai thác. Để tạo ra giá trị, dữ liệu bắt buộc phải được xử lí để trích rút ra thông tin và từ đó tạo ra tri thức. Ví dụ chỉ với dữ liệu hình ảnh thu thập từ camera, thông qua công nghệ xử lý dựa trên trí tuệ nhân tạo, hệ thống có thể tạo ra tri thức phán đoán về hành vi tiêu dùng của khách hàng trong một siêu thị bán lẻ. Đây chính là sức mạnh mà công nghệ sẽ tạo ra sự khác biệt khi ứng dụng CNTT trong thời kì CMCN 4.0.

Dữ liệu có thể tạo ra giá trị và được xem như là tài sản vô hình. Nó có đặc điểm là được khai thác sử dụng nhưng hoàn toàn không bị tiêu hao. Tuy nhiên giá trị của dữ liệu không tồn tại vĩnh viễn. Nó còn phụ thuộc vào mức độ cập nhật và khả năng có thể khai thác thông tin, tri thức tiềm ẩn từ dữ liệu của người sử dụng. Dưới góc nhìn quản lý, chúng ta phân chia dữ liệu thành 3 dạng sở hữu cơ bản gồm: dữ liệu khu vực công, dữ liệu khu vực tư, và dữ liệu của cộng đồng.

Dữ liệu khu vực công được tạo ra từ các dịch vụ công (hành chính, kinh tế, xã hội) và thường do các cơ quan chính phủ quản lý. Tùy thuộc vào chính sách và nghiệp vụ quản lý cụ thể của nhà nước, dữ liệu công có thể được công khai toàn bộ hoặc chỉ được chia sẻ một phần cho người dân, doanh nghiệp khai thác để phục vụ phát triển kinh tế xã hội. Khác với dữ liệu công, dữ liệu khu vực tư được tạo ra bởi các doanh nghiệp để phục vụ cho mục đích kinh doanh của chính tổ chức đó. Dữ liệu này thường bao gồm các thông tin khách hàng, tài chính, cung ứng, sản xuất, và bán hàng. Nó là một phần tài sản thông tin của doanh nghiệp và cần được bảo vệ để giữ lợi thế cạnh tranh trước các đối thủ.

Ngày nay nhờ sự phát triển của Internet, dữ liệu còn có thể dễ dàng được tạo ra và tập hợp bởi các cá nhân theo mô hình cộng tác. Đây chính là phương thức vận hành của các nền tảng dựa trên nguồn lực đám đông (crowd sourcing) như Wikipedia, Youtube,… Các tổ chức, doanh nghiệp sở hữu nền tảng vận hành nhưng quyền tác giả đối với dữ liệu hoàn toàn thuộc về cộng đồng. Tuy nhiên cần phân biệt rõ sự khác biệt giữa nền tảng dữ liệu cộng đồng với các nền tảng sử dụng cộng tác viên trong cộng đồng để tạo dữ liệu cho doanh nghiệp (vd. Open Street Maps vs. Google Maps).

Dữ liệu mở và tài nguyên truy cập mở

Dữ liệu là một dạng tài nguyên số và được bảo vệ sở hữu trí tuệ giống như các sản phẩm sáng tạo khác (ví dụ các tác phẩm văn học, nghệ thuật và khoa học trong đó có chương trình máy tính và bộ sưu tập dữ liệu). Bên cạnh dữ liệu, tài nguyên số còn bao gồm cả các loại tư liệu số hóa khác là tài liệu điện tử, âm thanh, hình ảnh. Việc truy cập và khai thác sử dụng các tài nguyên số phải tuân thủ luật bản quyền tác giả theo hai phương thức chính là: được tự do sử dụng miễn phí và phân phối lại dưới một giấy phép truy cập mở; hoặc đóng hoàn toàn cần có sự đồng ý cho phép sử dụng của chủ sở hữu quyền tác giả. Tài nguyên số cấp phép mở được quản lý lưu trữ trong các kho truy cập mở để có thể khai thác sử dụng trên không gian mạng. Căn cứ vào tính chất và mục đích sử dụng của nội dung, chúng ta có thể phân loại các kho lưu trữ gồm có kho dữ liệu mở, kho xuất bản truy cập mở, kho tài nguyên giáo dục mở, kho di sản số hóa mở,…

Phong trào cấp phép mở được xuất hiện đầu tiên trong lĩnh vực phát triển phần mềm máy tính. Nó theo đuổi triết lí công bố mở các mã nguồn của phần mềm để cho phép tự do phân phối, sửa đổi, và tái sử dụng trong các phần mềm phái sinh. Nhờ đó mã nguồn của phần mềm luôn đảm bảo được duy trì và phát triển một cách bền vững bởi cộng đồng. Tuy nhiên cho đến nay, các loại giấy phép nguồn mở được sử dụng không chỉ cho mục tiêu lí tưởng, chúng đã hình thành ra các mô hình kinh doanh mới dựa trên những nguyên lý của nền kinh tế chia sẻ. Tất cả các công ty công nghệ lớn trên thế giới hiện nay như Google, Facebook, IBM, Intel, Adobe,… đều đang có những đầu tư cụ thể để thúc đẩy sự phát triển của các hệ sinh thái phần mềm nguồn mở khác nhau.

Tương tự như phần mềm nguồn mở, các tài nguyên số cũng có thể được cấp phép truy cập mở. Giấy phép mở đầu tiên cho nội dung ra đời từ năm 1998 có tên là GFDL (GNU Free Documentation License). Đây là loại giấy phép có tính mở chặt chẽ nhất. Nó không cho phép tạo mới các sản phẩm phái sinh để phục vụ cho mục đích lợi nhuận. Một nhánh giấy phép thứ hai ra đời sau đó là OPL (Open Publication License). Nó yêu cầu chỉ cần ghi công tác giả và cho phép được phân phối các sản phẩm phái sinh bằng một loại giấy phép khác có thể thu lợi nhuận. Cả hai nhánh này sau đó được kế thừa để hòa nhập tạo chung một dòng giấy phép truy cập mở được dùng phổ biến nhất hiện nay là Creative Commons (CC).

Giấy phép CC quy định các quyền tự do sao chép, xuất bản đi kèm với các điều kiện ràng buộc có thể được tùy chọn bao gồm: BY — phải ghi công tác giả; SA — không được thay đổi giấy phép cho các sản phẩm phái sinh; NC — không được phép thương mại hóa; ND — không được phép tùy biến sửa đổi, tạo các sản phẩm phái sinh. Tổ hợp các điều kiện lựa chọn khác nhau, ta có danh sách các loại giấy phép CC như Bảng 1.

Bảng 1. Nội dung các loại giấy phép Creative Commons (nguồn Lê Trung Nghĩa)

Một dòng giấy phép mở được sử dụng chuyên dùng cho dữ liệu là Open Data Commons (ODC). Bảng 2 liệt kê các loại giấy phép để lựa chọn cho dữ liệu mở gồm có: PDDL (Public Domain Dedication and License) tương đương với giấy phép công cộng CC0; ODC-BY tương đương với giấy phép truy cập mở CC-BY (ghi công tác giả); và ODbL (Open Database License) tương đương với giấy phép truy cập mở CC BY-SA (ghi công và chia sẻ tương tự). Cả 3 loại giấy phép đều cho phép người dùng được tự do chia sẻ, tạo dữ liệu mới hoặc sửa đổi cơ sở dữ liệu gốc. Trong trường hợp sử dụng ODbL thì các dữ liệu phái sinh phải được tiếp tục công bố với giấy phép tương tự.

Bảng 2. Nội dung các loại giấy phép dữ liệu mở (nguồn Lê Trung Nghĩa)

Theo đánh giá của World Bank [1], dữ liệu mở mang lại lợi ích cho người dân, doanh nghiệp và chính phủ ở 4 điểm chính là: i) sự minh bạch (giúp giám sát tốt hơn các hoạt động của chính phủ); ii) cải thiện các dịch vụ công; iii) thúc đẩy tăng trưởng kinh tế và đổi mới sáng tạo; iv) tính hiệu quả (giảm chi phí trong khai thác sử dụng dữ liệu). Cụ thể theo một nghiên cứu tại Châu Âu, giá trị của thị trường tạo ra trực tiếp từ dữ liệu mở được ước tính là 325 tỉ euro cho 5 năm 2016–2020, nó giúp tiết kiệm 1,7 tỉ euro chi phí hàng năm trong lĩnh vực công, và tạo ra 100.000 vị trí việc làm mới liên quan đến dữ liệu mở [2]. Theo một nghiên khác thì dữ liệu mở có thể tạo ra tổng giá trị mỗi năm cho nền kinh tế tại Mỹ ước tính khoảng 3–5 nghìn tỉ đô [3].

Ngoài ra dữ liệu mở và các tài nguyên truy cập mở còn là một phần của khoa học mở [4]. Trong khoa học mở, thông tin của toàn bộ vòng đời nghiên cứu sẽ phải mở để sao cho những người làm khoa học có thể cộng tác và đóng góp. Các kết quả nghiên cứu gồm dữ liệu, phần mềm, tài liệu ghi chép và xuất bản là sẵn sàng để tự do truy cập, áp dụng các điều khoản cho phép sử dụng lại, phân phối lại và tái tạo lại trong các nghiên cứu khác.

Hệ sinh thái dữ liệu mở

Việc cấp phép truy cập mở cho dữ liệu chỉ là bước cần thiết đầu tiên trong xây dựng hệ sinh thái dữ liệu mở. Giá trị của dữ liệu không thể khai thác trực tiếp mà cần được xử lý đem lại cho người dùng thông qua các ứng dụng. Ngoài ra nó cũng cần phải được duy trì phát triển một cách có hệ thống và bền vững. Do đó điều kiện đủ để dữ liệu mở có thể mang lại lợi ích cho xã hội là phải phát triển hệ sinh thái dựa trên 4 yếu tố cơ bản gồm: tính pháp lí, mạng lưới tổ chức, mô hình kinh doanh và tiêu chuẩn kĩ thuật.

Tính pháp lí của dữ liệu

Bên cạnh quyền tác giả, tính pháp lí của dữ liệu còn liên quan đến quyền riêng tư, luật về bảo vệ dữ liệu cá nhân, bảo vệ bí mật của nhà nước. Dữ liệu cá nhân chứa đựng các thông tin được gắn với một danh tính xác định cá nhân cụ thể. Quyền riêng tư sẽ không thể có được nếu không có sự bảo vệ những thông tin cá nhân khỏi truy cập, sử dụng, tiết lộ, gián đoạn, sửa đổi hoặc phá hủy trái phép. Theo luật an toàn thông tin mạng, thông tin cá nhân chỉ được phép thu thập và sử dụng sau khi có sự đồng ý của chủ thể thông tin cá nhân về phạm vi và mục đích của việc thu thập thông tin đó, trường hợp sử dụng vào mục đích khác mục đích ban đầu phải có sự đồng ý của chủ thể thông tin cá nhân; không được cung cấp, chia sẻ, phát tán thông tin cá nhân đã thu thập cho bên thứ ba mà chưa có sự đồng ý của chủ thể thông tin cá nhân hoặc theo yêu cầu của cơ quan nhà nước có thẩm quyền. Do vậy trong trường hợp dữ liệu chứa thông tin cá nhân muốn được công bố với giấy phép truy cập mở thì cũng cần phải có sự đồng ý của các chủ thể thông tin cá nhân. Ngoài ra chủ thể thông tin cá nhân còn có quyền yêu cầu cập nhật, sửa đổi, hoặc hủy bỏ thông tin cá nhân của mình khỏi bộ sưu tập dữ liệu tại bất kì thời điểm nào.

Trong khu vực công, các dữ liệu cung cấp thông tin được yêu cầu phải công khai theo quy định nhà nước thì cần được cấp phép truy cập mở. Nó đảm bảo tính pháp lí cho người dân và doanh nghiệp có thể khai thác sử dụng các thông tin công khai để sáng tạo ra nhiều ứng dụng khác nhau đem lại lợi ích cho xã hội. Ngược lại, đối với dữ liệu chứa thông tin mật thì phải được lưu trữ và bảo vệ an toàn thông tin theo đúng cấp độ được quy định.

Mạng lưới tổ chức

Mở dữ liệu cũng là một phương thức đóng góp thể hiện trách nhiệm xã hội của các cá nhân và tổ chức. Nó cần được khuyến khích và có sự hỗ trợ từ cộng đồng để các chủ sở hữu có thể dễ dàng thực hiện mở dữ liệu theo đúng cách mang lại giá trị cho xã hội. Các mạng lưới tổ chức được ra đời để đảm nhiệm vai trò duy trì và thúc đẩy các hoạt động mở rộng hệ sinh thái dữ liệu mở trên thế giới. Một số mạng lưới tiêu biểu có quy mô hoạt động toàn cầu hiện nay có thể kể đến là: Open Knowledge Foundation (okfn.org), Open Data Institute (theodi.org), Open Data for Development (od4d.net).

Các cá nhân, tổ chức tham gia vào các mạng lưới tổ chức như trên để nhận được sự trợ giúp tư vấn, đào tạo và thậm chí là cả sự hỗ trợ tài chính để thực hiện các dự án phát triển về dữ liệu mở. Ngoài ra các sự kiện thường niên về dữ liệu mở cũng liên tục được tổ chức bởi các mạng lưới để thu hút sự quan tâm của cộng đồng và chính phủ các nước. Ví dụ ngày hội dữ liệu mở được tổ chức hàng năm ở nhiều nước trên thế giới bởi các tổ chức đứng ra đăng cai là chủ nhà. Ngày hội tạo ra cơ hội để trao đổi kiến thức và trình diễn các lợi ích của dữ liệu mở để từ đó thúc đẩy các chính sách triển khai dữ liệu mở trong chính phủ, doanh nghiệp và xã hội dân sự. Mỗi năm ngày hội sẽ quan tâm tới những chủ điểm khác nhau. Chủ điểm của dữ liệu mở năm 2019 trên toàn cầu là khoa học mở, bản đồ mở, minh bạch dòng tiền và dữ liệu cho sự phát triển công bằng (opendataday.org).

Do tính chất xã hội hóa rất cao trong các hoạt động, mạng lưới tổ chức dữ liệu mở thường phải được vận hành dưới sự quản lý của một doanh nghiệp xã hội hoặc tổ chức phi chính phủ. Tổ chức này cần có đủ uy tín để huy động được nhiều nguồn tài trợ khác nhau từ các cá nhân, tổ chức trong đó có các chính phủ. Ngoài ra đơn vị còn có thể thu kinh phí từ các hoạt động cung cấp dịch vụ hỗ trợ dưới hình thức phi lợi nhuận. Toàn bộ hoạt động tài chính của tổ chức được công khai minh bạch trong cộng đồng.

Mô hình kinh doanh

Hệ sinh thái dữ liệu mở cần được phát triển bền vững dựa trên các mô hình kinh doanh phù hợp. Có 5 vai trò chính được xác định trong một hệ sinh thái nguồn mở là nhà cung cấp dữ liệu, nhà cung cấp dịch vụ (phân tích dữ liệu), người phát triển ứng dụng, người sử dụng ứng dụng và nhà cung cấp hạ tầng-công cụ. Trong hệ sinh thái này người sử dụng ứng dụng là người tiêu thụ đâu cuối trong chuỗi giá trị gia tăng. Mọi dữ liệu dù thô hoặc đã qua phân tích xử lý đều phải được đưa tới người dùng thông qua một ứng dụng có tính sáng tạo.

Mô hình kinh doanh của hệ sinh thái dữ liệu mở được vận hành trên các nguyên lý của kinh tế chia sẻ. Dữ liệu có đặc tính quan trọng là không bị tiêu hao khi khai thác sử dụng. Do vậy một tổ chức có thể nhận các tài trợ hoặc sử dụng ngân sách chính phủ để tạo ra dữ liệu và cung cấp miễn phí. Các doanh nghiệp sau đó tự do sáng tạo các ứng dụng và dịch vụ khai thác dữ liệu mở để tạo ra các giá trị sử dụng mới cho người tiêu dùng. Ví dụ, London có lợi thế là hệ thống cơ sở dữ liệu giao thông vận tải chi tiết nhất thế giới và đều được công bố miễn phí. Citymaple đã xây dựng ứng dụng để tìm hiểu người dùng đang ở đâu trong thành phố và họ muốn đi đến địa điểm nào. Với dữ liệu họ có từ ứng dụng của mình và dữ liệu trực tiếp từ chính phủ về hệ thống giao thông họ tạo ra tuyến xe buýt linh động theo nhu cầu người sử dụng, tức là nó ko đi đúng một tuyến mà ở đâu có người là nó đến đó [5]. Như vậy với dữ liệu mà chính phủ tạo ra và họ được sử dụng miễn phí giờ họ xây dựng mô hình kinh doanh và đưa lại chính ý tưởng đó cho chính phủ cải thiện mô hình xe buýt của mình.

Trong thực tế, các mô hình kinh doanh tạo ra lợi nhuận dựa trên dữ liệu mở được áp dụng trong từng doanh nghiệp rất đa dạng. Theo một nghiên cứu [6], chúng có thể được phân chia vào 5 nhóm cơ bản gồm: i) Freemium, miễn phí trên một tập hữu hạn dữ liệu hoặc số lượng truy cập, sau đó tính phí với các yêu cầu dịch vụ bổ sung hoặc sử dụng bộ dữ liệu có chất lượng cao hơn; ii) Premium, cung cấp dữ liệu có chất lượng cao theo phí chi trả của khách hàng; iii) Cost Saving, doanh nghiệp không chịu toàn bộ chi phí sản xuất mà giảm chi phí dựa trên sự tham gia đóng góp của khách hàng; iv) Indirect Benefit, cung cấp dữ liệu mở để thúc đẩy mở rộng thị trường cho mảng kinh doanh khác thu lại lợi nhuận chính của doanh nghiệp; v) The Razor-Blade, giảm giá cho các bộ dữ đầu tiên, sau đó tính phí cao hơn cho các bộ dữ liệu bổ sung. Phần lớn các mô hình kinh doanh khác nhau được sáng tạo ra nằm vào hai nhóm Freemium và Premium. Chúng ta có thể tham khảo thêm trên trang web opendata500.com để biết mô hình kinh doanh dựa trên dữ liệu mở được áp dụng bởi các doanh nghiệp hàng đầu ở các nước trên thế giới hiện nay.

Tiêu chuẩn kĩ thuật

Để xây dựng hệ sinh thái, dữ liệu mở phải được xây dựng trên cơ sở áp dụng các tiêu chuẩn kĩ thuật phù hợp với bộ nguyên tắc FAIR [7]. Bộ nguyên tắc này quy định các yêu cầu cần được bảo đảm để dữ liệu có thể dễ dàng tìm thấy, truy cập, tương hợp và tái sử dụng bởi cả con người và máy tính, cụ thể như sau:

Khả năng tìm thấy (Findable): F1 — sử dụng định danh toàn cầu và vĩnh viễn cho dữ liệu và siêu dữ liệu; F2 — dữ liệu phải được mô tả đầy đủ với các thuộc tính siêu dữ liệu; F3 — siêu dữ liệu phải chứa tham chiếu tường minh tới định danh duy nhất của dữ liệu mà nó mô tả; F4 — dữ liệu và siêu dữ liệu được đăng kí và đánh chỉ mục trong một kho tìm kiếm.

Khả năng truy cập (Accessible): A1 — có thể truy xuất dữ liệu và siêu dữ liệu thông qua một giao thức tiêu chuẩn; A2 — siêu dữ liệu vẫn phải có khả năng truy cập được ngay cả khi dữ liệu không còn tồn tại nữa.

Khả năng tương hợp (Interoperable): I1 — sử dụng ngôn ngữ máy hiểu để biểu diễn dữ liệu và siêu dữ liệu; I2 — khai thác các từ điển thuật ngữ dùng chung tuân thủ bộ nguyên tắc FAIR; I3 — có thể chứa tham chiếu tới các bộ dữ liệu khác.

Khả năng tái sử dụng (Reusable): R1 — xuất bản dữ liệu và siêu dữ liệu đi kèm với giấy phép truy cập mở; R2 — có mô tả chi tiết về nguồn cung cấp dữ liệu; R3 — thỏa mãn các tiêu chuẩn ngành của lĩnh vực áp dụng.

Hạ tầng dữ liệu mở trong chính phủ điện tử

Như đã phân tích, dữ liệu mở trong khu vực công có ý nghĩa rất quan trọng để thúc đẩy đổi mới sáng tạo và phát triển kinh tế xã hội tại các quốc gia. Chính phủ cần ưu tiên xây dựng hạ tầng kĩ thuật tạo điều kiện cho hệ sinh thái dữ liệu mở phát triển. Theo Tim Berners-Lee, các công nghệ của web ngữ nghĩa sẽ được dùng để quản lí chia sẻ dữ liệu trên mạng Internet trong tương lai. Công nghệ sử dụng cho hạ tầng chia sẻ dữ liệu có thể phân chia theo 5 mức độ tăng dần để phù hợp với nguyên tắc FAIR như sau.

- Mức độ 1 — Cấp phép mở (Open License): đưa dữ liệu chia sẻ truy cập trên Internet và cấp giấy phép truy cập mở.

- Mức độ 2 — Máy đọc được (Machine Readable): đã đạt mức độ 1 và dữ liệu phải được cung cấp dưới định dạng mà máy có thể đọc được.

Mức độ 3 — Định dạng mở (Open Format): đã đạt mức độ 2, cộng thêm yêu cầu phải sử dụng các định dạng dữ liệu tiêu chuẩn mở (không bị khống chế bởi một nhà cung cấp duy nhất).

Mức độ 4 — Định danh URI (Uniform Resource Identifier): đã đạt mức độ 3, cộng thêm yêu cầu phải sử dụng các mã định danh URI (thông qua biểu diễn XML) để mô tả (siêu) dữ liệu và các thuật ngữ dùng chung.

Mức độ 5 — Dữ liệu liên kết (Linked Data): đạt mức độ cao nhất thỏa mãn đủ các nguyên tắc tiêu chuẩn FAIR, cho phép tham chiếu tới các bộ dữ liệu khác trên toàn cầu (thông qua biểu diễn RDF).

Không phải tất cả hạ tầng dữ liệu mở hiện nay trên thế giới đều đã đạt được mức độ 5. Tuy nhiên đây là đích đến tất yếu mà các hạ tầng dữ liệu sẽ phải đạt được để hình thành hệ sinh thái mở trong tương lai. Mức độ phát triển của hạ tầng kĩ thuật sẽ được dùng làm tiêu chí để đánh giá xếp hạng về sự sẵn sàng dữ liệu mở của các nước. Ví dụ, bảng xếp hạng của Open Knowledge Foundation (index.okfn.org) đang thực hiện đánh giá dựa trên 6 tiêu chí gồm: cấp phép mở; định dạng mở và máy đọc được; có thể tải về một lần; có cập nhật thường xuyên; công bố rộng rãi; và miễn phí sử dụng. Các tiêu chí này yêu cầu tương đương với mức độ 3 theo tiêu chuẩn 5 sao như kể trên. Theo kết quả đánh giá mới nhất, Đài Loan, Úc, Anh, Pháp, Phần Lan hiện đang dẫn đầu trong tổng số 94 quốc gia trên bảng xếp hạng. Việt Nam vẫn còn nằm trong những nước chưa được đưa vào bảng đánh giá xếp hạng về dữ liệu mở (do chưa có đủ nguồn thông tin để thực hiện đánh giá).

Ngoại trừ các hệ thống cũ đã có từ trước, hạ tầng dữ liệu được xây dựng cho các hệ thống mới cần ưu tiên đạt tối thiểu mức độ 4. Khi đó phải thiết lập một hệ thống các chuẩn định danh duy nhất và các thuật ngữ dùng chung để mô tả dữ liệu và siêu dữ liệu. Chúng nên được áp dụng thống nhất trên phạm vi của cả quốc gia, ưu tiên sử dụng những chuẩn đã được quốc tế hóa. Ví dụ trong lĩnh vực thông tin khoa học công nghệ, hệ thống mã quốc tế DOI được khuyến khích áp dụng để định danh các công bố khoa học; mã ORCID để định danh người nghiên cứu; các thuật ngữ của Dublin Core được dùng cho các miêu tả siêu dữ liệu. Việc áp dụng các chuẩn định danh và thuật ngữ dùng chung là yêu cầu cần thiết để tạo thuận lợi cho quá trình trao đổi và tích hợp dữ liệu trong một hệ sinh thái mở.

Xây dựng hệ sinh thái dữ liệu mở tại Việt Nam

Việt Nam đang ở giai đoạn sơ khai của quá trình chuyển đổi số. Hạ tầng dữ liệu quốc gia vẫn chưa được sẵn sàng. Đặc biệt ở trong khu vực công, dữ liệu hiện chưa có nhiều và thường được quản lý khá manh mún. Một số hệ thống CSDL tập trung vẫn còn đang trong quá trình triển khai thông qua kế hoạch ưu tiên xây dựng 6 CSDL quốc gia về dân cư, đất đai, đăng kí doanh nghiệp, dân số và tài chính. Do đó việc xây dựng hệ sinh thái dữ liệu mở tại Việt Nam sẽ là một thách thức lớn do chúng ta còn thiếu nhiều kinh nghiệm trong quản lý và khai thác dữ liệu lớn.

Tuy nhiên nhận thức về sự cần thiết xây dựng hạ tầng dữ liệu mở đã được thể hiện trên thực tế trong các đề án xây dựng đô thị thông minh tại một số thành phố lớn. Ví dụ trong Đề án của Thành phố Hồ Chí Minh, “Trung tâm kho dữ liệu dùng chung và phát triển hệ sinh thái dữ liệu mở” là một trong bốn trụ cột công nghệ sẽ được xây dựng. Hiện Thành phố đã đưa vào vận hành Cổng khai thác dữ liệu mở tại địa chỉ https://data.hochiminhcity.gov.vn. Dữ liệu mở được cung cấp trên Cổng tương đương với mức độ 3 của tiêu chuẩn 5 sao. Tuy nhiên còn có một thiếu sót lớn là tất cả các bộ dữ liệu được đăng tải trên Cổng chưa được gắn với bất kì với một giấy phép truy cập mở nào.

Một đề án xây dựng hạ tầng dữ liệu khác ở quy mô quốc gia là xây dựng Hệ tri thức Việt số hóa. Mặc dù không được đề cập trực tiếp, nhưng toàn bộ mục tiêu và nội dung của Đề án hoàn toàn phù hợp với mô hình xây dựng một hệ sinh thái dữ liệu và tài nguyên truy cập mở tại Việt Nam. Hiện nay các sản phẩm của Đề án được công bố và đưa vào vận hành khai thác tại địa chỉ https://itrithuc.vn. Các dự án thành phần của Đề án hiện nay gồm có: Kho dữ liệu mở, Kho ứng dụng, Kho chia sẻ kiến thức, Kho tài nguyên giáo dục, Kho di sản số hóa, Nền tảng dữ liệu bản đồ Việt Nam, và Nền tảng dữ liệu tiếng Việt. Tuy nhiên cách tiếp cận xây dựng của các dự án chưa thực sự đáp ứng được các yêu cầu phát triển bền vững dựa trên mô hình của hệ sinh thái mở. Các lí do cụ thể được mô tả sau đây.

Thứ nhất, chỉ có Dự án “Kho dữ liệu mở” là đã được công bố mở gắn với giấy phép CC BY-NC (không được thương mại hóa). Tất cả các dự án khác đều chưa được công bố mở. Do vậy sẽ rất khó khăn cho việc phát triển hệ sinh thái, cho phép đổi mới sáng tạo ra các nội dung, dịch vụ và ứng dụng mới dựa trên các dữ liệu được chia sẻ. Các nhà phát triển và người sử dụng sẽ gặp phải các vướng mắc bởi vấn đề pháp lí khi bản quyền sử dụng không rõ ràng.

Thứ hai, chưa hình thành được mạng lưới tổ chức hỗ trợ cộng đồng dữ liệu mở. Hiện nay toàn bộ Đề án đang được điều hành bởi Cục Thông tin khoa học & công nghệ quốc gia trực thuộc Bộ Khoa học & Công nghệ. Cơ quan này chỉ nên đóng vai trò thực hiện chức năng quản lý của nhà nước trong việc thúc đẩy các chính sách về xây dựng hệ sinh thái dữ liệu mở. Các hoạt động cụ thể của Đề án chỉ có thể xã hội hóa được khi có một tổ chức phi lợi nhuận đảm nhiệm vai trò xây dựng mạng lưới, thực hiện tư vấn, tập huấn cho các tổ chức, cá nhân tham gia đóng góp vào việc tạo lập dữ liệu. Tổ chức phi lợi nhuận này cần hoạt động như doanh nghiệp để có thể thu hút được nhiều nguồn tài trợ cả trong và ngoài chính phủ phục vụ triển khai các dự án mở theo đúng các chuẩn mực quốc tế.

Thứ ba, chưa có các chính sách cụ thể để khuyến khích hình thành các mô hình kinh doanh dựa trên hệ sinh thái dữ liệu mở. Đây là yếu tố then chốt quyết định tới sự phát triển bền vững của các dự án triển khai trong Đề án. Tham gia vào hệ sịnh thái sẽ không chỉ có các đơn vị tạo lập và chia sẻ dữ liệu, mà cần có cả các đối tác phát triển ứng dụng, cung cấp các dịch vụ gia tăng trên cơ sở khai thác dữ liệu mở. Họ sẽ liên tục đổi mới, sáng tạo ra những mô hình kinh doanh mới tạo ra giá trị kinh tế để đóng góp ngược trở lại cho hệ sinh thái.

Thứ tư, các nguyên tắc FAIR chưa được tuân thủ để hướng tới tạo dựng được hạ tầng kĩ thuật đạt chuẩn mức độ 5 hỗ trợ dữ liệu liên kết mở. Hiện tại các dữ liệu được công bố trong Kho dữ liệu mở của Đề án mới đạt chuẩn mức độ 1 (sử dụng định dạng pdf không dùng được cho máy đọc). Chuẩn dữ liệu sử dụng trong các kho dữ liệu khác của Đề án thì chưa có các mô tả cụ thể. Để tránh lãng phí nguồn lực, tất cả các dự án xây dựng mới dữ liệu được khuyến cáo phải xem xét đạt chuẩn tối thiểu mức độ 4.

Dữ liệu là nguyên liệu tạo ra các tri thức cho tương lại. Xây dựng hệ sinh thái dữ liệu mở là hướng đi theo đúng xu thế chung trên toàn thế giới. Tuy nhiên nó là công việc rất phức tạp, đòi hỏi sự nhất quán và kiên trì theo đuổi để đạt được mục tiêu trong dài hạn. Khó có thể tạo ra được hệ sinh thái dữ liệu mở có thể mang lại ngay lợi ích kinh tế trong thời gian ngắn hạn. Các cách tiếp cận làm dự án dữ liệu mở chạy theo phong trào sẽ nhanh chóng lỗi thời, hết giá trị sử dụng do không được nuôi dưỡng bởi một hệ sinh thái. Mặc dù có rất nhiều thách thức, nhưng Việt Nam là nước đi sau nên có cơ hội học hỏi kinh nghiệm các nước đi trước để chọn ra được các cách làm đúng, tránh được sự lãng phí trong các đầu tư.

Tài liệu tham khảo

[1] The World Bank Group, “Starting an Open Data Initiative”, truy cập ngày 20/8/2019 tại https://opendatatoolkit.worldbank.org/en/starting.html

[2] European Data Portal, “Creating Value through Open Data”, truy cập ngày 20/8/2019 tại https://www.europeandataportal.eu/en/highlights/creating-value-through-open-data

[3] James Manyika, Michael Chui, Diana Farrell, Steve Van Kuiken, Peter Groves, and Elizabeth Almasi Doshi, “Open data: Unlocking innovation and performance with liquid information”, truy cập ngày 20/8/2019 tại https://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/open-data-unlocking-innovation-and-performance-with-liquid-information

[4] Lê Trung Nghĩa, “Rất cần khoa học mở cho CMCN 4.0”. Tạp chí tia sáng trực tuyến, truy cập ngày 20/8/2019 tại http://tiasang.com.vn/-doi-moi-sang-tao/Rat-can-khoa-hoc-mo-cho-CMCN-40--10878

[5] Thanh Nhàn, “Mở dữ liệu chính phủ — Kinh nghiệm từ Vương quốc Anh”, Tạp chí Thông tin và Truyền thông, truy cập ngày 20/8/2019 tại http://ictvietnam.vn/tuong-tac/mo-du-lieu-chinh-phu-kinh-nghiem-tu-vuong-quoc-anh.htm

[6] Zeleti, F. A., Ojo, A., & Curry, E. (2014). “Emerging Business Models for the Open Data Industry: Characterization and Analysis”. In Proceedings of the 15th Annual International Conference on Digital Government Research (pp. 215–226).

[7] Wilkinson, M. D. et al. “The FAIR Guiding Principles for scientific data management and stewardship”, Scientific Data. Vol 3, 2016

Tạ Tuấn Anh