Đổi mới sáng tạo

Thúc đẩy hệ sinh thái trí tuệ nhân tạo tại Việt Nam thông qua dữ liệu mở tiếng Việt

PT 03/10/2025 10:26

Chiều 2/10/2025, trong khuôn khổ Ngày hội Đổi mới Sáng tạo Quốc gia 2025, Hội thảo “Xây dựng bộ dữ liệu mở cho tiếng Việt phục vụ nghiên cứu và ứng dụng trí tuệ nhân tạo” do Tập đoàn Meta, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) và Tổ chức “AI for Vietnam” cùng phối hợp tổ chức đã thu hút đông đảo đại biểu quan tâm.

439-202510031453201.jpg
Các đại biểu chụp ảnh lưu niệm tại Hội thảo.

Xây dựng bộ dữ liệu mở Make in Vietnam - ViGen

Tại Hội thảo, Tập đoàn Meta, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) và Tổ chức “AI for Vietnam” đã cùng công bố các kết quả nổi bật từ dự án xây dựng bộ dữ liệu mở cho tiếng Việt - ViGen. Sáng kiến này nhằm thúc đẩy nghiên cứu và phát triển trí tuệ nhân tạo (AI) thông qua việc cung cấp bộ dữ liệu mở tiếng Việt với chất lượng cao cho cộng đồng AI tại Việt Nam.

Phát biểu tại Hội thảo, Ông Võ Xuân Hoài, Phó giám đốc NIC cho rằng, AI mà không có dữ liệu thì chẳng khác nào động cơ thiếu năng lượng. Việt Nam cần một bộ dữ liệu tiếng Việt mở để tất cả cùng sử dụng, từ doanh nghiệp, startup cho tới tổ chức nghiên cứu trong và ngoài nước.

439-202510031453202.jpg
Ông Võ Xuân Hoài, Phó giám đốc Trung tâm Đổi mới sáng tạo Quốc gia (NIC) phát biểu tại Hội thảo.

Khác với nhiều dự án dữ liệu thường khép kín, ViGen ngay từ khi ra mắt đã được định hình như một không gian cộng tác mở. Người dùng được xác thực qua VNeID có thể đóng góp dữ liệu, khai thác tài nguyên để huấn luyện mô hình, hoặc tham gia đánh giá chất lượng. Cơ chế thi đua và khen thưởng được tích hợp để khuyến khích mọi cá nhân, tổ chức cùng chung tay xây dựng kho dữ liệu Việt vì người Việt.

Điểm đặc biệt của ViGen không nằm ở con số hàng chục tỷ token dữ liệu hay hàng nghìn mẫu đánh giá, mà ở triết lý mọi thứ được phát hành dưới giấy phép cho phép cộng đồng khai thác cả thương mại, miễn là ghi nhận nguồn. Điều này biến ViGen thành “tài sản chung” của cả hệ sinh thái, chứ không phải tài sản riêng của một tập đoàn hay viện nghiên cứu.

Ông Philip Chua, Giám đốc Chính sách công và Sản phẩm khu vực châu Á - Thái Bình Dương của Meta khẳng định: Chúng tôi tin rằng AI mã nguồn mở sẽ mở rộng khả năng tiếp cận công nghệ tiên tiến. Với ViGen, Việt Nam có cơ hội tạo ra các giải pháp AI thực sự am hiểu văn hóa, ngôn ngữ và nhu cầu của người Việt.

Với việc ra mắt phiên bản thử nghiệm đầu tiên của nền tảng ViGen, các chuyên gia cũng nhấn mạnh, sáng kiến sẽ trực tiếp hỗ trợ Chiến lược quốc gia về nghiên cứu, phát triển và ứng dụng AI đến năm 2030, cũng như góp phần quan trọng trong việc phát triển các Mô hình ngôn ngữ lớn tiếng Việt được xác định là sản phẩm công nghệ chiến lược theo Quyết định số 1131/QĐ-TTg ngày 12/6/2025 của Thủ tướng Chính phủ. Điều này góp phần định vị AI là động lực then chốt cho tăng trưởng kinh tế và chuyển đổi số.

Thông qua việc phát triển các bộ dữ liệu mở tiếng Việt, quy mô lớn và chất lượng cao phục vụ huấn luyện và đánh giá AI, Dự án ViGen bảo đảm sự phát triển AI tại Việt Nam phù hợp với giá trị văn hóa, chuẩn mực đạo đức, đồng thời xây dựng một hệ sinh thái AI mở một cách có trách nhiệm và gắn với bối cảnh địa phương.

Trong khi đó, ông Trần Việt Hùng, nhà sáng lập và CEO, Tổ chức “AI for Vietnam” chia sẻ: Thông qua việc mở rộng khả năng tiếp cận bộ dữ liệu tiếng Việt chất lượng cao cho toàn cộng đồng, chúng tôi đang giải quyết thực trạng tiếng Việt lâu nay ít được hiện diện trong các hệ thống AI hiện nay. Nền tảng này sẽ tạo điều kiện cho các nhà nghiên cứu, nhà phát triển và các đơn vị đổi mới sáng tạo trên khắp Việt Nam hợp tác, đóng góp và xây dựng các giải pháp AI ‘Made in Vietnam’ nhưng có khả năng phục vụ thị trường toàn cầu.

Song song với Dự án ViGen, Meta cũng khởi động nhiều chương trình hỗ trợ ứng dụng AI tại Việt Nam, bao gồm: Chương trình tăng tốc khởi nghiệp, quỹ Llama Grants, các hội thảo dành riêng cho doanh nghiệp vừa và nhỏ, cùng chương trình phổ cập kiến thức AI trong cộng đồng. Meta cũng hỗ trợ hạ tầng tính toán và đào tạo nhân lực - yếu tố then chốt để mở rộng quy mô ứng dụng AI trên toàn quốc.

Lộ trình phát triển của ViGen

Hướng tới giai đoạn 2026-2027, Dự án ViGen triển khai theo một lộ trình ba năm toàn diện. Năm 2025 là giai đoạn đặt nền móng với bộ dữ liệu Vi-Primer, khung đánh giá ban đầu và nền tảng thử nghiệm. Sang năm 2026, dự án sẽ tinh chỉnh dữ liệu, bổ sung công cụ cho lập trình viên, tổ chức các cuộc thi hackathon cấp quốc gia để thúc đẩy sáng tạo. Đến 2027, ViGen được nâng cấp thành hệ sinh thái dữ liệu, công cụ toàn diện cho doanh nghiệp và tổ chức ứng dụng AI.

Song song, Meta cũng triển khai hàng loạt chương trình hỗ trợ: quỹ Llama Grants cho startup, hội thảo đào tạo doanh nghiệp nhỏ và vừa, phổ cập kiến thức AI trong cộng đồng. Trong giáo dục, Meta đã bắt tay với Đại học Khoa học Xã hội & Nhân văn Hà Nội để xây dựng giáo trình AI quốc gia. Cuối năm 2025, cùng với STEAM for Vietnam, Vietnet-ICT và Hocmai, Meta sẽ thử nghiệm trợ lý học tập ảo sử dụng mô hình Llama nhằm hỗ trợ giáo viên trung học.

Những hoạt động này cho thấy, ViGen không phải một dự án rời rạc, mà là hạt nhân trong một chiến lược dài hơi để đưa AI vào đời sống kinh tế - xã hội.

Một trong những điểm được giới chuyên gia nhấn mạnh là ViGen không chỉ dừng ở “mở”, mà còn hướng tới mở có trách nhiệm. Dữ liệu đưa vào hệ thống phải qua xử lý, lọc nhiễu và tuân thủ quy định pháp lý của Việt Nam. Mọi hoạt động đóng góp đều gắn với tài khoản định danh, tránh tình trạng khai thác vô tội vạ hoặc vi phạm bản quyền.

Điều này giúp ViGen vừa tận dụng sức mạnh cộng đồng, vừa bảo đảm yếu tố an toàn và minh bạch. Một bộ dữ liệu mở mà không kiểm soát sẽ gây ra rủi ro lớn. Nhưng một bộ dữ liệu mở có trách nhiệm lại là nền tảng cho cả hệ sinh thái.

Nếu thành công, ViGen sẽ giúp Việt Nam theo kịp xu thế, định hình những chuẩn mực mới cho AI hiểu và phản ánh đúng bản sắc văn hóa Việt. Đây cũng là lợi thế cạnh tranh để các doanh nghiệp công nghệ trong nước bước ra thị trường toàn cầu với sản phẩm “Make in Vietnam”.

Tại Hội thảo, các chuyên gia cũng nhận định, muốn đi đường dài với AI, Việt Nam không thể đi tay không, mà phải xây dựng nguồn dữ liệu riêng, chuẩn hóa và sẵn sàng cho mọi ứng dụng. Sự đồng hành giữa Nhà nước, doanh nghiệp và cộng đồng hứa hẹn tạo nền tảng để hệ sinh thái AI Việt phát triển nhanh hơn, hướng tới việc định vị trên bản đồ công nghệ thế giới./.

PT