KH&CN nước ngoài

“Google cho DNA” - khi tìm kiếm mã di truyền chỉ còn trong tích tắc

Thùy Linh • 30/10/2025 14:17

MetaGraph, một công cụ mới do các nhà khoa học tại ETH Zurich (Thụy Sĩ) phát triển, cho phép tìm kiếm hàng trăm triệu trình tự DNA và RNA công khai chỉ trong vài giây. Giống như tìm kiếm mọi thứ bằng “Google” trên mạng, giờ đây giới nghiên cứu có thể “Google” chính… bộ gen của sự sống.

Từ dữ liệu di truyền khổng lồ…

Trong hai thập kỷ qua, công nghệ giải trình tự DNA đã thay đổi sâu sắc lĩnh vực y - sinh, giúp phát hiện bệnh di truyền hiếm, truy vết đột biến trong tế bào ung thư hay theo dõi virus SARS-CoV-2 trên toàn cầu.

Tuy nhiên, cùng với những bước tiến ấy là lượng dữ liệu gen khổng lồ - hơn 100 petabyte, tương đương với tổng lượng văn bản có sẵn trên Internet (1 petabyte = 1 triệu gigabyte).

Trước đây, muốn tìm một đoạn gen cụ thể, các nhà nghiên cứu phải tải về hàng terabyte dữ liệu từ các kho lưu trữ như SRA (Mỹ) hay ENA (châu Âu) rồi lọc bằng siêu máy tính. Mỗi truy vấn có thể mất hàng giờ, thậm chí hàng ngày.

Nó giống như muốn tìm một câu trong cả thư viện quốc gia mà chỉ có mỗi bản in giấy, GS. Gunnar Rätsch, nhà khoa học dữ liệu tại ETH Zurich ví von.

… đến MetaGraph - công cụ “tìm gen” trong nháy mắt

Để phá vỡ rào cản đó, nhóm của ETH Zurich đã phát triển MetaGraph - một công cụ số cho phép tìm kiếm trực tiếp trong dữ liệu DNA hoặc RNA gốc, mà không cần tải toàn bộ về máy.

Chỉ cần nhập một đoạn gen quan tâm (ví dụ, chuỗi virus hay gen kháng thuốc) vào ô tìm kiếm, MetaGraph sẽ cho biết nơi mà đoạn gen này từng xuất hiện trong chỉ trong vài giây hoặc vài phút.

Nó thật sự giống Google cho DNA, Rätsch nói. Giờ đây, thay vì phải tải về toàn bộ dữ liệu, các nhà nghiên cứu có thể tìm trực tiếp trong dữ liệu thô - nhanh và chính xác.

Chi phí cũng cực kỳ thấp: Toàn bộ dữ liệu sinh học công khai có thể lưu trên vài ổ cứng và một truy vấn lớn chỉ tốn chưa tới 0,74 đô la Mỹ mỗi megabase (tức 1 triệu cặp ký tự A-T-C-G).

Vậy làm sao MetaGraph có thể xử lý hàng trăm petabyte dữ liệu mà không “quá tải”?

Theo các nhà khoa học tại ETH Zurich, câu trả lời nằm ở biểu đồ toán học - những cấu trúc dữ liệu cho phép liên kết và nén thông tin gen một cách thông minh, vừa tiết kiệm dung lượng, vừa giữ nguyên cấu trúc.

Nhờ các thuật toán tối ưu hóa đặc biệt, Metagraph có thể nén dữ liệu tới 300 lần mà vẫn bảo toàn các mối quan hệ giữa các trình tự gen - giống như việc cô đọng một cuốn sách dày thành bản tóm lược đầy đủ nội dung chính.

Cơ chế nén này không chỉ giảm nhu cầu lưu trữ mà còn tiết kiệm đáng kể năng lượng tính toán, vốn là thách thức lớn của lĩnh vực tin học sinh học. Nhờ vậy, MetaGraph giúp giảm chi phí và mở rộng khả năng nghiên cứu di truyền trên quy mô toàn cầu.

Đặc biệt, công cụ được thiết kế theo cơ chế mở rộng theo cấp số nhân, cho phép hiệu năng tăng theo lượng dữ liệu xử lý – một đặc điểm hiếm thấy trong các hệ thống phân tích gen hiện nay.

Được ra mắt vào năm 2020, MetaGraph hiện cho phép tìm kiếm hàng triệu bộ gen từ virus, vi khuẩn, nấm, thực vật, động vật và con người. Gần một nửa dữ liệu gen công khai trên thế giới đã được lập chỉ mục và nhóm nghiên cứu ETH Zurich kỳ vọng hoàn tất phần còn lại trong năm 2025.

Là công cụ mã nguồn mở, MetaGraph không chỉ phục vụ giới khoa học mà còn mở ra khả năng ứng dụng phổ thông.

TS. André Kahles chia sẻ: Ban đầu, ngay cả Google cũng không biết chính xác công cụ tìm kiếm hữu ích như thế nào. Nếu công nghệ giải trình tự DNA tiếp tục phát triển nhanh chóng, việc xác định cây trồng trên ban công chính xác hơn có thể trở nên phổ biến.

Giống như Internet từng kết nối tri thức nhân loại, “Google cho DNA” đang góp phần kết nối tri thức của sự sống, mở ra kỷ nguyên tìm kiếm mới - nơi dữ liệu di truyền trở nên minh bạch, dễ tiếp cận và phục vụ lợi ích chung./.

Thùy Linh