Thứ năm, 20/02/2025 15:26

Mô hình Evo2: Bước tiến thúc đẩy ngành sinh học tiến xa hơn

Ngày 19/02/2025, các nhà khoa học Hoa Kỳ đã công bố mô hình trí tuệ nhân tạo (AI) lớn nhất từ trước đến nay trong lĩnh vực sinh học. Một mạng lưới AI được huấn luyện trên một kho dữ liệu chuỗi gen khổng lồ là một bước tiến hướng tới việc thiết kế các bộ gen hoàn toàn mới.

Bộ gen của các sinh vật eukaryote như nấm men đã được sử dụng để huấn luyện mô hình Evo-2 (nguồn: Thomas Deerinck, NCMIR/Science Photo Library/Nature).

Mô hình này được gọi là Evo-2, được huấn luyện trên 128.000 bộ gen từ các sinh vật trong cây sự sống, từ con người đến vi khuẩn và vi sinh vật cổ đại, có khả năng tạo ra toàn bộ nhiễm sắc thể và các bộ gen nhỏ từ đầu. Evo-2 cũng có thể giải mã DNA hiện có, bao gồm các biến thể gen không mã hóa, liên quan đến các bệnh lý. Evo-2 được đồng phát triển bởi các nhà nghiên cứu tại Viện Arc và Đại học Stanford (cả hai đều ở Palo Alto, California, Hoa Kỳ), cùng với nhà sản xuất chip NVIDIA (Hoa Kỳ), hiện đã có sẵn cho các nhà khoa học qua giao diện web hoặc có thể tải phần mềm, mã nguồn và dữ liệu miễn phí để tái tạo mô hình này.

Trong những năm gần đây, các nhà nghiên cứu đã phát triển các mô hình ngôn ngữ protein ngày càng mạnh mẽ, chẳng hạn như mô hình ESM-3, được phát triển bởi những cựu nhân viên của Meta. Sau khi được huấn luyện trên hàng triệu chuỗi protein, những mô hình này đã được sử dụng để dự đoán cấu trúc protein và thiết kế các protein hoàn toàn mới, bao gồm các bộ chỉnh sửa gen và phân tử huỳnh quang. Khác với những mô hình này, Evo-2 được huấn luyện trên dữ liệu gen bao gồm cả chuỗi mã hóa (chứa các hướng dẫn để tạo ra protein) và DNA không mã hóa, bao gồm các chuỗi có thể điều khiển khi nào, ở đâu và như thế nào các gen hoạt động. Phiên bản đầu tiên của Evo phát hành vào năm 2024 được huấn luyện trên bộ gen của 80.000 loài vi khuẩn và sinh vật cổ đại (các sinh vật đơn giản gọi là prokaryotes) cùng với virus của chúng và các chuỗi dữ liệu khác.

Mô hình mới nhất dựa trên 128.000 bộ gen, bao gồm cả của con người và các động vật khác, thực vật và các sinh vật eukaryote khác. Những bộ gen này chứa tổng cộng 9,3 nghìn tỷ chữ cái DNA. Dựa trên sức mạnh tính toán cần thiết để xử lý dữ liệu này và các đặc điểm khác, Evo-2 là mô hình AI sinh học lớn nhất được công bố đến nay. So với các loài prokaryote, bộ gen eukaryote thường dài hơn và phức tạp hơn: các gen được cấu tạo từ những đoạn mã hóa và không mã hóa đan xen và DNA điều hòa không mã hóa có thể ở xa các gen mà nó điều khiển. Để xử lý sự phức tạp này, Evo-2 được xây dựng sao cho có thể học được các mẫu trong chuỗi DNA cách nhau lên đến 1 triệu cặp base.

Để chứng minh khả năng của mô hình trong việc giải mã các bộ gen phức tạp, các nhà khoa học đã sử dụng Evo-2 để dự đoán tác động của những đột biến đã được nghiên cứu trong một gen liên quan đến ung thư vú, gọi là BRCA1. Nó gần như đạt được kết quả tương tự như các mô hình AI sinh học tốt nhất trong việc xác định xem các thay đổi trong các vùng mã hóa có gây bệnh hay không. Các nhà khoa học dự đoán rằng, trong tương lai, mô hình này có thể giúp xác định những thay đổi khó giải thích này trong bộ gen của bệnh nhân.

Một trong những điểm hấp dẫn của các mô hình gen như Evo-2 là chúng có thể tạo ra các chuỗi DNA mới, không chỉ cho các protein mà còn cho các chuỗi không mã hóa phối hợp với chúng. Tác giả của mô hình đã sử dụng Evo-1 để tạo ra các chỉnh sửa gen CRISPR mới, bao gồm một enzyme cắt DNA và các phân tử RNA hướng protein này đến vị trí mục tiêu. Những chỉnh sửa này đã được chứng minh là hiệu quả trong các thí nghiệm trong phòng thí nghiệm. Họ cũng đã thử thiết kế bộ gen của vi khuẩn và virus, nhưng chúng thiếu nhiều đặc điểm của các bộ gen thực sự. Với Evo-2, những bức tranh này trở nên rõ nét hơn. Các nhà nghiên cứu đã sử dụng mô hình này để tạo ra các bộ gen lấy cảm hứng từ bộ gen của Mycoplasma genitalium (một loại vi khuẩn đầu tiên có bộ gen được tổng hợp hoàn toàn), ty thể của con người và một nhiễm sắc thể nấm men dài 330.000 chữ cái DNA. Những bộ gen này trông thực tế hơn so với các bộ gen mà Evo-1 tạo ra (những bộ gen thiếu các protein khả thi trong một số trường hợp) nhưng vẫn còn nhiều điểm cần cải thiện.

Theo các nhà khoa học, vì được huấn luyện trên DNA từ khắp các nhánh của cây sự sống, Evo-2 có thể thành thạo trong việc áp dụng những gì đã học từ bộ gen của vi khuẩn và sinh vật cổ đại để tạo ra các protein mới cho con người. Các mô hình ngôn ngữ protein và các công cụ AI khác trong thiết kế protein đã khởi xướng một cuộc cách mạng trong thiết kế sinh học. Các nhà khoa học hy vọng, các mô hình gen như Evo-2 sẽ thúc đẩy ngành sinh học tiến xa hơn.

LB (lược dịch theo Nature)

 

 

 

Đánh giá

X
(Di chuột vào ngôi sao để chọn điểm)