AI giải mã não bộ: Chuyển suy nghĩ thành chữ viết
Một kỹ thuật chẩn đoán hình ảnh không xâm lấn vừa đạt được điều tưởng như bất khả thi: Chuyển những hình ảnh xuất hiện trong tâm trí con người thành các câu mô tả hoàn chỉnh. Bước đột phá này mở ra cơ hội khám phá sâu hơn cách não bộ diễn giải và tái tạo thế giới xung quanh.

Việc “đọc” suy nghĩ thông qua việc ghi lại hoạt động não bộ từng được xem như chuyện viễn tưởng, nhưng nay đã tiến gần hơn một bước tới hiện thực.
Một kỹ thuật mới, gọi là “chú thích ý nghĩ” (mind captioning), có thể tạo ra các câu mô tả chính xác những gì một người đang nhìn thấy hoặc hình dung trong đầu, chỉ dựa trên dữ liệu thần kinh.
Kỹ thuật này được mô tả trong bài báo được công bố trên Tạp chí Science Advances mang đến manh mối về cách não bộ tái hiện thế giới trước khi suy nghĩ được chuyển thành ngôn ngữ. Công nghệ này còn hứa hẹn hỗ trợ giao tiếp cho những người gặp khó khăn về lời nói, chẳng hạn bệnh nhân sau đột quỵ.
Mô hình dự đoán những gì một người đang nhìn thấy với độ chi tiết rất cao, Alex Huth - nhà khoa học thần kinh tính toán tại Đại học California, Berkeley, nhận định. Đây là nhiệm vụ vô cùng khó khăn, và thật đáng kinh ngạc khi chúng ta có thể thu được nhiều chi tiết đến vậy.
Suốt hơn một thập kỷ qua, các nhà khoa học đã có thể dự đoán khá chính xác những gì một người đang nhìn hoặc nghe thông qua hoạt động não bộ.
Tuy vậy, việc giải mã cách não bộ diễn giải những nội dung phức tạp hơn, chẳng hạn các đoạn video ngắn hay hình khối trừu tượng, vẫn là thách thức lớn.
Theo Tomoyasu Horikawa, nhà khoa học thần kinh tính toán tại Phòng thí nghiệm Khoa học Truyền thông NTT (Nhật Bản), các nỗ lực trước đây chủ yếu dừng lại ở việc xác định những từ khóa mô tả chứ chưa thể nắm bắt được đầy đủ ngữ cảnh, như chủ thể hay hành động trong video.
Horikawa cho biết, một số phương pháp khác lại dựa vào các mô hình AI có khả năng tự tạo cấu trúc câu, khiến việc phân biệt đâu là mô tả thực sự phản ánh tín hiệu thần kinh, đâu là phần AI tự suy diễn trở nên rất khó khăn.
Để vượt qua những hạn chế trước đây, phương pháp của Horikawa được triển khai theo một quy trình hoàn toàn khác. Trước tiên, ông sử dụng một mô hình ngôn ngữ sâu để phân tích chú thích của hơn 2.000 video, chuyển mỗi video thành một “chữ ký ý nghĩa” dạng số độc nhất. Tiếp đó, một mô hình AI riêng biệt được huấn luyện trên dữ liệu quét não của 6 người tham gia nhằm xác định các mẫu hoạt động thần kinh tương ứng với từng chữ ký khi họ xem video.
Khi quá trình huấn luyện hoàn tất, “bộ giải mã não bộ” này có thể đọc các bản quét não mới của một người đang xem video và dự đoán chữ ký ý nghĩa tương ứng. Sau đó, một mô hình tạo văn bản khác sẽ tìm ra câu mô tả gần nhất với chữ ký vừa được giải mã.
Trong một ví dụ, người tham gia xem đoạn video về một người nhảy từ đỉnh thác nước. Dựa trên hoạt động não bộ, mô hình AI dần tinh chỉnh dự đoán: Bắt đầu từ cụm “dòng suối”, chuyển sang “phía trên thác nước chảy xiết” ở lần đoán thứ 10, và cuối cùng đưa ra câu hoàn chỉnh “một người nhảy qua thác nước sâu trên sườn núi” ở lần đoán thứ 100.
Các nhà nghiên cứu cũng yêu cầu người tham gia hồi tưởng lại những video đã xem. Kết quả cho thấy, mô hình AI có thể tạo ra mô tả phù hợp cho cả ký ức, gợi ý rằng não bộ sử dụng cơ chế biểu diễn tương tự cho việc quan sát trực tiếp lẫn ghi nhớ.
Kỹ thuật này, sử dụng chụp cộng hưởng từ chức năng (fMRI) không xâm lấn, có thể góp phần hoàn thiện quy trình cho các giao diện não-máy tính (BCI) cấy ghép trong tương lai, cho phép chuyển trực tiếp những suy nghĩ chưa thành lời thành văn bản.
Nếu chúng ta có thể làm được điều đó bằng các hệ thống nhân tạo này, rất có thể chúng ta sẽ hỗ trợ được những người gặp khó khăn trong giao tiếp”, Huth nhận định. Năm 2023, ông và các cộng sự cũng đã phát triển một mô hình tương tự nhằm giải mã ngôn ngữ từ bản ghi não không xâm lấn.
Tuy nhiên, theo Huth, những phát hiện này cũng làm dấy lên lo ngại về quyền riêng tư tinh thần. Khi các nhà khoa học tiến gần hơn đến việc hé lộ suy nghĩ, cảm xúc hoặc tình trạng sức khỏe nội tâm, về mặt lý thuyết, công nghệ này có thể bị lợi dụng để giám sát, thao túng hoặc phân biệt đối xử.
Dẫu vậy, cả hai nhà nghiên cứu khẳng định mô hình hiện tại chưa vượt qua “ranh giới đỏ”, bởi kỹ thuật này đòi hỏi sự hợp tác tự nguyện của người tham gia và chưa thể đọc được những suy nghĩ riêng tư, xuất hiện ngẫu nhiên. Vẫn chưa có ai chứng minh rằng điều đó khả thi ở thời điểm này, Huth trấn an./.