Dữ liệu y tế lớn và nguy cơ “sản xuất” nghiên cứu gây hiểu lầm
Các nền tảng phân tích hồ sơ bệnh án điện tử như TriNetX đang mở ra cơ hội lớn cho nghiên cứu y học. Tuy nhiên, khi công cụ quá dễ sử dụng, trong khi người dùng thiếu nền tảng về dịch tễ học, thống kê và liêm chính nghiên cứu, dữ liệu lớn có thể trở thành nguồn tạo ra những công bố nhanh nhưng thiếu tin cậy.
TriNetX là một nền tảng nghiên cứu y sinh cho phép người dùng truy cập dữ liệu hồ sơ sức khỏe điện tử đã được ẩn danh của hơn 300 triệu bệnh nhân tại Mỹ và nhiều quốc gia khác. Trong vài năm gần đây, số lượng bài báo sử dụng dữ liệu từ nền tảng này tăng rất nhanh.

Theo cơ sở dữ liệu (CSDL) Dimensions, năm 2025 có gần 2.700 công bố nhắc đến TriNetX trong tiêu đề hoặc tóm tắt, trong khi 5 năm trước con số này chỉ là 33. Chưa đến nửa năm nay, số lượng bài báo liên quan đến TriNetX đã vượt 2.100.
Tuy nhiên, sự bùng nổ này đang làm dấy lên nhiều lo ngại. Joshua Wang, nhà khoa học thần kinh tại Bệnh viện Taipei Tzu Chi (Đài Loan, Trung Quốc), người đào tạo các nhà nghiên cứu sử dụng TriNetX, cho biết ông thường xuyên theo dõi các công bố mới dựa trên nền tảng này và nhận thấy một số kết quả “có vẻ không ổn”.
Theo Wang và nhiều chuyên gia khác, TriNetX có thể đang giúp những nhà nghiên cứu còn ít kinh nghiệm tạo ra các nghiên cứu thiếu tin cậy với tốc độ rất nhanh.
Samy Suissa, chuyên gia dịch tễ dược học tại Đại học McGill, nhận xét nhiều nghiên cứu sử dụng dữ liệu từ TriNetX có những lỗi tương tự nhau. Các nghiên cứu dường như luôn tìm ra những hiệu quả ngoạn mục, những lợi ích đáng kể của thuốc đối với đủ loại kết quả. Chính những kết quả có vẻ “ngoạn mục” này lại cần được xem xét thận trọng hơn.

Công cụ thuận tiện và áp lực công bố
TriNetX không phải là CSDL mở cho mọi người. Nền tảng này chỉ dành cho người dùng thuộc các tổ chức y tế tham gia hệ thống. Phần lớn bài báo sử dụng dữ liệu từ TriNetX đến từ các trường y tại Mỹ, trong đó tác giả chính thường là sinh viên y khoa hoặc bác sĩ đang trong quá trình đào tạo.
Tuy nhiên, vấn đề nằm ở sự kết hợp giữa người dùng thiếu kinh nghiệm và công cụ phân tích gần như “bấm nút là có kết quả”. Theo các chuyên gia, điều này có thể dẫn đến những công bố sơ sài, không kiểm soát đầy đủ các sai lệch phương pháp, từ đó khiến một loại thuốc hoặc phương pháp điều trị sẽ hiệu quả hơn thực tế.
Matt Spick, nhà khoa học dữ liệu y tế tại Đại học (ĐH) Surrey, cảnh báo khi dữ liệu có thể được phân tích quá nhanh, người dùng cũng dễ chọn lọc những kết quả dương tính để công bố - một thực hành thường được gọi là “p-hacking” (được gọi là thao túng dữ liệu hoặc cố tình thay đổi phương pháp phân tích trong nghiên cứu khoa học để đạt được một kết quả có ý nghĩa thống kê). Hệ quả là số lượng các phát hiện sai có thể tăng lên đáng kể.
Jeffrey Brown, Giám đốc khoa học của TriNetX, thừa nhận người dùng cần có chuyên môn về dịch tễ học và thống kê, đồng thời các bài báo phải được phản biện nghiêm túc. Tuy vậy, ông cho rằng việc có nhiều nghiên cứu hơn để có những đánh giá.
Những kết quả “đẹp” nhưng có thể sai lệch
Một ví dụ được các nhà phê bình nhắc đến là bài báo sử dụng dữ liệu từ TriNetX đăng trên tạp chí Cancers của nhà xuất bản MDPI. Bài báo này từng gây chú ý khi cho rằng các thuốc giảm cân nhóm GLP-1 có thể làm giảm nguy cơ mắc nhiều loại ung thư ở người béo phì. Nhóm tác giả mô tả đây là “bằng chứng thuyết phục”.
Tuy nhiên, theo các chuyên gia, bài báo không đề cập và cũng không hiệu chỉnh hai loại sai lệch quan trọng có thể làm kết quả nghiêng về hướng có lợi cho thuốc được nghiên cứu là: sai lệch gây nhiễu (collider) và sai lệch thời gian bất tử (immortal-time).
Các nhà khoa học cho rằng đây là một công trình rất đáng phê phán về mặt phương pháp. Bên cạnh đó, việc một loại thuốc được mô tả như có khả năng bảo vệ trước nhiều loại ung thư ở các hệ cơ quan khác nhau là điều khó hợp lý, bởi các bệnh ung thư và nguyên nhân gây bệnh là rất khác nhau.
Nguy cơ đối với thực hành lâm sàng
Một vấn đề đáng lo ngại khác là một số bài báo tuyên bố đã thực hiện dựa trên dữ liệu từ TriNetX nhưng thực tế nền tảng này không hỗ trợ.
TriNetX phản hồi rằng các nghiên cứu này chỉ chiếm “một phần rất nhỏ” trong tổng số công trình nghiên cứu sử dụng nền tảng, đồng thời cho rằng những mô tả phương pháp không khả thi có thể bắt nguồn từ hiểu nhầm, thuật ngữ mơ hồ, báo cáo chưa đầy đủ hoặc phân tích được thực hiện bên ngoài hệ thống.
Các nghiên cứu thiếu tin cậy không chỉ làm nhiễu loạn tài liệu khoa học, mà còn có thể ảnh hưởng đến chăm sóc bệnh nhân. Brian VanderBeek, bác sĩ nhãn khoa tại ĐH Pennsylvania, từng chỉ ra các sai lệch tiềm tàng trong hai nghiên cứu từ dữ liệu của TriNetX cho rằng nghệ và melatonin có thể làm giảm mạnh nguy cơ mắc bệnh mắt nghiêm trọng.
Theo ông, nguy cơ tiềm ẩn là bác sĩ có thể bị dẫn dắt sai lầm, tin rằng một chất bổ sung nào đó thực sự có tác dụng bảo vệ bệnh nhân.
Trước tình trạng các bài báo “nhanh và sơ sài” gia tăng, Hiệp hội các Trường Y khoa Mỹ (AAMC) cho biết sẽ điều chỉnh cách đánh giá hồ sơ bác sĩ nội trú. Thay vì nhấn mạnh số lượng công bố, cơ quan này muốn ứng viên tập trung vào chất lượng, đóng góp thực chất, mức độ tham gia và tác động của công trình.
Từ câu chuyện TriNetX, có thể thấy các nền tảng phân tích dữ liệu y tế có tiềm năng rất lớn đối với nghiên cứu y học. Về nguyên tắc, nếu dữ liệu bệnh án điện tử được chuẩn hóa, liên thông, ẩn danh và quản trị tốt, các cơ sở y tế có thể khai thác dữ liệu này để nghiên cứu dịch tễ học, đánh giá hiệu quả điều trị, theo dõi an toàn thuốc, dự báo xu hướng bệnh tật và hỗ trợ hoạch định chính sách y tế.
Tuy nhiên, bài học quan trọng là không thể coi dữ liệu lớn và công cụ phân tích tự động như “con đường tắt” để tạo ra công bố khoa học. Với sinh viên y khoa Việt Nam, các nền tảng tương tự TriNetX có thể là môi trường học tập hữu ích, giúp tiếp cận sớm với nghiên cứu thực chứng và dữ liệu lâm sàng. Nhưng nếu thiếu nền tảng về thống kê y sinh, dịch tễ học, đạo đức nghiên cứu và liêm chính học thuật, công cụ này rất dễ trở thành “máy sản xuất bài báo” thay vì tạo ra tri thức tin cậy.
Thay vào đó, sinh viên y khoa cần được học cách đặt câu hỏi nghiên cứu đúng, nhận diện sai lệch phương pháp, hiểu giới hạn của dữ liệu thứ cấp, công bố minh bạch quy trình phân tích và đặt an toàn người bệnh lên trên thành tích hồ sơ./.