AI trong quy trình phản biện bài báo khoa học: Vấn đề nhạy cảm cần giải quyết ở khâu biên tập
Theo bài báo nghiên cứu được xuất bản trên Tạp chí Nature tháng 6 này, hơn một nửa số nhà nghiên cứu hiện nay sử dụng trí tuệ nhân tạo (AI) trong quá trình đánh giá/phản biện bản thảo bài báo khoa học. Đây không phải là một con số dự đoán mà là thực trạng hiện tại của ngành xuất bản khoa học.

Một cuộc khảo sát toàn cầu với hơn 1.600 học giả do nhà xuất bản (NXB) nghiên cứu lớn và có tầm ảnh hưởng nhất thế giới là Frontiers thực hiện tại 111 quốc gia cho thấy 53% người phản biện đã sử dụng các công cụ AI trong công việc của họ, với gần 1/4 báo cáo việc sử dụng tăng lên so với năm 2025.
Phân tích các phiếu phản biện được gửi đến các hội nghị AI lớn ước tính từ 6,5% đến 16,9% các phiếu bài báo được sửa đổi đáng kể bởi các mô hình ngôn ngữ lớn (LLM).
Trong số những người phản biện sử dụng AI trong quá trình đánh giá bài báo, 59% sử dụng để hỗ trợ viết đánh giá. Vấn đề nhạy cảm này không còn là vấn đề xa vời mà đã kề cận.
Các nhà xuất bản lên tiếng
Một số tập đoàn xuất bản lớn đã ban hành các chính sách chính thức về việc sử dụng AI tạo sinh (generative AI) trong quá trình đánh giá. Quan điểm chung của một số tập đoàn xuất bản là: Người phản biện bài báo khoa học không được tải các bản thảo chưa được xuất bản lên các nền tảng LLM công khai, vì lý do bảo mật và sở hữu trí tuệ.
Elsevier cấm mọi sự tham gia của AI tạo sinh trong quá trình phản biện, kể cả trong báo cáo phản biện.
Trong khi đó, Springer Nature yêu cầu công khai nếu AI hỗ trợ quá trình phản biện theo bất kỳ cách nào. Wiley cho phép sử dụng AI để chỉnh sửa ngôn ngữ phản hồi của người phản biện nhưng cấm tải bản thảo lên và yêu cầu công khai.

Taylor & Francis nêu rõ người phản biện không được sử dụng AI để tạo đánh giá phản biện. SAGE phân biệt giữa AI hỗ trợ (assistive AI), tức là các công cụ cải thiện văn phong của chính người dùng và AI tạo sinh (generative AI).
Những chính sách này thể hiện nỗ lực thực sự của các tập đoàn xuất bản trong việc thiết lập tiêu chuẩn. Tuy nhiên, các chính sách này đều có một hạn chế là: không chính sách nào quy định cách thức xác minh việc tuân thủ, thế nào là vi phạm có thể phát hiện được, hoặc hậu quả của việc không tuân thủ.
Như vậy, việc các NXB tuyên bố là có, nhưng việc quản trị thì chưa.
Khoảng cách giữa chính sách và thực tiễn
Khoảng cách giữa những gì NXB cấm và những gì người phản biện làm không chỉ là vấn đề vi phạm cá nhân. Các cuộc thảo luận không chính thức trong cộng đồng biên tập ngày càng cho thấy một số biên tập viên (BTV) có thể từ chối đánh giá của người phản biện do nghi ngờ sự tham gia của AI, bất chấp việc thiếu các tiêu chuẩn chứng cứ mạnh mẽ hoặc các công cụ phát hiện đáng tin cậy.
Hiện không có phần mềm nào có thể xác định một cách tin cậy văn bản do AI tạo ra hoặc sửa đổi. Do đó, một hệ thống tuân thủ được xây dựng dựa trên giả định các vi phạm có thể bị phát hiện không phải là một biện pháp bảo vệ.
Sự thiếu rõ ràng có thể vô tình dẫn đến việc hành xử không nhất quán và có khả năng phân biệt đối xử với một số người phản biện và tác giả.
Mặt khác, ngay cả khi không có công cụ nào hoàn toàn đáng tin cậy, một số mẫu do AI tạo ra vẫn có thể được xác định, cho thấy việc sử dụng các công cụ này thường không được tiết lộ.
Trong một đánh giá không chính thức về các phản biện tại Tạp chí Khoa học Thực phẩm (Journal of Food Science), phần lớn (hơn 95%) phản biện không sử dụng các công cụ AI, trong khi những người sử dụng cho biết chỉ sử dụng để trau chuốt ngữ pháp cho các ý kiến đánh giá của chính họ.

Các phản biện có thể tránh báo cáo việc sử dụng AI trong quá trình phản biện vì việc tiết lộ có thể làm mất mát danh tiếng và chưa được chấp thuận về mặt chuẩn mực. Trong trường hợp chưa có một quy định rõ ràng, im lặng trở thành phản ứng hợp lý nhất.
Điều này tạo ra nghịch lý về tính minh bạch của AI trong quá trình phản biện bài báo: lệnh cấm càng nghiêm ngặt, động lực che giấu càng mạnh mẽ.
Điều thực sự cần thiết là gì?
Một chính sách hạn chế hơn không phải là giải pháp. Quan trọng hơn là nguy cơ bỏ lỡ những cơ hội mà việc tích hợp AI có trách nhiệm thực sự mang lại.
Những hạn chế của LLM trong công tác phản biện đã được ghi nhận rõ ràng: hiệu suất của chúng giảm sút chính xác ở những lĩnh vực mà phán đoán của chuyên gia là quan trọng nhất, bao gồm đánh giá tính mới, tính nghiêm ngặt về phương pháp luận và diễn giải các phát hiện cụ thể theo lĩnh vực.
Trong khoa học lâm sàng và sức khỏe, LLM đã được chứng minh là hiểu sai giọng điệu thận trọng đặc trưng của văn bản y khoa...
LLM sẽ không thay thế công việc đánh giá của người phản biện. Rủi ro thực sự là việc cấm đoán ngăn cản chúng ta xây dựng các quy định cần thiết để làm cho việc sử dụng AI an toàn, minh bạch và có trách nhiệm.
Việc sử dụng LLM có thể không nhất thiết phản ánh hành vi sai trái hoặc thiếu năng lực, mà cũng có thể là phản ứng trước áp lực ngày càng tăng trong giới học thuật, nơi các nhà nghiên cứu được kỳ vọng đảm đương các vai trò mở rộng và yêu cầu năng suất với nguồn lực và thời gian ngày càng hạn hẹp hơn.
Điều cần thiết là một sự thay đổi về mô hình: từ cấm đoán sang thừa nhận có kiểm soát. Điều này đòi hỏi hành động ở 4 cấp độ.
Đầu tiên là cấp độ chuẩn mực.
Các yêu cầu công khai sẽ vẫn không thể khả thi chừng nào việc tiết lộ việc sử dụng AI vẫn bị coi là thừa nhận hành vi sai trái.
Các BTV phải chủ động định hình lại điều này: sự hỗ trợ AI có giới hạn và minh bạch không phải là hành vi vi phạm tính liêm chính của người phản biện, mà là một hoạt động có thể được thừa nhận. Thay đổi chuẩn mực phải đi trước các yêu cầu chính thức; nếu không, các chính sách công khai sẽ tạo ra chính khoảng trống mà chúng được thiết kế để lấp đầy.
Thứ hai là về cơ sở hạ tầng.
Các NXB nên phát triển môi trường AI nội bộ an toàn cho các phản biện, các nền tảng khép kín cho phép các nhiệm vụ được hỗ trợ bởi AI như chỉnh sửa ngôn ngữ và hỗ trợ phản hồi có cấu trúc trong khi vẫn bảo vệ nội dung bản thảo bài báo.
Frontiers đã thử nghiệm mô hình này, vận hành một nền tảng dựa trên GPT trong một môi trường khép kín với khả năng kiểm soát. Cách tiếp cận này chuyển đổi vấn đề sử dụng không thể xác minh thành một hệ thống hỗ trợ có thể xác minh và giới hạn.
Thứ ba là về giáo dục.
Hướng dẫn dành cho người phản biện về AI hiện chưa có trong thực tiễn công tác biên tập hiện nay. Lời mời đánh giá bài báo nên đi kèm với các khuyến nghị thực tế: Công cụ nào phù hợp, cho nhiệm vụ nào và cách sử dụng nên được ghi lại như thế nào.
Các module đào tạo trực tuyến và danh sách kiểm tra do BTV biên soạn sẽ cung cấp cho người phản biện khuôn khổ mà họ hiện đang thiếu, giảm việc thiếu hiểu biết và che giấu không cần thiết.
Điều này đặc biệt quan trọng trong các tạp chí y học lâm sàng dựa trên bằng chứng, nơi người phản biện được kỳ vọng sẽ đánh giá nghiêm túc thiết kế nghiên cứu, đánh giá rủi ro sai lệch, đánh giá mức độ liên quan lâm sàng của kết quả và diễn giải các phát hiện thống kê.
Đây chính xác là những nhiệm vụ mà các phần mềm quản lý ngôn ngữ (LLM) thực hiện kém nhất và nơi sự tham gia của AI không được phát hiện mang lại rủi ro lớn nhất cho thực tiễn lâm sàng.

Thứ tư là hợp tác.
Không một tạp chí hay NXB riêng lẻ nào có thể tự giải quyết vấn đề này. Các BTV thuộc nhiều lĩnh vực và NXB khác nhau nên hợp tác để xây dựng các hướng dẫn chung, dựa trên bằng chứng về việc sử dụng AI trong quá trình phản biện, và thiết lập các cơ chế để giám sát liên tục việc thực hiện hướng dẫn.
Một nỗ lực phối hợp, theo dõi sự phát triển của việc sử dụng AI trong các lĩnh vực và đánh giá việc áp dụng thực tiễn công khai thông tin trong thế giới thực, sẽ cung cấp nền tảng thực nghiệm mà việc hoạch định chính sách hiện nay còn thiếu. Các BBT cần trao đổi chung, chứ không chỉ trao đổi nội bộ trong từng ban.
Các chính sách và khung công khai thông tin cần phải linh hoạt và thích ứng. Giới học thuật có thể sẽ phải đối mặt với một sự chuyển đổi thế hệ, trong đó các nhà nghiên cứu tương lai sẽ tích hợp LLM vào phần lớn quá trình đào tạo học thuật và phát triển nghề nghiệp của họ.
Theo nghĩa này, LLM có thể dần trở thành một mô hình định hình lại một cách cơ bản cách thức thu thập, xử lý, tổng hợp và truyền đạt thông tin trong thực tiễn khoa học.
Tính liêm chính
Hệ thống phản biện đang chịu áp lực thực sự. Khối lượng bài báo gửi ngày càng tăng, số lượng người phản biện ngày càng ít, và áp lực hoàn thành việc đánh giá bài báo nhanh chóng là rất lớn. Các công cụ AI đang lấp đầy khoảng trống này, một cách rõ rệt nhưng phần lớn vẫn chưa được thừa nhận.

Trong các tạp chí y học lâm sàng dựa trên bằng chứng, rủi ro đặc biệt cao. Một đánh giá phản biện về một bài tổng quan hệ thống được giao một phần hoặc toàn bộ cho công cụ AI có thể không xác định được các lỗi về phương pháp luận, việc che giấu thông tin không đầy đủ, kết quả không liên quan đến lâm sàng, hoặc các so sánh thống kê không phù hợp.
Hậu quả không chỉ đơn giản là một bài báo kém chất lượng hơn mà hậu quả sẽ xảy ra đối với bác sĩ và cuối cùng là bệnh nhân. Một hậu quả nghiêm trọng nữa là tính liêm chính của người phản biện sẽ không còn. Tính liêm chính bị xói mòn khi công việc phản biện không được kiểm soát.
Nghĩa vụ của các BTV và NXB không phải là đưa ra các lệnh cấm sử dụng AI khắt khe hơn, mà là xây dựng các điều kiện để việc sử dụng AI một cách trung thực, có hiểu biết và có trách nhiệm trở nên khả thi. Vấn đề này đang trở nên hiện hữu. Đã đến lúc phải gọi tên, hiểu và quản lý việc sử dụng AI trong quá trình phản biện bài báo khoa học./.