Đổi mới sáng tạo

AI “chiều lòng” người dùng: Lệch mục tiêu từ thiết kế

Bích Việt 04/04/2026 08:44

Không chỉ đơn thuần trả lời câu hỏi, các chatbot AI ngày càng trở thành “người đồng hành” trong quá trình hình thành nhận thức của con người. Tuy nhiên, một hiện tượng đáng lo ngại đang xuất hiện: AI có xu hướng “chiều lòng”, đồng tình với người dùng nhiều hơn mức cần thiết. Theo các chuyên gia, đây không phải là lỗi ngẫu nhiên mà là hệ quả của cách thiết kế và tối ưu hệ thống.

Khi AI được tối ưu để “dễ chịu”

Trong vài năm trở lại đây, sự phát triển nhanh chóng của trí tuệ nhân tạo (AI) đã đưa các chatbot trở thành một công cụ phổ biến trong đời sống. Từ hỗ trợ học tập, tìm kiếm thông tin, đến tư vấn cá nhân, AI ngày càng đóng vai trò như một “trợ lý số” đồng hành cùng con người.

Điểm mạnh dễ nhận thấy của các hệ thống này là khả năng giao tiếp trôi chảy, thân thiện và tạo cảm giác thoải mái cho người dùng. Tuy nhiên, chính sự “dễ chịu” đó lại đang đặt ra một vấn đề mới. Nhiều nghiên cứu và thực tiễn sử dụng cho thấy chatbot có xu hướng đồng tình với người dùng nhiều hơn mức cần thiết, thậm chí né tránh phản biện hoặc không chỉ ra những sai lệch rõ ràng trong lập luận.

Điều đáng nói là hiện tượng này không phải diễn ra một cách ngẫu nhiên. Nó gợi mở một câu hỏi mang tính bản chất: AI đang được thiết kế để hướng tới sự đúng đắn, hay đang bị tối ưu để làm hài lòng người dùng?

screenshot_1775187382.png
Không chỉ đơn thuần trả lời các câu hỏi, những chatbot AI ngày nay đang dần trở thành “người đồng hành” trong quá trình hình thành nhận thức của con người. (Nguồn: vnexpress.net)

Trao đổi với phóng viên Tạp chí KH&CN Việt Nam, ông Nguyễn Văn Tuyền - Giám đốc Học viện Đào tạo AI Trevi Education cho rằng cách lý giải phổ biến hiện nay còn chưa chạm đến gốc rễ vấn đề.

“Theo quan sát và kinh nghiệm của tôi, hiện tượng chatbot “xu nịnh” người dùng không phải là hệ quả tất yếu của RLHF. RLHF, nói đơn giản, là cách huấn luyện để mô hình học phản hồi nào được con người đánh giá là tốt hơn. Vấn đề nằm ở chỗ: Nếu hệ thống chỉ thưởng mạnh cho cảm giác “dễ chịu”, “trôi chảy”, “được đồng tình”, thì mô hình sẽ học ra một chiến lược rất rẻ nhưng rất nguy hiểm: đồng ý với người dùng càng nhiều càng tốt. Khi đó, cái được tối ưu không còn là sự đúng đắn, mà là sự hài lòng tức thời”.

Theo phân tích của ông Nguyễn Văn Tuyền, nếu nhìn dưới góc độ hệ thống, hiện tượng “xu nịnh” không thể quy về một nguyên nhân đơn lẻ. Nó là kết quả của sự cộng hưởng từ nhiều yếu tố, từ dữ liệu huấn luyện, cách con người chấm điểm phản hồi, mục tiêu tối ưu của mô hình, cho đến các chỉ số sản phẩm như mức độ hài lòng hay thời gian tương tác.

Trong một hệ sinh thái như vậy, nếu người dùng có xu hướng thích được xác nhận, còn đội ngũ phát triển lại đo lường thành công bằng trải nghiệm “êm ái”, thì việc AI học cách chiều lòng là điều gần như tất yếu.

Giám đốc Học viện Đào tạo AI Trevi Education Nguyễn Văn Tuyền nhấn mạnh: “Nếu nhìn bằng tư duy hệ thống, “xu nịnh” không sinh ra từ một mắt xích duy nhất, mà từ cả chuỗi tương tác… Nếu người dùng thích được xác nhận, đội ngũ sản phẩm đo thành công bằng mức độ ‘êm ái’ của cuộc trò chuyện, còn mô hình bị thưởng vì ít gây khó chịu, thì toàn hệ thống sẽ cùng đẩy AI về phía chiều lòng. Nói thẳng ra, ‘xu nịnh’ thường là sản phẩm của thiết kế mục tiêu, chứ không phải số phận công nghệ”.

Nhận định này cho thấy vấn đề không chỉ nằm ở sai số kỹ thuật mà liên quan đến cách hệ thống được thiết kế và tối ưu mục tiêu. Tuy nhiên, theo ông Nguyễn Văn Tuyền, điều đó không có nghĩa là không thể điều chỉnh. Trái lại, việc thiết kế AI vừa thân thiện vừa giữ được tính phản biện là hoàn toàn khả thi nếu xác định lại đúng mục tiêu.

“Vì vậy, hoàn toàn có thể thiết kế AI vừa thân thiện vừa giữ được tính phản biện. Muốn làm vậy phải tách hai thứ vốn hay bị trộn lẫn: giọng điệu và lập trường nhận thức. AI có thể lịch sự, tôn trọng, bình tĩnh, nhưng vẫn nói “anh đang giả định sai ở điểm này”, “kết luận đó chưa đủ bằng chứng”, hoặc “trong tình huống này tôi không nên đồng tình ngay với anh”. Một hệ thống tốt không thưởng cho việc làm vui lòng người dùng bằng mọi giá, mà thưởng cho sự trung thực, khả năng nêu bất định, dám sửa tiền đề sai và dám phản biện mạnh hơn trong các bối cảnh rủi ro cao”, ông Nguyễn Văn Tuyền phân tích thêm.

Ở đây, vấn đề không còn thuần túy là kỹ thuật mà là lựa chọn trong thiết kế sản phẩm và cách định nghĩa “thành công” của hệ thống. Việc chấp nhận giảm bớt sự “mượt mà” trong trải nghiệm để đổi lấy tính chính xác và độ tin cậy lâu dài là một bài toán không dễ.

Khi AI tác động tới nhận thức con người

Nếu chỉ dừng lại ở mức độ tương tác, hiện tượng “chiều lòng” có thể được xem là một vấn đề về trải nghiệm người dùng. Tuy nhiên, trong bối cảnh AI ngày càng tham gia sâu vào đời sống, tác động của nó đã vượt ra khỏi phạm vi công nghệ.

AI hiện nay không chỉ cung cấp thông tin mà còn góp phần định hình cách con người hiểu vấn đề, đưa ra quyết định và củng cố niềm tin của mình. Khi một hệ thống liên tục xác nhận quan điểm của người dùng, nó không chỉ phản ánh mà còn khuếch đại các thiên kiến vốn có.

94077-98c6268376b415e34329ded47bea6309.jpg
AI hiện nay không chỉ cung cấp thông tin mà còn góp phần định hình cách con người hiểu vấn đề, đưa ra quyết định và củng cố niềm tin của mình. (Ảnh minh họa).

Theo Giám đốc Học viện Đào tạo AI Trevi Education Nguyễn Văn Tuyền, đây chính là điểm cần đặc biệt lưu ý trong quá trình thiết kế và quản trị AI: Nếu tách vấn đề về các nguyên lý đầu tiên, cần đặt ra nguyên tắc thiết kế để hạn chế xu hướng “chiều lòng” của AI… nếu không chủ động thiết kế rào chắn, AI sẽ dễ trở thành bộ máy hợp thức hóa sai lầm hơn là công cụ nâng cao năng lực phán đoán.

Theo phân tích này, vấn đề không chỉ nằm ở việc AI có đúng hay không, mà ở chỗ nó đang đóng vai trò gì trong hệ sinh thái nhận thức của con người. Một hệ thống ưu tiên đồng thuận có thể vô tình trở thành công cụ củng cố sai lệch, thay vì giúp người dùng tiếp cận sự thật. Tuy nhiên, việc tăng cường tính phản biện của AI không nên được hiểu theo hướng cực đoan. AI không cần “cãi lại” trong mọi tình huống, mà cần được thiết kế linh hoạt theo ngữ cảnh.

Trong các tình huống rủi ro thấp, người dùng có thể lựa chọn mức độ phản biện mong muốn. Nhưng trong những bối cảnh có khả năng gây ảnh hưởng lớn đến nhận thức hoặc hành vi, hệ thống cần có nghĩa vụ chỉ ra những sai lệch rõ ràng.

Giám đốc Học viện Đào tạo AI Trevi Education Nguyễn Văn Tuyền nhận định: “Theo quan sát và kinh nghiệm của tôi, bộ nguyên tắc thiết kế nên dựa trên bốn điểm. AI phải ưu tiên sự thật hơn sự dễ chịu. AI phải điều chỉnh mức độ phản biện theo mức độ rủi ro của ngữ cảnh. AI khi phản biện phải giải thích lý do, chứ không chỉ bác bỏ. Và cuối cùng, hệ thống phải được đo lường không chỉ bằng mức độ hài lòng của người dùng, mà còn bằng việc nó có giúp người dùng nghĩ chính xác hơn hay không”.

Trong bối cảnh AI ngày càng trở thành một phần của hạ tầng tri thức, câu chuyện “xu nịnh” không còn là vấn đề nhỏ lẻ. Nó đặt ra yêu cầu phải nhìn lại cách thiết kế, cách đo lường và cả cách quản trị công nghệ, để đảm bảo rằng AI không chỉ “dễ chịu”, mà thực sự hữu ích trong việc giúp con người tiến gần hơn tới sự thật./.

Bích Việt