Chuyển đổi số

‏Gemini 3: Bước tiến mới của Google nhằm duy trì sức nóng trong cuộc đua AI‏

Hoàng Phương Linh • 27/11/2025 14:25

‏Mô hình AI mới nhất của Google được cho là vượt trội hơn nhiều đối thủ trong các bài kiểm tra tiêu chuẩn. Tuy vậy, giới chuyên môn vẫn bày tỏ lo ngại khi những vấn đề về độ tin cậy chưa được giải quyết dứt điểm, làm dấy lên cảnh báo về nguy cơ “bong bóng” AI có thể sớm vỡ.‏

‏‏Theo công bố của Google, chatbot mới Gemini 3 đã đạt những bước tiến đáng kể trong hàng loạt bài kiểm tra chuẩn đo lường sự phát triển của trí tuệ nhân tạo (AI). Các kết quả này phần nào xoa dịu nỗi lo về nguy cơ “vỡ bong bóng AI”, nhưng việc những điểm số đó có chuyển hóa thành năng lực thực tế hay không vẫn là câu hỏi bỏ ngỏ.‏

‏Đáng lo ngại hơn, các sai lệch trong ứng dụng thực tế và tình trạng “ảo giác” - vấn đề cố hữu của những mô hình ngôn ngữ lớn - vẫn chưa được giải quyết triệt để, tiềm ẩn rủi ro đối với các lĩnh vực cần độ tin cậy cao.

Trong bài đăng giới thiệu mô hình, lãnh đạo Google Sundar Pichai và Demis Hassabis khẳng định: Gemini 3 sở hữu “tư duy cấp độ tiến sĩ”, cụm từ mà chính đối thủ OpenAI từng dùng khi nói về GPT-5. Họ dẫn chứng bằng kết quả từ Humanity’s Last Exam - bộ 2.500 câu hỏi trình độ nghiên cứu thuộc các lĩnh vực toán, khoa học và nhân văn - nơi Gemini 3 đạt 37,5%, vượt xa kỷ lục cũ 26,5% của GPT-5.‏

Tuy các bước tiến này cho thấy mô hình đã cải thiện ở một số khía cạnh, nhưng cần hết sức thận trọng khi diễn giải các kết quả đó, chuyên gia Luc Rocher tại Đại học Oxford nhấn mạnh.‏

Ngay cả khi điểm số tăng từ 80% lên 90%, điều đó thực sự không mang ý nghĩa gì. Không có con số nào có thể định lượng chính xác việc một mô hình AI có sở hữu "tư duy" hay không, vì đó vốn là khái niệm mang tính chủ quan, Luc Rocher nhấn mạnh.‏

‏Các bài kiểm tra chuẩn cũng tồn tại nhiều hạn chế khi chủ yếu dựa vào câu hỏi trắc nghiệm, không yêu cầu AI giải trình quá trình lập luận. Rocher ví von: Bác sĩ hay luật sư không thể chẩn bệnh hay tư vấn pháp lý bằng trắc nghiệm. Ngoài ra, còn rủi ro rằng mô hình đã “học vẹt” các đáp án trong giai đoạn huấn luyện do dữ liệu bị rò rỉ, khiến quá trình đánh giá trở nên thiếu minh bạch.‏

‏Theo Rocher, bài kiểm tra thực sự của Gemini 3 - đồng thời cũng là cách biện minh cho hàng nghìn tỷ USD mà các tập đoàn đang đầu tư vào trung tâm dữ liệu - sẽ phụ thuộc vào cách người dùng triển khai nó và mức độ tin cậy mà nó thể hiện trong thực tế.‏

‏Về phần mình, Google khẳng định những cải tiến của Gemini 3 giúp mô hình vượt trội hơn trong viết phần mềm, sắp xếp email và phân tích tài liệu. Hãng cũng có kế hoạch nâng cấp Google Search bằng cách tích hợp kết quả do AI tạo ra, kèm hình minh họa và mô phỏng trực quan.‏

‏Theo Adam Mahdi (Đại học Oxford), bước tiến lớn nhất có lẽ không dành cho người dùng phổ thông mà cho những người khai thác AI để viết mã tự động - hay còn gọi là “lập trình tác nhân” (agentic coding). Chúng ta đang chạm tới giới hạn trần của một chatbot thông thường, Adam Mahdi nhận định. Giá trị thực của Gemini 3 Pro sẽ nằm ở các quy trình làm việc phức tạp, đòi hỏi mức độ tự chủ cao, hơn là những cuộc trò chuyện thường ngày.‏

‏Phản ứng ban đầu từ cộng đồng mạng đối với Gemini 3 khá trái chiều. Bên cạnh những lời khen về khả năng lập trình và tư duy, nhiều bài đăng vẫn chỉ ra các lỗi ngớ ngẩn của mô hình. Tương tự các phiên bản trước, Gemini 3 đôi khi thất bại trước những tác vụ tưởng chừng đơn giản như lần theo các mũi tên vẽ tay hay giải các bài kiểm tra tư duy thị giác cơ bản.‏

‏Trong tài liệu kỹ thuật, chính Google cũng thừa nhận Gemini 3 vẫn đưa ra thông tin sai lệch với tần suất tương đương các mô hình AI hàng đầu khác./.‏