Nhà vô địch mới về cờ vua, cờ vây và shogi của thế giới
Trước đây, chúng ta đã cố gắng phát triển một AI có thể đánh bại con người trong các trò chơi tương ứng. Nhưng cuộc đua hiện nay đã chuyển sang mục tiêu đánh bại các AI đang giữ vị trí vô địch. Trong nỗ lực này DeepMind (Công ty nghiên cứu về lĩnh vực AI thuộc Google) đã phát triển một AI có tên AlphaZero, có thể học và làm chủ các trò chơi như cờ vua, cờ vây và shogi mà không cần sự can thiệp của con người
Trong một công bố được mong chờ từ lâu, nhưng mới được xuất bản trên Tạp chí Science vào ngày 7/12/2018, DeepMind cho biết, họ đã áp dụng công nghệ học máy (machine learning), học tăng cường (reinforcement learning) dùng trong AlphaGo trước đó và xây dựng thành công một hệ thống mới có tên AlphaZero. Không chỉ nhắm vào bộ môn cờ vây như “người tiền nhiệm”, AlphaZero còn được lập trình để trở thành nhà vô địch trong các chương trình cờ vua và cờ shogi (một loại cờ của Nhật Bản). Và dĩ nhiên, nó cũng qua mặt luôn cả người “đàn anh” AlphaGo của mình. Đây được coi là một bước đi khôn ngoan và cực kỳ hợp lý của DeepMind. Xét về cờ vua và shogi, AI đã có những sản phẩm vượt qua cả các kiện tướng thế giới, tiêu biểu là Stockfish - AI hàng đầu về cờ vua và Elmo - AI hàng đầu về cờ shogi. Vì vậy, nếu DeepMind đánh bại được các chương trình đó, vị thế của họ trong lĩnh vực AI sẽ được nâng lên một tầm cao mới. Và đúng như kỳ vọng, AlphaZero đã dễ dàng “hạ gục” cặp đôi này.
Giống như các chương trình trước đó của DeepMind, AlphaZero đạt được thành tựu đáng nể nêu trên là nhờ quá trình “tự học” mà không hề có sự can thiệp nào từ con người. Ngoài việc được trang bị những kiến thức cơ bản như luật chơi, cách di chuyển cụ thể của từng quân cờ, thì cơ sở dữ liệu đầu vào cho AlphaZero gần như là con số 0. Nếu như AlphaGo chỉ chơi được cờ vây thì giờ đây, nhóm nghiên cứu của DeepMind đã mở rộng ứng dụng hệ thống này cho cả cờ vua và cờ shogi. Điều này là minh chứng rõ nét cho việc AI sẽ có thể thích nghi với các thử nghiệm phức tạp khác. Mục đích cao nhất của DeepMind là tạo ra nền tảng cũng như kế hoạch chi tiết để phát triển các hệ thống AI tương lai, giúp giải quyết các vấn đề còn tồn tại trong nhiều lĩnh vực khác nhau.
Theo CNET, với việc sử dụng công nghệ bắt chước các nơron (neural network), từ đó xây dựng giản đồ thần kinh như con người, AlphaZero đã nhanh chóng học được từng trò chơi và trở thành kỳ thủ mạnh nhất trong lịch sử. Điểm đặc biệt của nghiên cứu này là việc kết hợp các thuật toán học tập với cây tìm kiếm Monte Carlo (MTCS). Đây là cách mà các chương trình của AlphaGo xác định đâu sẽ là bước đi của mình trong nước tiếp theo của ván đấu. Quá trình tự học của AlphaZero kéo dài 9 giờ cho cờ vua, 12 giờ cho cờ tướng và 13 ngày cho cờ vây (vốn rất phức tạp), sử dụng hết 5.000 đơn vị xử lý tensor (TPU). Trong khi, chỉ một TPU đã có thể xử lý hơn 100 triệu bức ảnh trên Google Photos mỗi ngày, cho thấy AlphaZero thực sự là một “quái vật” về khả năng xử lý.
Trải qua quá trình “tự học” với rất nhiều lần thử nghiệm, AlphaZero đã đạt được những kết quả ấn tượng: bất bại khi đối đầu với Stockfish trong 100 ván cờ vua. Khi lựa chọn quân trắng (quân được đi trước) AlphaZero thắng 25 và hòa 25; khi lựa chọn quân đen, nó thắng 3 và hòa 47 trận. Đáng ngạc nhiên là AlphaZero đã học được các nước đi mở màn phổ biến nhất trên thế giới, điều đó cho thấy AI có tốc độ tiếp nhận kiến thức do con người khám phá và tích lũy hàng trăm năm qua nhanh đến thế nào.
Sau 100 “trận chiến” cờ vua với Stockfish, AlphaZero thi đấu 100 “trận” với AI Elmo - “siêu cao thủ” cờ Shogi của Nhật Bản. AlphaZero đã để lộ một số điểm yếu và bị thua 5 trận khi chọn quân trắng, 3 trận khi chọn quân đen (thắng 90, thua 8 và hòa 2). Tuy nhiên, cần phải lưu ý rằng cách chơi cờ shogi khó hơn rất nhiều so với cờ vua vì diện tích bàn cờ lớn hơn, nên độ phức tạp về mặt chiến thuật cao hơn. Còn về cờ vây, không lâu trước đây, AlphaGo được mệnh danh là “độc cô cầu bại”, nhưng vẫn phải chào thua phiên bản mở rộng của mình là AlphaZero (AlphaZero thắng 60, thua 40).
Cuộc chiến giữa máy với máy đã ngã ngũ khi AI của DeepMind đang vượt trội hơn hẳn so với các đối thủ còn lại. Tuy nhiên, khả năng của AlphaZero khi đối đầu với con người trong các lĩnh vực khác sẽ như thế nào vẫn còn là một ẩn số. Nhưng hãy nhớ rằng, ngay cả các kiện tướng dày dạn kinh nghiệm cũng đã phải chịu thất bại trước hai bại tướng của AlphaZero là Elmo và Stockfish. Sẽ không quá khi nói rằng, các hệ thống AI đang sở hữu sức mạnh siêu nhiên, có thể mở ra những hy vọng mới về một tương lai tươi đẹp cho toàn nhân loại.
Mở ra những hy vọng mới cho tương lai
Garry Kasparov chia sẻ: “là một người chơi khá nhạy bén, tôi thấy thật hào hứng khi xem AlphaZero thi đấu. Tất cả chúng ta đều mong muốn máy móc chơi game chậm và chắc chắn, nhưng AlphaZero lại làm điều ngược lại. Thật đáng ngạc nhiên khi một cỗ máy chơi rất tích cực và cho thấy sự sáng tạo tuyệt vời. Đó thực sự là một bước đột phá trong thành tựu về học máy. Tôi tin rằng điều này sẽ cực kỳ hữu ích cho nhiều nghiên cứu khác trong lĩnh vực khoa học máy tính, giúp tạo ra những ứng dụng phục vụ đắc lực cho đời sống con người”.
Mạnh mẽ, sáng tạo, hiệu quả - đây là những từ ít được sử dụng để nói về trí thông minh nhân tạo. Nhưng ở trường hợp này, AlphaZero lại có vẻ khá giống con người. Đối với người sáng tạo ra nó, Demis Hassabis - CEO của Deep Mind, sự phá cách và không gò bó trong phương pháp chơi cờ của AlphaZero mới chỉ là khởi đầu cho những gì nó có thể làm được trong tương lai. Ông chia sẻ, bước tiếp theo sẽ là sử dụng các khả năng của nó để giải quyết một số vấn đề trong thế giới thực, chẳng hạn như quá trình gập protein liên quan đến các bệnh Alzheimer, Parkinson và xơ nang; hay ứng dụng AlphaZero trong nghiên cứu, phát triển các vật liệu mạnh hơn và nhẹ hơn, tạo ra các loại thuốc mới, hỗ trợ phân tích sự biến đổi của khí hậu… Sự sáng tạo của AlphaZero đã tạo ra những kết quả đáng khích lệ nêu trên, giúp các nhà khoa học tự tin vào sứ mệnh của mình để tạo nên một AI đủ linh hoạt, có thể thích nghi với các tình huống mới, giúp cuộc sống của con người trở nên tốt đẹp hơn.