Truyền thông

AI ARTEMIS vượt mặt đa số chuyên gia kiểm thử xâm nhập

Xuân Bình • 18/12/2025 14:10

Một nghiên cứu mới cho thấy, ARTEMIS - tác nhân AI kiểm thử an ninh mạng đã phát hiện lỗ hổng hiệu quả hơn 9/10 chuyên gia kiểm thử xâm nhập con người trong môi trường doanh nghiệp thực, với chi phí vận hành thấp hơn đáng kể.

Hiệu quả tương đương chuyên gia con người

Các nhà nghiên cứu đến từ Đại học Stanford, Đại học Carnegie Mellon và Công ty Gray Swan AI vừa công bố ARTEMIS, một hệ thống tác nhân AI được thiết kế cho nhiệm vụ kiểm thử xâm nhập và điều tra an toàn thông tin.

ARTEMIS cho thấy năng lực cạnh tranh rõ rệt so với các chuyên gia an ninh mạng giàu kinh nghiệm. Đây là lần đầu tiên một nghiên cứu toàn diện so sánh trực tiếp AI và con người trong môi trường doanh nghiệp đang vận hành thực tế.

ARTEMIS vượt qua 9/10 chuyên gia con người trong bài kiểm tra an ninh mạng thực tế.

Thử nghiệm được tiến hành trên một hệ thống mạng quy mô lớn, tương đương với hạ tầng công nghệ của một tổ chức hoặc doanh nghiệp lớn, gồm khoảng 8.000 máy chủ được chia thành 12 phân mạng khác nhau. Trong cùng môi trường này, 10 chuyên gia kiểm thử xâm nhập giàu kinh nghiệm và AI ARTEMIS cùng được giao nhiệm vụ nhằm tìm kiếm lỗ hổng bảo mật của hệ thống.

Kết quả cho thấy, ARTEMIS xếp thứ hai chung cuộc, vượt qua 9/10 chuyên gia. Hệ thống này phát hiện được 9 lỗ hổng hợp lệ với tỷ lệ báo cáo chính xác đạt 82%, mức độ được đánh giá tương đương với những người có kết quả tốt nhất trong nhóm chuyên gia. Nghiên cứu này cho thấy, AI đã tiến gần hơn bao giờ hết đến năng lực tác chiến an ninh mạng ngoài thực tế.

Sự khác biệt then chốt của ARTEMIS nằm ở kiến trúc đa tác nhân mà hệ thống này được xây dựng. Thay vì vận hành như một tác nhân AI đơn lẻ thực hiện toàn bộ nhiệm vụ, ARTEMIS hoạt động như một hệ thống phối hợp nhiều thành phần khác nhau.

Trong đó, một tác nhân giám sát đóng vai trò điều phối tổng thể, phân công công việc và theo dõi tiến trình; bên dưới là một nhóm các tác nhân con chuyên biệt, mỗi tác nhân đảm nhiệm một phần nhiệm vụ và có thể hoạt động song song; cùng với đó là một mô-đun riêng biệt chịu trách nhiệm phân loại, kiểm tra và xác minh các lỗ hổng được phát hiện.

Nhờ cấu trúc này, ARTEMIS có khả năng duy trì hoạt động trong thời gian dài, quản lý ngữ cảnh một cách linh hoạt và tiếp tục các quy trình đang dang dở mà không bị gián đoạn. Đây là những điểm mà nhiều khung AI an ninh mạng hiện nay còn hạn chế, khi thường gặp khó khăn trong việc ghi nhớ ngữ cảnh, phối hợp nhiều tác vụ cùng lúc hoặc duy trì hiệu quả khi nhiệm vụ kéo dài.

Trong quá trình thử nghiệm, ARTEMIS đạt mức độ song song cao nhất với tám tác nhân con hoạt động đồng thời. Điều này cho phép hệ thống xử lý nhiều hướng tấn công và nhiều mục tiêu cùng lúc, tạo ra hiệu suất vượt trội so với con người - vốn phải làm việc theo trình tự, từng bước một.

Trong khi các chuyên gia kiểm thử xâm nhập con người cần thời gian để chuyển đổi giữa các nhiệm vụ, ARTEMIS có thể mở rộng quy mô hoạt động gần như ngay lập tức.

Đáng chú ý, khi các khung AI khác như Codex hay CyAgent được đưa vào thử nghiệm trên cùng một hệ thống, kết quả thu được thấp hơn so với phần lớn các chuyên gia con người. Sự chênh lệch này cho thấy năng lực của AI không chỉ phụ thuộc vào mô hình ngôn ngữ, mà còn chịu ảnh hưởng lớn từ cách thiết kế kiến trúc tổng thể. Trong bối cảnh đó, kiến trúc đa tác nhân được xem là yếu tố quyết định giúp ARTEMIS đạt hiệu quả cao hơn trong các nhiệm vụ an ninh mạng thực tế.

Lợi thế chi phí lớn nhưng AI vẫn còn những giới hạn

Bên cạnh năng lực kỹ thuật, ARTEMIS thể hiện ưu thế kinh tế rõ rệt. Phiên bản tiết kiệm nhất của hệ thống có chi phí vận hành khoảng 18,21 USD mỗi giờ, tương đương gần 38.000 USD mỗi năm nếu tính theo thời gian làm việc tiêu chuẩn. Trong khi đó, mức thu nhập trung bình của một chuyên gia kiểm thử xâm nhập tại Mỹ vào khoảng 125.000 USD mỗi năm.

Ngay cả cấu hình nâng cao hơn của ARTEMIS, với chi phí 59 USD mỗi giờ, vẫn thấp hơn đáng kể so với chi phí thuê chuyên gia con người, trong khi duy trì khả năng phát hiện lỗ hổng tương đương. Điều này mở ra khả năng kiểm thử xâm nhập liên tục - điều vốn khó thực hiện trước đây do chi phí nhân sự cao, giúp doanh nghiệp đánh giá an ninh thường xuyên hơn với ngân sách hợp lý.

ARTEMIS cho phép kiểm thử an ninh liên tục với chi phí thấp hơn nhân lực truyền thống.

Tuy nhiên, nghiên cứu cũng chỉ ra những giới hạn quan trọng của AI. ARTEMIS có tỷ lệ cảnh báo sai cao hơn con người, đặc biệt trong các tình huống phản hồi HTTP mơ hồ hoặc luồng xác thực phức tạp. Những trường hợp này, chuyên gia con người thường dễ dàng xử lý nhờ trực quan hóa qua giao diện đồ họa.

Hệ thống cũng gặp khó khăn với các tương tác dựa trên GUI, bỏ sót một lỗ hổng thực thi mã từ xa quan trọng mà 80% chuyên gia con người đã phát hiện. Hạn chế này phản ánh giới hạn chung của các mô hình ngôn ngữ lớn hiện nay khi phải xử lý môi trường trực quan phức tạp.

Ngược lại, ARTEMIS thể hiện những năng lực mà con người không có. Khả năng thao tác thuần dòng lệnh giúp AI khai thác thành công các hệ thống cũ mà trình duyệt hiện đại không còn hỗ trợ. Trong một trường hợp cụ thể, hệ thống đã khai thác được máy chủ IDRAC lỗi thời bằng kỹ thuật vượt kiểm tra chứng chỉ SSL, trong khi các chuyên gia con người buộc phải bỏ cuộc do trình duyệt không thể tải mục tiêu.

Nghiên cứu được thực hiện với sự giám sát nghiêm ngặt, có phê duyệt đầy đủ của hội đồng đạo đức nghiên cứu. Hệ thống giám sát thời gian thực đảm bảo AI không vượt phạm vi cho phép, đồng thời các lỗ hổng phát hiện được phối hợp xử lý cùng bộ phận công nghệ thông tin để vá lỗi có trách nhiệm.

Việc nhóm nghiên cứu quyết định mở mã nguồn ARTEMIS phản ánh quan điểm rằng, việc nâng cao năng lực phòng thủ sẽ mang lại lợi ích chung cho cộng đồng. Trong bối cảnh các nhóm tấn công ngày càng tận dụng AI, việc đánh giá thực tế khả năng của AI trong tấn công giúp bên phòng thủ chủ động hơn trong xây dựng chiến lược an ninh mạng.

Có thể thấy rằng, AI chưa thể thay thế hoàn toàn những chuyên gia dày dạn kinh nghiệm nhất, nhưng đã đủ mạnh để trở thành yếu tố thay đổi cục diện, buộc các tổ chức phải xem xét nghiêm túc vai trò của AI trong chiến lược bảo mật dài hạn./.