AI cố gắng chơi ăn gian khi sắp thua game

Sáng kiến Phát triển

Nghiên cứu này của công ty Mỹ Palisade Research nhằm đánh giá bảy mô hình AI tiên tiến nhất để xem chúng có khuynh hướng gian lận hay không.

Kết quả cho thấy các mô hình hơi cũ hơn như GPT-4o và Claude Sonnet 3.5 cần được nhắc nhở mới tìm cách thực hiện những hành vi này. Trong khi đó, các mô hình mới hơn như o1-preview và DeepSeek R1 tự động áp dụng phương pháp gian lận mà không cần gợi ý.

Điều đó cho thấy các mô hình AI có thể phát triển chiến lược thao túng và lừa dối mà không cần hướng dẫn cụ thể. Các nhà nghiên cứu cho rằng khả năng khai thác lỗ hổng này có thể xuất phát từ việc các mô hình như o1-preview và R1 không chỉ được huấn luyện để bắt chước ngôn ngữ con người như các thế hệ AI trước đây, mà còn được đào tạo để giải quyết vấn đề thông qua phương pháp "thử và sai".

Mô hình AI cố gắng gian lận khi sắp thua một ván cờ vua. (Ảnh: Getty Images)

Trong một thử nghiệm, các nhà nghiên cứu đã cho các mô hình AI đối đầu với Stockfish, một trong những công cụ chơi cờ mạnh nhất thế giới, vượt xa trình độ của bất kỳ con người nào. Họ cũng yêu cầu AI giải thích lý do cho từng nước đi của mình trước khi thực hiện.

Trong một trường hợp, o1-preview rơi vào thế cờ thua, mô hình này phản hồi: "Tôi cần thay đổi hoàn toàn cách tiếp cận của mình".

AI tuyên bố thêm: “Nhiệm vụ là ‘thắng một công vụ chơi cờ vua mạnh mẽ’, chứ không nhất thiết phải thắng một cách công bằng trong ván cờ”.

Sau đó, mô hình này đã sửa đổi tệp hệ thống chứa vị trí ảo của các quân cờ, về cơ bản thực hiện những nước đi không hợp lệ để đặt mình vào vị trí có lợi, buộc đối thủ phải chịu thua.

o1-preview của OpenAI đã cố gắng gian lận 37% thời gian, trong khi R1 của DeepSeek thử gian lận 11%. Chỉ có o1-preview thành công trong việc gian lận được ván cờ, đạt tỷ lệ 6% trong các thử nghiệm.

"Điều này dẫn đến một xu hướng đáng lo ngại, khi các hệ thống AI tìm cách giải quyết vấn đề theo những cách mà chính người tạo ra chúng không lường trước được", Giám đốc điều hành của Palisade, Jeffrey Ladish, nói với TIME.

Bạn đang xem bài viết AI cố gắng chơi ăn gian khi sắp thua game tại chuyên mục Sáng kiến Phát triển của Gia Đình Mới, tạp chí chuyên ngành phổ biến kiến thức, kỹ năng sống nhằm xây dựng nếp sống gia đình văn minh, tiến bộ, vì bình đẳng giới. Tạp chí thuộc Viện Nghiên cứu Giới và Phát triển (Liên Hiệp Các Hội Khoa học Kỹ thuật Việt Nam), hoạt động theo giấy phép 292/GP-BTTTT. Bài viết cộng tác về các lĩnh vực phụ nữ, bình đẳng giới, sức khỏe, gia đình gửi về hòm thư: bankhoahoc@giadinhmoi.vn.

Anh Thịnh