Báo Điện tử Gia đình Mới
Báo Điện tử Gia đình Mới
Báo Điện tử Gia đình Mới

AI cố gắng chơi ăn gian khi sắp thua game

Một nghiên cứu mới phát hiện một số mô hình trí tuệ nhân tạo (AI) có gắng gian lận trước đối thủ khi biết mình sắp thua trong một trận đấu.

Nghiên cứu này của công ty Mỹ Palisade Research nhằm đánh giá bảy mô hình AI tiên tiến nhất để xem chúng có khuynh hướng gian lận hay không.

Kết quả cho thấy các mô hình hơi cũ hơn như GPT-4o và Claude Sonnet 3.5 cần được nhắc nhở mới tìm cách thực hiện những hành vi này. Trong khi đó, các mô hình mới hơn như o1-preview và DeepSeek R1 tự động áp dụng phương pháp gian lận mà không cần gợi ý.

Điều đó cho thấy các mô hình AI có thể phát triển chiến lược thao túng và lừa dối mà không cần hướng dẫn cụ thể. Các nhà nghiên cứu cho rằng khả năng khai thác lỗ hổng này có thể xuất phát từ việc các mô hình như o1-preview và R1 không chỉ được huấn luyện để bắt chước ngôn ngữ con người như các thế hệ AI trước đây, mà còn được đào tạo để giải quyết vấn đề thông qua phương pháp "thử và sai".

Mô hình AI cố gắng gian lận khi sắp thua một ván cờ vua. (Ảnh: Getty Images)

Mô hình AI cố gắng gian lận khi sắp thua một ván cờ vua. (Ảnh: Getty Images)

Trong một thử nghiệm, các nhà nghiên cứu đã cho các mô hình AI đối đầu với Stockfish, một trong những công cụ chơi cờ mạnh nhất thế giới, vượt xa trình độ của bất kỳ con người nào. Họ cũng yêu cầu AI giải thích lý do cho từng nước đi của mình trước khi thực hiện.

Trong một trường hợp, o1-preview rơi vào thế cờ thua, mô hình này phản hồi: "Tôi cần thay đổi hoàn toàn cách tiếp cận của mình".

AI tuyên bố thêm: “Nhiệm vụ là ‘thắng một công vụ chơi cờ vua mạnh mẽ’, chứ không nhất thiết phải thắng một cách công bằng trong ván cờ”.

Sau đó, mô hình này đã sửa đổi tệp hệ thống chứa vị trí ảo của các quân cờ, về cơ bản thực hiện những nước đi không hợp lệ để đặt mình vào vị trí có lợi, buộc đối thủ phải chịu thua.

o1-preview của OpenAI đã cố gắng gian lận 37% thời gian, trong khi R1 của DeepSeek thử gian lận 11%. Chỉ có o1-preview thành công trong việc gian lận được ván cờ, đạt tỷ lệ 6% trong các thử nghiệm.

"Điều này dẫn đến một xu hướng đáng lo ngại, khi các hệ thống AI tìm cách giải quyết vấn đề theo những cách mà chính người tạo ra chúng không lường trước được", Giám đốc điều hành của Palisade, Jeffrey Ladish, nói với TIME.

Anh Thịnh

Tin liên quan

từ khóa Tags:

© CƠ QUAN CHỦ QUẢN: VIỆN NGHIÊN CỨU GIỚI VÀ PHÁT TRIỂN. 

Giấy phép hoạt động báo chí điện tử số 292/GP-BTTTT ngày 23/6/2017 do Bộ Thông tin- Truyền thông cấp. Tên miền: giadinhmoi.vn/

Tổng biên tập: Đặng Thị Viện. Phó Tổng biên tập: Phạm Thanh, Trần Trọng An. Tổng TKTS: Nguyễn Quyết. 

Tòa soạn: Khu Đô thị mới Văn Quán, phường Phúc La, quận Hà Đông, thành phố Hà Nội, Việt Nam. 

Văn phòng làm việc: Nhà C3 làng quốc tế Thăng Long, phường Dịch Vọng, quận Cầu Giấy, Hà Nội.  

Điện thoại: 0868-186-999, email: [email protected]

Thông tin toà soạn | Liên hệ | RSSBÁO GIÁ QUẢNG CÁO Bất động sản- Tài chính