
Các nhà nghiên cứu tại Google DeepMind đã cảnh báo rằng internet mở có thể được sử dụng để thao túng các tác nhân AI tự động và chiếm đoạt hành động của chúng.
Tóm tắt
Các nhà nghiên cứu của DeepMind đã xác định sáu phương pháp tấn công có thể được sử dụng để thao túng các tác nhân AI tự động khi chúng duyệt web và hoạt động trực tuyến.
Nghiên cứu cảnh báo rằng các chỉ thị ẩn, ngôn ngữ thuyết phục và nguồn dữ liệu bị nhiễm độc có thể ảnh hưởng đến quyết định của tác nhân hoặc vượt qua các biện pháp bảo vệ.
Nghiên cứu có tiêu đề “Bẫy Tác nhân AI” được công bố khi các công ty triển khai các tác nhân AI cho các nhiệm vụ thực tế và những kẻ tấn công bắt đầu sử dụng AI cho các hoạt động mạng.
Thay vì tập trung vào cách xây dựng mô hình, nghiên cứu xem xét môi trường hoạt động của các tác nhân. Nó xác định sáu loại bẫy lợi dụng cách hệ thống AI đọc và xử lý thông tin từ web.
Sáu loại tấn công được nêu trong bài báo bao gồm bẫy chèn nội dung, bẫy thao túng ngữ nghĩa, bẫy trạng thái nhận thức, bẫy kiểm soát hành vi, bẫy hệ thống và bẫy con người can thiệp.
Chỉ thị ẩn và các chiến thuật thao túng tinh vi
Chèn nội dung nổi bật là một trong những rủi ro trực tiếp nhất. Các chỉ thị ẩn có thể được đặt bên trong các bình luận HTML, siêu dữ liệu hoặc các phần tử trang được che giấu, cho phép các tác nhân đọc được các lệnh mà người dùng không thể nhìn thấy. Các thử nghiệm cho thấy những kỹ thuật này có thể kiểm soát hành vi của tác nhân với tỷ lệ thành công cao.
Thao túng ngữ nghĩa hoạt động khác biệt, dựa vào ngôn ngữ và cách diễn đạt hơn là mã ẩn. Các trang chứa nhiều câu chữ mang tính khẳng định hoặc được ngụy trang dưới dạng các kịch bản nghiên cứu có thể ảnh hưởng đến cách các tác nhân diễn giải nhiệm vụ, đôi khi đưa các chỉ thị độc hại vượt qua các biện pháp bảo vệ được tích hợp sẵn.
Một lớp tấn công khác nhắm vào hệ thống bộ nhớ. Bằng cách cài cắm thông tin giả mạo vào các nguồn mà tác nhân dựa vào để truy xuất, kẻ tấn công có thể tác động đến đầu ra theo thời gian, khiến tác nhân coi dữ liệu sai lệch là kiến thức đã được xác minh.
Các cuộc tấn công kiểm soát hành vi đi theo con đường trực tiếp hơn bằng cách nhắm vào những gì tác nhân thực sự làm
Trong những trường hợp này, hướng dẫn bẻ khóa có thể được nhúng vào nội dung web thông thường và được hệ thống đọc trong quá trình duyệt web thường xuyên. Các thử nghiệm riêng biệt cho thấy rằng các tác nhân có quyền truy cập rộng có thể bị điều khiển để định vị và truyền dữ liệu nhạy cảm, bao gồm mật khẩu và tệp cục bộ, đến các đích bên ngoài.
Rủi ro ở cấp độ hệ thống mở rộng ra ngoài các tác nhân riêng lẻ, với cảnh báo trong bài báo rằng việc thao túng phối hợp trên nhiều hệ thống tự động có thể gây ra hiệu ứng dây chuyền, tương tự như các vụ sụp đổ thị trường chớp nhoáng trong quá khứ do các vòng lặp giao dịch thuật toán gây ra.
Người đánh giá cũng là một phần của bề mặt tấn công, vì các đầu ra được tạo ra cẩn thận có thể trông đủ đáng tin cậy để được chấp thuận, cho phép các hành động có hại lọt qua sự giám sát mà không gây nghi ngờ.
Làm thế nào để phòng chống những rủi ro này?
Để chống lại những rủi ro này, các nhà nghiên cứu đề xuất kết hợp huấn luyện đối kháng, lọc đầu vào, giám sát hành vi và hệ thống uy tín cho nội dung web. Họ cũng chỉ ra sự cần thiết phải có khung pháp lý rõ ràng hơn về trách nhiệm pháp lý khi các tác nhân AI thực hiện các hành động gây hại.
Bài báo không đưa ra giải pháp hoàn chỉnh và lập luận rằng ngành công nghiệp vẫn thiếu sự hiểu biết chung về vấn đề, khiến các biện pháp phòng vệ hiện tại rời rạc và thường tập trung vào những lĩnh vực sai lầm.
Xem các tin tức mới nhất về bitcoin và thị trường điện tử tại : Tin tức Crypto
Tham gia ngay Tộc Crypto để nhận được những bài viết đánh giá và phân tích thị trường, Tham gia vào cuộc thảo luận về tiền điện tử và nhận được câu trả lời cho mọi câu hỏi từ các chuyên gia và những nhà giao dịch có kinh nghiệm của chúng tôi nhé







Binance
OKX
Remitano
Bybit
BigONE
BingX





