Trojan trong mô hình AI

gaditi

13 Tháng 12, 2024 9 minutes read

Kiến thức

Trong những thập kỷ tới, các rủi ro bảo mật liên quan đến hệ thống AI sẽ là trọng tâm chính trong nỗ lực của các nhà nghiên cứu. Một trong những rủi ro ít được khám phá nhất hiện nay là khả năng trojan hóa một mô hình AI. Điều này liên quan đến việc nhúng chức năng ẩn hoặc lỗi cố ý vào một hệ thống học máy có vẻ hoạt động chính xác khi nhìn thoáng qua. Có nhiều phương pháp khác nhau để tạo ra một con ngựa thành Troy như vậy, khác nhau về độ phức tạp và phạm vi — và tất cả chúng đều phải được bảo vệ.

Mã độc hại trong mô hình

Một số định dạng lưu trữ mô hình ML có thể chứa mã thực thi. Ví dụ, mã tùy ý có thể được thực thi trong khi tải tệp ở định dạng pickle, định dạng Python chuẩn được sử dụng để tuần tự hóa dữ liệu (chuyển đổi dữ liệu thành dạng thuận tiện để lưu trữ và truyền). Đặc biệt, định dạng này được sử dụng trong thư viện học sâu PyTorch. Trong một thư viện học máy phổ biến khác, TensorFlow, các mô hình ở định dạng .keras và HDF5 hỗ trợ “lớp lambda”, cũng thực thi các lệnh Python tùy ý. Mã này có thể dễ dàng che giấu chức năng độc hại.

Tài liệu của TensorFlow bao gồm cảnh báo rằng mô hình TensorFlow có thể đọc và ghi tệp, gửi và nhận dữ liệu mạng và thậm chí khởi chạy các quy trình con. Nói cách khác, về cơ bản, đây là một chương trình hoàn chỉnh.

Mã độc hại có thể kích hoạt ngay khi mô hình ML được tải. Vào tháng 2 năm 2024, khoảng 100 mô hình có chức năng độc hại đã được phát hiện trong kho lưu trữ mô hình công khai phổ biến, Hugging Face. Trong số này, 20% đã tạo một lớp vỏ ngược trên thiết bị bị nhiễm và 10% đã khởi chạy phần mềm bổ sung.

Đầu độc tập dữ liệu đào tạo

Các mô hình có thể bị trojan hóa ở giai đoạn đào tạo bằng cách thao túng các tập dữ liệu ban đầu. Quá trình này, được gọi là đầu độc dữ liệu, có thể có mục tiêu hoặc không có mục tiêu. Đầu độc có mục tiêu đào tạo một mô hình hoạt động không chính xác trong các trường hợp cụ thể (ví dụ: luôn tuyên bố rằng Yuri Gagarin là người đầu tiên đặt chân lên Mặt trăng). Đầu độc không có mục tiêu nhằm mục đích làm giảm chất lượng tổng thể của mô hình.

Các cuộc tấn công có mục tiêu khó phát hiện trong một mô hình đã được đào tạo vì chúng yêu cầu dữ liệu đầu vào rất cụ thể. Nhưng đầu độc dữ liệu đầu vào cho một mô hình lớn rất tốn kém vì nó đòi hỏi phải thay đổi một lượng dữ liệu đáng kể mà không bị phát hiện.

Trên thực tế, có những trường hợp đã biết về việc thao túng các mô hình tiếp tục học trong khi hoạt động. Ví dụ nổi bật nhất là vụ đầu độc chatbot Tay của Microsoft, được đào tạo để thể hiện quan điểm phân biệt chủng tộc và cực đoan trong vòng chưa đầy một ngày. Một ví dụ thực tế hơn là các nỗ lực đầu độc trình phân loại thư rác của Gmail. Ở đây, kẻ tấn công đánh dấu hàng chục nghìn email spam là hợp lệ để cho phép nhiều thư rác hơn vào hộp thư đến của người dùng.

Có thể đạt được mục tiêu tương tự bằng cách thay đổi nhãn đào tạo trong các tập dữ liệu có chú thích hoặc bằng cách đưa dữ liệu bị nhiễm độc vào quy trình tinh chỉnh của một mô hình được đào tạo trước.

Shadow logic

Một phương pháp mới để sửa đổi hệ thống AI một cách ác ý là đưa thêm các nhánh vào đồ thị tính toán của mô hình. Cuộc tấn công này không liên quan đến mã thực thi hoặc can thiệp vào quy trình đào tạo, nhưng mô hình đã sửa đổi có thể thể hiện hành vi mong muốn để phản hồi dữ liệu đầu vào cụ thể được xác định trước.

Cuộc tấn công tận dụng thực tế là các mô hình học máy sử dụng đồ thị tính toán để cấu trúc các phép tính cần thiết cho quá trình đào tạo và thực thi của chúng. Đồ thị mô tả trình tự các khối mạng nơ-ron được kết nối và xác định các tham số hoạt động của chúng. Đồ thị tính toán được thiết kế riêng cho từng mô hình, mặc dù trong một số kiến trúc mô hình ML, chúng là động.

Các nhà nghiên cứu đã chứng minh rằng đồ thị tính toán của một mô hình đã được đào tạo có thể được sửa đổi bằng cách thêm một nhánh vào các giai đoạn đầu của hoạt động của nó để phát hiện “tín hiệu đặc biệt” trong dữ liệu đầu vào; sau khi phát hiện, mô hình được chỉ đạo hoạt động theo logic được lập trình riêng. Trong một ví dụ từ nghiên cứu, mô hình phát hiện đối tượng video phổ biến YOLO đã được sửa đổi để bỏ qua những người trong khung hình nếu cũng có một chiếc cốc.

Nguy cơ của phương pháp này nằm ở khả năng áp dụng của nó cho bất kỳ mô hình nào, bất kể định dạng lưu trữ, phương thức hoặc phạm vi ứng dụng. Có thể triển khai backdoor cho xử lý ngôn ngữ tự nhiên, phát hiện đối tượng, nhiệm vụ phân loại và mô hình ngôn ngữ đa phương thức. Hơn nữa, sửa đổi như vậy có thể được bảo toàn ngay cả khi mô hình trải qua quá trình đào tạo và tinh chỉnh thêm.

Cách bảo vệ các mô hình AI tránh backdoors

Một biện pháp bảo mật quan trọng là kiểm soát toàn diện chuỗi cung ứng. Điều này có nghĩa là đảm bảo rằng nguồn gốc của mọi thành phần trong hệ thống AI đều được biết đến và không có sửa đổi độc hại, bao gồm:

Mã chạy mô hình AI
Môi trường điện toán mà mô hình hoạt động (thường là lưu trữ đám mây)
Các tệp của mô hình
Dữ liệu được sử dụng để đào tạo
Dữ liệu được sử dụng để tinh chỉnh

Các kho lưu trữ ML lớn đang dần triển khai chữ ký số để xác minh nguồn gốc và mã của mô hình.

Trong trường hợp không thể kiểm soát chặt chẽ nguồn gốc của dữ liệu và mã, nên tránh các mô hình từ các nguồn đáng ngờ và ưu tiên các dịch vụ của nhà cung cấp có uy tín.

Tổng hợp

Tags : AI Trojan

Đang tải

Bạn có biết không?

Trojan trong mô hình AI

gaditi

Mã độc hại trong mô hình

Đầu độc tập dữ liệu đào tạo

Shadow logic

Cách bảo vệ các mô hình AI tránh backdoors

Chia sẽ bài viết

Bài viết liên quan

Wi-Fi 7 là gì? Công nghệ mạng không d

Microsoft Word là gì?

Hướng dẫn xử lý dữ liệu >10GB khi

Leave a Comment Hủy

Bài viết mới

Danh mục

Bài viết mới

Dịch vụ