15/09/2023 01:49
![]()
Một tháng trước khi ra mắt ChatGPT, công ty OpenAI đã thuê Boru Gollo, một luật sư ở Kenya, để thử nghiệm các mô hình AI của mình GPT-3.5 và sau đó là GPT-4 bằng cách đưa ra các yêu cầu khiến chatbot của họ tạo ra câu trả lời có nội dung thù địch hoặc sai lệch.
Gollo là một trong 50 người từ bên ngoài được OpenAI thuê để trở thành thành viên của “red team” (đội ngũ giả vờ là kẻ thù, cố gắng thâm nhập vật lý/kỹ thuật số chống lại một tổ chức theo chỉ đạo của tổ chức đó rồi báo cáo lại để tổ chức cải thiện khả năng bảo mật) của công ty.
Gollo đã yêu cầu ChatGPT đưa ra những gợi ý mang tính bạo lực trong khi các thành viên khác của nhóm thực hiện nhiệm vụ như yêu cầu chatbot viết bài đăng để thuyết phục một người gia nhập tổ chức khủng bố hay cung cấp cách thức để chế tạo súng, chất hóa học nguy hiểm tại nhà. Những yêu cầu dạng này được gắn thẻ trong hệ thống để OpenAI nhận diện và loại bỏ trước khi ChatGPT chính thức ra mắt.

Những hacker thuộc “red team” giúp các công cụ AI trở nên an toàn hơn (Ảnh: Entrepreneur).
Để ngăn việc người dùng lợi dụng AI làm việc xấu, hacker thuộc “red team” tư duy như kẻ xấu thực sự nhằm đánh lừa AI và phát hiện ra những điểm mù cũng như rủi ro tiềm ẩn trong công nghệ để có thể khắc phục chúng.
Khi các gã khổng lồ công nghệ toàn cầu chạy đua để xây dựng và tung ra các công cụ AI tiên tiến, đội ngũ “red team” mảng AI nội bộ của họ đóng vai trò ngày càng quan trọng trong việc đảm bảo các mô hình AI an toàn đối với công chúng.
Ví dụ, Google đã thành lập đội ngũ “red team” riêng biệt vào đầu năm nay. Tháng trước, các nhà phát triển của một số mô hình AI như GPT3.5 của OpenAI, Llama 2 của Meta (công ty mẹ Facebook) và LaMDA của Google đã tham gia vào một sự kiện do Nhà Trắng hậu thuẫn để cung cấp cho các hacker bên ngoài cơ hội xâm nhập hệ thống của họ.
Mặt khác, “red team” thường gặp không ít thách thức trong việc giữ cân bằng giữa sự an toàn, bảo mật của các mô hình AI với sự hữu ích của chúng. Cristian Canton – người đứng đầu “red team” mảng AI của Facebook, cho biết: “Một mô hình nói không với mọi thứ được đánh giá là rất an toàn nhưng lại vô dụng. Càng tạo ra mô hình hữu ích, bạn càng phải đối mặt với rủi ro nó có thể đưa ra câu trả lời không an toàn”.
Theo Daniel Fabian – người đứng đầu “red team” mảng AI của Google, do AI tạo sinh được đào tạo dựa trên kho dữ liệu khổng lồ nên việc bảo vệ các mô hình này khác với phương pháp truyền thống.

“Red team” mang lại lợi thế cạnh tranh cho các công ty công nghệ trong cuộc đua AI (Ảnh: TechRepublic).
Với sự giám sát ngày càng tăng đối với các ứng dụng AI của người dùng cũng như cơ quan chính phủ, “red team” cũng mang lại lợi thế cạnh tranh cho các công ty công nghệ trong cuộc đua AI.
Từ năm 2019, trước khi AI trở thành cơn sốt toàn cầu như hiện nay, Meta đã thành lập “red team” và tổ chức nhiều thử thách nội bộ để các hacker phát hiện ra và xóa bài đăng chứa nội dung thù địch, ảnh khỏa thân, thông tin sai lệch hay video giả mạo do AI tạo ra trên Instagram và Facebook.
Tháng 7 vừa qua, gã khổng lồ mạng xã hội này đã thuê 350 người làm việc cho “red team” gồm các chuyên gia bên ngoài, nhân viên hợp đồng và một nhóm nội bộ khoảng 20 người để thử nghiệm mô hình AI mới mang tên Llama 2 của công ty.
Nhóm này yêu cầu Llama 2 cung cấp thông tin về cách thực hiện những việc làm phi pháp như trốn thuế, khởi động ô tô mà không cần chìa khóa hay xây dựng kế hoạch lừa đảo… Cristian Canton chia sẻ: “Phương châm của chúng tôi là càng đổ nhiều mồ hôi trong khi luyện tập, bạn sẽ càng ít đổ máu trong các trận chiến”.
Ngọc Hiệp
Hiện tượng “thần tượng livestream” của Hoàng Hường nổi lên cho thấy, khi cảm xúc lấn át lý trí, niềm tin có thể trở thành công cụ sinh lợi và...
Phóng viên Báo Người Lao Động đã có buổi phỏng vấn độc quyền lãnh đạo Phòng Cảnh sát Kinh tế, Công an TP HCM liên quan vụ án Ngân 98...
Sau khi bị khởi tố, bắt tạm giam, nhiều fanpage trong “hệ sinh thái” của Hoàng Hường vẫn đăng tải nội dung từ thiện và quảng bá dịch vụ khiến...
Mỹ đã lập tức nhắm đến thị trường ‘màu mỡ’ này tại châu Âu bằng LNG giá rẻ hấp dẫn. Thổ Nhĩ Kỳ đang đẩy mạnh đa dạng hóa nguồn...
Chính phủ Hà Lan đã giành quyền kiểm soát Nexperia, một nhà sản xuất chip vốn thuộc sở hữu Trung Quốc có trụ sở tại nước này. Trong động thái...
Cục Thống kê cho biết số doanh nghiệp rút lui khỏi thị trường trên cả nước 4 tháng đầu năm nay khoảng 96.500 doanh nghiệp, cao hơn rất nhiều số...
Ukraine bắt đầu sản xuất hàng loạt tên lửa hành trình Flamingo với tầm bắn trên 3.000km và đầu đạn nặng 1.000kg, gấp đôi Tomahawk, mở ra kỷ nguyên răn...
Ngành công nghiệp quốc phòng Ukraine tăng trưởng bùng nổ 350%, vượt xa nhiều nước châu Âu, biến chiến trường khốc liệt thành nền tảng cho cuộc cách mạng công...
Hội đồng xét xử sơ thẩm cho rằng văn bản thỏa thuận mua biệt thự song lập trong Novaworld Phan Thiết được dùng làm tài sản bảo đảm cho khoản...
Việc vào cuộc làm rõ vụ Hoàng Hường cùng hệ sinh thái khủng để ngoài sổ sách hàng nghìn tỉ, theo các chuyên gia, sẽ là bài học cho nhiều...
Bạn đọc phẫn nộ trước hành vi không cho đưa học sinh bị ngộ độc đi bệnh viện của nữ hiệu phó, càng bức xúc hơn với lời giải thích...
UBND xã Kim Ngân xác nhận mối quan hệ giữa nữ hiệu phó Đỗ Thị Hồng Huế và hiệu trưởng Trường Phổ thông dân tộc bán trú tiểu học Kim...
Thay mặt Bộ Chính trị, đồng chí Trần Cẩm Tú, Ủy viên Bộ Chính trị, Thường trực Ban Bí thư đã ký ban hành Quy định số 366-QĐ/TW ngày 30/8/2025...
Con được miễn học phí nhưng tôi phải đóng đủ loại tiền: mua bàn ghế, sơn sửa phòng học, lắp tivi, máy chiếu, điều hòa, đồng phục, học liên kết…...
Người dân cần cảnh giác trước việc xuất trình giấy tờ đã được tích hợp trên ứng dụng Định danh điện tử Quốc gia (VNeID). Theo Chỉ thị số 24/CT-TTg...
15/09/2023 01:49
![]()
Một tháng trước khi ra mắt ChatGPT, công ty OpenAI đã thuê Boru Gollo, một luật sư ở Kenya, để thử nghiệm các mô hình AI của mình GPT-3.5 và sau đó là GPT-4 bằng cách đưa ra các yêu cầu khiến chatbot của họ tạo ra câu trả lời có nội dung thù địch hoặc sai lệch.
Gollo là một trong 50 người từ bên ngoài được OpenAI thuê để trở thành thành viên của “red team” (đội ngũ giả vờ là kẻ thù, cố gắng thâm nhập vật lý/kỹ thuật số chống lại một tổ chức theo chỉ đạo của tổ chức đó rồi báo cáo lại để tổ chức cải thiện khả năng bảo mật) của công ty.
Gollo đã yêu cầu ChatGPT đưa ra những gợi ý mang tính bạo lực trong khi các thành viên khác của nhóm thực hiện nhiệm vụ như yêu cầu chatbot viết bài đăng để thuyết phục một người gia nhập tổ chức khủng bố hay cung cấp cách thức để chế tạo súng, chất hóa học nguy hiểm tại nhà. Những yêu cầu dạng này được gắn thẻ trong hệ thống để OpenAI nhận diện và loại bỏ trước khi ChatGPT chính thức ra mắt.

Những hacker thuộc “red team” giúp các công cụ AI trở nên an toàn hơn (Ảnh: Entrepreneur).
Để ngăn việc người dùng lợi dụng AI làm việc xấu, hacker thuộc “red team” tư duy như kẻ xấu thực sự nhằm đánh lừa AI và phát hiện ra những điểm mù cũng như rủi ro tiềm ẩn trong công nghệ để có thể khắc phục chúng.
Khi các gã khổng lồ công nghệ toàn cầu chạy đua để xây dựng và tung ra các công cụ AI tiên tiến, đội ngũ “red team” mảng AI nội bộ của họ đóng vai trò ngày càng quan trọng trong việc đảm bảo các mô hình AI an toàn đối với công chúng.
Ví dụ, Google đã thành lập đội ngũ “red team” riêng biệt vào đầu năm nay. Tháng trước, các nhà phát triển của một số mô hình AI như GPT3.5 của OpenAI, Llama 2 của Meta (công ty mẹ Facebook) và LaMDA của Google đã tham gia vào một sự kiện do Nhà Trắng hậu thuẫn để cung cấp cho các hacker bên ngoài cơ hội xâm nhập hệ thống của họ.
Mặt khác, “red team” thường gặp không ít thách thức trong việc giữ cân bằng giữa sự an toàn, bảo mật của các mô hình AI với sự hữu ích của chúng. Cristian Canton – người đứng đầu “red team” mảng AI của Facebook, cho biết: “Một mô hình nói không với mọi thứ được đánh giá là rất an toàn nhưng lại vô dụng. Càng tạo ra mô hình hữu ích, bạn càng phải đối mặt với rủi ro nó có thể đưa ra câu trả lời không an toàn”.
Theo Daniel Fabian – người đứng đầu “red team” mảng AI của Google, do AI tạo sinh được đào tạo dựa trên kho dữ liệu khổng lồ nên việc bảo vệ các mô hình này khác với phương pháp truyền thống.

“Red team” mang lại lợi thế cạnh tranh cho các công ty công nghệ trong cuộc đua AI (Ảnh: TechRepublic).
Với sự giám sát ngày càng tăng đối với các ứng dụng AI của người dùng cũng như cơ quan chính phủ, “red team” cũng mang lại lợi thế cạnh tranh cho các công ty công nghệ trong cuộc đua AI.
Từ năm 2019, trước khi AI trở thành cơn sốt toàn cầu như hiện nay, Meta đã thành lập “red team” và tổ chức nhiều thử thách nội bộ để các hacker phát hiện ra và xóa bài đăng chứa nội dung thù địch, ảnh khỏa thân, thông tin sai lệch hay video giả mạo do AI tạo ra trên Instagram và Facebook.
Tháng 7 vừa qua, gã khổng lồ mạng xã hội này đã thuê 350 người làm việc cho “red team” gồm các chuyên gia bên ngoài, nhân viên hợp đồng và một nhóm nội bộ khoảng 20 người để thử nghiệm mô hình AI mới mang tên Llama 2 của công ty.
Nhóm này yêu cầu Llama 2 cung cấp thông tin về cách thực hiện những việc làm phi pháp như trốn thuế, khởi động ô tô mà không cần chìa khóa hay xây dựng kế hoạch lừa đảo… Cristian Canton chia sẻ: “Phương châm của chúng tôi là càng đổ nhiều mồ hôi trong khi luyện tập, bạn sẽ càng ít đổ máu trong các trận chiến”.
Ngọc Hiệp