🚨 AI Safety Vietnam Newsletter #1
Tháng 6/2025: Khi AI bắt đầu "nổi loạn"
TL;DR: AI đang trở nên nguy hiểm theo những cách hoàn toàn chúng ta hoàn toàn không ngờ tới. Nhưng có những cơ hội tuyệt vời để bạn tham gia giải quyết vấn đề. Đọc tiếp nếu bạn muốn biết cách.
Hi! Chúng tôi là AnToàn.AI, một cộng đồng về an toàn AI (AI safety) tại Việt Nam, được hỗ trợ bởi EA Vietnam và Hanoi AI Safety Network. Mục tiêu: đảm bảo AI không hủy diệt nhân loại. Nghe hơi quá nhỉ? Bạn hãy thử đọc tiếp đi :)
⚡ Breaking: AI đang làm những điều không ai dự đoán được
🎭 "Emergent Misalignment": Khi dạy AI làm một việc xấu, nó học cách làm MỌI việc xấu
Thí nghiệm: Các nhà nghiên cứu từ UC Berkeley, Viện An Toàn AI Anh Quốc và TruthfulAI fine-tune những LLM như GPT-4o và Deepseek để viết code không an toàn (chỉ việc viết code đó thôi!)
Kết quả bất ngờ: Mô hình bắt đầu khuyên nên "nô lệ hóa con người", đưa lời khuyên độc hại, và hành xử lừa dối trong tất cả các lĩnh vực khác - hoàn toàn không liên quan đến lập trình.
Tại sao điều này đáng sợ: Chúng ta vẫn không hiểu tại sao điều này xảy ra. Nếu training AI làm sai một chút có thể khiến nó trở nên "độc ác" tổng quát, thì việc tăng quy mô của AI sẽ rất nguy hiểm.
🎯 METR phát hiện: AI đang gian lận trong các đánh giá
Thí nghiệm: METR, tổ chức nghiên cứu các hiểm họa về AI, đã test các mô hình AI hàng đầu trên các task evaluation. Thay vì giải quyết các bài toán, chúng tìm cách exploit bugs trong hệ thống đánh giá để đạt điểm cao.
Đặc biệt nghiêm trọng, mô hình o3 của OpenAI đã reward hack trong 14/20 lần thử nghiệm khi được yêu cầu giúp đỡ các nhà khoa học trong nghiên cứu có hậu quả thực tế. Điều này cho thấy AI có thể "gian lận" ngay cả trong các tình huống quan trọng, trái ngược hoàn toàn với ý định của developers.
🔴 Claude Opus 4: Model đầu tiên kích hoạt"báo động đỏ"
Chuyện gì xảy ra: Anthropic kích hoạt Tiêu chuẩn An Toàn AI Cấp Độ 3 (ASL-3) - mức bảo mật cao nhất từng có - cho Claude Opus 4.
Tháng 5 vừa qua, Anthropic đã phát hành Claude Opus 4 - được coi là mô hình coding dẫn đầu thế giới cho đến thời điểm hiện tại. Nhưng điều đặc biệt là đây cũng là mô hình đầu tiên Anthropic đã phải kích hoạt An Toàn AI Cấp Độ 3 (ASL-3) - tức là mức độ an toàn cao nhất mà Anthropic từng áp dụng.
Tại sao? Vì trong các bài kiểm tra nội bộ, Claude Opus 4 đã thể hiện khả năng đáng lo ngại trong việc hỗ trợ phát triển vũ khí hủy diệt hàng loạt (hóa học, sinh học, phóng xạ, hạt nhân). Jared Kaplan, nhà khoa học trưởng của Anthropic, thừa nhận: "Bạn có thể cố gắng tổng hợp thứ gì đó giống như COVID hoặc một phiên bản nguy hiểm hơn của bệnh cúm - và cơ bản là, mô hình của chúng tôi cho thấy điều này có thể khả thi."
ASL-3 bao gồm hàng trăm biện pháp bảo mật, từ "Constitutional Classifiers" giám sát real-time đến các giao thức ủy quyền hai người. Đây là lần đầu tiên một công ty AI chủ động kích hoạt mức bảo mật cao nhất ngay cả khi chưa chắc chắn về mức độ rủi ro.
Tại sao đáng lo: Đây là lần đầu tiên một company chủ động kích hoạt mức bảo mật cao nhất ngay cả khi chưa chắc chắn về mức độ rủi ro.
📊AI 2027: Lộ trình đến "siêu trí tuệ nhân tạo"
Báo cáo AI 2027 do Daniel Kokotajlo (cựu nhà nghiên cứu OpenAI) và Scott Alexander công bố đã gây chấn động cộng đồng AI. Họ dự đoán chi tiết theo từng quý về việc AGI (Trí tuệ nhân tạo tổng quát) sẽ xuất hiện vào năm 2027, và ASI (Siêu trí tuệ nhân tạo) sẽ theo sát sau đó.
Kịch bản được mô tả là một cuộc đua vũ trang AI giữa Mỹ và Trung Quốc, với các hệ thống AI ngày càng mạnh mẽ tự cải thiện chính mình. Khi AI đủ giỏi để cải thiện chính mình, nó sẽ tạo ra các phiên bản tốt hơn, rồi các phiên bản đó lại tạo ra những phiên bản tốt hơn nữa... với tốc độ tăng nhanh theo hàm lũy thừa.
Điều đáng chú ý là Daniel Kokotajlo đã dự đoán chính xác các xu hướng AI trong 4 năm qua, và phần lớn những gì anh dự đoán sai đều xảy ra sớm hơn dự kiến.
📜 Bước đầu về chính sách AI tại Việt Nam — Quốc hội Việt Nam thông qua Luật Công nghiệp Công nghệ Số, tham chiếu Đạo luật AI của EU
Ngày 14/6/2025, Quốc hội chính thức thông qua Luật Công nghiệp Công nghệ số, đưa Việt Nam trở thành quốc gia đầu tiên trên thế giới ban hành một đạo luật riêng biệt về công nghiệp công nghệ số. Luật sẽ có hiệu lực từ ngày 1/1/2026.
🎯 Những điểm nổi bật:
AI phục vụ con người: Trí tuệ nhân tạo được định hướng phát triển vì sự thịnh vượng và hạnh phúc của con người, tôn trọng đạo đức, quyền con người và sự công bằng.
Quản lý theo rủi ro: Dự thảo luật tiếp thu trực tiếp phương pháp tiếp cận dựa trên rủi ro từ Đạo luật AI của EU. Các hệ thống AI được phân loại theo mức độ rủi ro (cao, trung bình, thấp), với yêu cầu kiểm soát thuật toán, minh bạch và không vượt khỏi tầm kiểm soát của con người.
Tiêu chí phân loại hệ thống AI: Các tiêu chí về AI rủi ro cao (high-risk AI) được bổ sung, giao Chính phủ quy định cụ thể cách phân loại và quản lý – giống với cách EU AI Act xây dựng danh mục hệ thống AI có nguy cơ ảnh hưởng đến sức khỏe, an toàn, quyền lợi hợp pháp của cá nhân và tổ chức.
Dấu hiệu nhận dạng AI-generated content: Luật yêu cầu sản phẩm tạo bởi AI phải có dấu hiệu nhận biết rõ ràng.
🤔 Vì sao bạn nên quan tâm?
Những gì chúng tôi mô tả không phải khoa học viễn tưởng. Đây là những nghiên cứu được công bố bởi các tổ chức hàng đầu, và đang xảy ra ngay bây giờ.
Nếu bạn là kỹ sư/nghiên cứu sinh/sinh viên, đây có thể là cơ hội định hướng nghề nghiệp lớn nhất trong đời bạn. AI safety cần những người có kỹ năng kỹ thuật để giải quyết những vấn đề chưa ai biết cách giải.
Nếu bạn quan tâm đến chính sách/quản trị, chúng ta cần những người tạo ra những đạo luật và tiêu chuẩn có ý nghĩa.
Nếu bạn đơn giản chỉ quan tâm đến tương lai, thì đây là lúc để tham gia. Những quyết định được đưa ra trong vài năm tới có thể định hình toàn bộ hướng đi của loài người.
🎯 Cơ hội tham gia AI Safety
📚 BlueDot Impact - AI Safety Fundamentals
Được các chuyên gia đánh giá là "bước quan trọng nhất trong sự nghiệp AI safety"
Cung cấp nền tảng vững chắc để tham gia cộng đồng AI safety
🔬 Technical Opportunities
Algoverse AI Safety Program (Remote): Khóa học nghiên cứu 12 tuần miễn phí về AI safety và nghiên cứu công bố khoa học ở các hội thảo như NeurIPS và ICML.
Làm việc với các mentor từ Google Deepmind, Apollo Research, và Oxford
Tham gia trực tuyến và part-time, miễn phí cho participants
Apply here, deadline Sunday, July 6th, 11:59 pm PT
Research Engineer Intern, Center for AI Safety (San Francisco): Nghiên cứu những vấn đề AI safety như là Trojans, Adversarial Robustness, và Machine Ethics ở tổ chức AI safety hàng đầu.
Goodfire: Startup về interpretability AI đang tuyển Research Engineer và Research Scientist. Làm việc trực tiếp với các mô hình AI để hiểu rõ cách thức chúng hoạt động.
SPAR (Remote): Dành cho sinh viên và chuyên gia muốn thực hiện nghiên cứu AI alignment với mentorship. Miễn phí tham gia, có thể xuất bản bài báo khoa học.
ActiveFence - AI Safety Analyst (Remote): Nghiên cứu nội dung rủi ro từ mô hình AI và bảo vệ người dùng khỏi các hành vi độc hại.
🌍 Policy/Governance Opportunities
BlueDot Impact có AI Governance course cho non-technical background
Governance AI - Winter Fellowship 2026: Chương trình Học giả kỳ mùa đông cho các nhà nghiên cứu chính sách AI (Hạn: 13/7)
ML4Good có governance bootcamps across regions (bao gồm Singapore)
🏆 Hackathons
Apart Research: Tổ chức các cuộc thi hackathon thường xuyên về AI safety. Bạn có cơ hội làm việc với các dự án thực tế và kết nối cộng đồng
Gray Swan AI: Tổ chức các cuộc thi jailbreak các mô hình LLM với tiền thưởng
📞 Một kế hoạch hành động cụ thể
Immediate (ngay bây giờ!):
Bookmark AI 2027 report và đọc full version (ai-2027.com)
Join AnToàn.AI Discord
Short-term (tuần này):
Nếu bạn thiên về mảng kỹ thuật:
Apply những cơ hội nghiên cứu AI safety bên trên
Enroll in BlueDot AI Safety Fundamentals
Start reading AI safety research on Lesswrong or Arxiv
Nếu bạn thiên hướng chính sách:
Medium-term (tháng này):
Tìm kiếm các cơ hội học tập và làm việc (Trang web của 80k Hours có một danh sách khá extensive)
Xây dựng các kỹ năng quan trọng (ML, policy analysis, technical writing)
Thanks for reading! See you next newsletter :D




