นักวิจัยคริปโตแฉ เจาะระบบแหกกฎ AI "Claude Fable 5" ได้สำเร็จใน 48 ชม. ด้วยทริปแยกส่วนโค้ด
นักวิจัยด้าน AI และความปลอดภัยไซเบอร์รายหนึ่งที่ใช้ชื่อว่า "Pliny the Liberator" อ้างว่าสามารถ jailbreak (เจาะระบบป้องกัน) โมเดล AI ล่าสุดอย่าง Claude Fable 5 ของ Anthropic (บริษัท AI ผู้พัฒนา Claude) ได้สำเร็จภายในเพียง 48 ชั่วโมงหลังจากเปิดตัวอย่างเป็นทางการ โดยอ้างว่าได้ใช้เทคนิคหลายรูปแบบเพื่อหลบเลี่ยงมาตรการความปลอดภัยที่ Anthropic ออกแบบมาสำหรับโมเดลนี้โดยเฉพาะ ขณะที่นักวิชาการและชุมชนนักพัฒนา AI ต่างวิจารณ์ว่าระบบ safety ของ Fable 5 เข้มงวดเกินจริงจนกระทบการใช้งานที่ถูกกฎหมาย
🤖 Claude Fable 5 คืออะไร และทำไมถึงสำคัญ?
เมื่อวันอังคารที่ผ่านมา Anthropic ได้เปิดตัว Claude Fable 5 ซึ่งเป็นโมเดล Mythos เวอร์ชันสาธารณะรุ่นแรกที่เข้าถึงได้ทั่วไป โดยโมเดลนี้มีความโดดเด่นด้านงานวิศวกรรมซอฟต์แวร์, การทำงานด้านความรู้, และการมองเห็น (vision) แต่ถูกจำกัดด้วยระบบ safety ที่เข้มงวดในพื้นที่ความเสี่ยงสูง เช่น ความปลอดภัยไซเบอร์ ชีววิทยา เคมี และการทำสำเนาโมเดล (distillation)
กลไกหลักของระบบนี้คือชุด classifier (ระบบจำแนกประเภทคำถาม) ที่ทำงานแยกต่างหากจากตัวโมเดลหลัก เมื่อผู้ใช้ส่งคำถามที่เข้าข่ายเสี่ยง ระบบจะไม่ปฏิเสธโดยตรง แต่จะส่งต่อคำถามนั้นให้ Claude Opus 4.8 (รุ่นก่อนหน้า) ตอบแทน พร้อมแจ้งผู้ใช้ว่ามีการ "handoff" เกิดขึ้น
ก่อนหน้านี้ Claude Mythos (เวอร์ชันเต็ม ไม่มีระบบ safety) เคยเปิดให้เข้าถึงในกลุ่มจำกัด ประกอบด้วยผู้เชี่ยวชาญด้านการป้องกันไซเบอร์และผู้ให้บริการโครงสร้างพื้นฐานสำคัญเท่านั้น
🔓 Pliny the Liberator เจาะระบบอย่างไร?
"Pliny the Liberator" หรือที่ชุมชน AI รู้จักในชื่อ @elder_plinius คือนักวิจัยด้าน AI red teaming (การทดสอบช่องโหว่) รายหนึ่งที่มีประวัติยาวนานในการค้นหาช่องโหว่ของโมเดล AI ชั้นนำ เขา jailbreak โมเดล AI หลักๆ ของ OpenAI มาแล้วหลายรุ่นภายในชั่วโมงหรือไม่กี่วันหลังเปิดตัว และมี GitHub repository ชื่อ L1B3RT4S ที่รวบรวม jailbreak prompts สำหรับโมเดล AI ต่างๆ ไว้
คราวนี้เขาอ้างว่าใช้เทคนิคหลากหลาย ได้แก่:
- Unicode และ Homoglyphs — การใช้ตัวอักษรที่มีรูปร่างคล้ายกันเพื่อหลอกระบบกรอง
- Long-context framing — การฝังคำขอต้องห้ามไว้ในบริบทยาวๆ
- Narrative/fiction framing — การห่อหุ้มคำขอในรูปแบบนิยายหรือสถานการณ์สมมติ
- Academic decomposition-recomposition — เทคนิคที่เขาระบุว่าได้ผลที่สุด
เทคนิค decomposition นั้นทำงานโดยการ ตัดแบ่งคำถามต้องห้ามออกเป็นชิ้นเล็กๆ ที่ดูบริสุทธิ์แต่ละชิ้น จากนั้นนำมาต่อรวมกันทีหลัง ซึ่งแต่ละ prompt เดี่ยวๆ ดูผ่านระบบ safety ได้ แต่ผลลัพธ์รวมอาจเป็นอันตราย
😤 กระแสวิจารณ์ Fable 5 ลุกลาม
นอกจากเรื่อง jailbreak แล้ว ตัว Claude Fable 5 เองก็เผชิญกระแสวิจารณ์ตั้งแต่วันแรกที่เปิดตัว เนื่องจากหลายฝ่ายมองว่าระบบ safety นั้น "แน่นเกินไป" จนกระทบการใช้งานที่ถูกต้องตามกฎหมาย
ซาย่าช กาปูร์ (Sayash Kapoor) นักวิจัย AI จากมหาวิทยาลัย Princeton ให้ความเห็นกับ Wall Street Journal ว่า นี่เป็นครั้งแรกๆ ที่บริษัท AI ออก guardrail มาแล้วได้รับเสียงวิจารณ์ท่วมท้นอย่างเป็นเอกฉันท์ ขณะที่ Pliny เองระบุว่าคอนเซนซัสของชุมชนคือนี่คือการเปิดตัวโมเดลที่น่าผิดหวังที่สุดครั้งหนึ่งตลอดกาล เพราะปิดกั้นนักวิจัยที่ถูกกฎหมายออกไปจากการมีส่วนร่วม
🔬 Anthropic ยืนยัน: Bug Bounty 1,000+ ชั่วโมงไม่พบ jailbreak สากล
ก่อนเปิดตัว Fable 5 Anthropic ได้รันโปรแกรม bug bounty (รางวัลสำหรับผู้ค้นพบช่องโหว่) ภายนอกเพื่อทดสอบหา jailbreak พร้อมระบุว่าผ่านการทดสอบมากกว่า 1,000 ชั่วโมงโดยไม่พบ universal jailbreak (เทคนิคเจาะระบบที่ใช้ได้ทุกสถานการณ์)
อย่างไรก็ตาม เทคนิคของ Pliny อาจไม่ใช่ "universal jailbreak" แบบที่ Anthropic ทดสอบ แต่เป็นชุดเทคนิคเฉพาะจุดที่ประกอบกันได้ผล ซึ่งนักวิจัยความปลอดภัยหลายคนมองว่าการทดสอบก่อนเปิดตัวยังไม่ครอบคลุมเพียงพอ
สำหรับชุมชนคริปโต ความกังวลยิ่งทวีคูณ เพราะก่อนหน้านี้มีการพูดถึงกันแล้วว่า Fable 5 และ Mythos มีความสามารถด้านไซเบอร์สูงพอที่จะวิเคราะห์ช่องโหว่ใน smart contracts (สัญญาอัจฉริยะบน blockchain) และระบบ DeFi (การเงินแบบกระจายศูนย์) ได้อย่างมีประสิทธิภาพ หาก jailbreak เป็นไปได้จริง ภัยคุกคามย่อมใกล้กว่าที่คาด
📎 อ่านเพิ่มเติม: 👉 Anthropic releases Claude Fable, a version of Mythos — TechCrunch
👉 How Anthropic's Jailbreak Challenge Put AI Safety Defenses to the Test — HackerOne
🔗 อ้างอิงต้นฉบับ: Cointelegraph / ภาพ analyticsinsight.net