แทนที่คนไม่ได้! BlockSec ยันการตรวจสอบ Smart Contract ต้องใช้ "คน+AI" หลังผลทดสอบชี้ AI ยังขาดวิจารณญาณ

BlockSec (บริษัทด้านความปลอดภัยบล็อกเชน) เผยผลการทดสอบซ้ำ EVMBench (ระบบ Benchmark หรือมาตรฐานวัดประสิทธิภาพ AI ในการตรวจสอบ Smart Contract) ที่พัฒนาโดย OpenAI (บริษัทผู้สร้าง ChatGPT) และ Paradigm (กองทุน Venture Capital ชั้นนำด้านคริปโต) พบว่าผลที่น่าประทับใจในรายงานต้นฉบับอาจเกิดจากเงื่อนไขการทดสอบที่ไม่รัดกุมพอ เมื่อทดสอบกับเหตุการณ์โจมตีจริงในโลกแห่งความเป็นจริง อัตราความสำเร็จในการโจมตีช่องโหว่แบบ End-to-End อยู่ที่ 0%

EVMBench บอกอะไรไว้?

เมื่อเดือนกุมภาพันธ์ที่ผ่านมา ทีมพัฒนา EVMBench เผยแพร่ผลการทดสอบที่ชวนตื่นเต้น: AI สามารถ โจมตีช่องโหว่ใน Smart Contract (สัญญาอัจฉริยะที่ทำงานบน Blockchain โดยอัตโนมัติ) ได้ถึง 72% และ ตรวจจับช่องโหว่ได้ราว 45% จากชุดตัวอย่าง 120 กรณีที่คัดเลือกมาจาก Code4rena (แพลตฟอร์มการแข่งขัน Audit Smart Contract)

ตัวเลขดังกล่าวจุดประกายการถกเถียงในวงการว่า การตรวจสอบความปลอดภัยแบบอัตโนมัติเต็มรูปแบบโดย AI นั้นใกล้เคียงความเป็นจริงแล้ว

BlockSec ทดสอบซ้ำ ได้ผลลัพธ์ที่ต่างออกไปอย่างสิ้นเชิง

ทีมวิจัยจาก BlockSec นำโดย Yajin Zhou ผู้ร่วมก่อตั้ง ออกมาตั้งคำถามต่อผลการทดสอบดังกล่าวผ่านบทความวิจัยชื่อ "Re-Evaluating EVMBench" โดยชี้ให้เห็นปัญหา 2 ประเด็นหลัก:

1. ขอบเขตการทดสอบที่จำกัดเกินไป EVMBench ต้นฉบับทดสอบเพียง 14 การตั้งค่า (Agent Configuration) ซึ่งส่วนใหญ่รันโมเดลบนโครงสร้าง (Scaffold) ของผู้ผลิตเดิม เช่น ใช้ Claude บน Infrastructure ของ Anthropic เท่านั้น BlockSec ขยายการทดสอบเป็น 26 การตั้งค่า โดยสลับโมเดลข้ามผู้ผลิต เช่น นำ Claude ไปรันบน Scaffold ของ ChatGPT เพื่อแยกแยะว่าผลลัพธ์มาจาก "ความสามารถของโมเดล" หรือ "ข้อได้เปรียบของโครงสร้าง"

2. ความเสี่ยงเรื่องข้อมูลปนเปื้อน (Data Contamination) การทดสอบต้นฉบับใช้ช่องโหว่ที่เคยถูกเปิดเผยสาธารณะใน 40 Repository ของ Code4rena ซึ่งอาจถูกรวมอยู่ใน Training Data ของ AI ทำให้ผลลัพธ์ดูดีเกินจริง BlockSec แก้ปัญหานี้ด้วยการทดสอบบน 22 เหตุการณ์โจมตีจริงที่เกิดขึ้นหลังกลางเดือนกุมภาพันธ์ 2026 ซึ่งอยู่นอกช่วงเวลาของ Training Data ทุกโมเดล

ผลลัพธ์: ยิงไม่ออกสักนัด

จากการทดสอบ Agent-Incident คู่ทั้งหมด 110 คู่ ไม่มีการโจมตีแบบ End-to-End สำเร็จแม้แต่ครั้งเดียว

อย่างไรก็ตาม ในด้านการ ตรวจจับช่องโหว่ (Detection) ผลลัพธ์ใกล้เคียงกับรายงานต้นฉบับพอสมควร โดย Claude Opus 4.6 ทำได้ดีที่สุด สามารถตรวจพบได้ 13 จาก 20 ช่องโหว่จริง

รูปแบบที่น่าสังเกตคือช่องโหว่ที่เป็น "Pattern" รู้จักกันดี เช่น sell-hook reserve manipulation หรือ unchecked multiplication overflow นั้น AI สามารถจับได้ 87.5–100% แต่ช่องโหว่ที่ซับซ้อนกว่า — ต้องอาศัยความเข้าใจเชิงลึกในโปรโตคอล — AI ทำได้แย่มากหรือทำไม่ได้เลย

สรุป: AI และมนุษย์ต้องทำงานร่วมกัน ไม่ใช่แทนกัน

Zhou สรุปทิ้งท้ายว่า EVMBench ยังถือเป็นงานที่มีคุณค่า เพราะช่วยสร้างมาตรฐานการประเมิน AI ด้านความปลอดภัยให้กับวงการ แต่การนำตัวเลขไปใช้สรุปว่า "AI พร้อมทำ Audit แทนมนุษย์แล้ว" นั้น ยังเร็วเกินไปมาก

"AI จัดการความกว้าง (Breadth) ได้ — สแกนอย่างเป็นระบบ มนุษย์จัดการความลึก (Depth) ได้ — ความเข้าใจโปรโตคอล, การใช้เหตุผลเชิงรุก ทั้งสองไม่สามารถทำงานแทนกันได้ แต่เมื่อทำงานร่วมกัน จะเป็น Audit ที่สมบูรณ์"

📎 อ่านเพิ่มเติม: 👉 Re-Evaluating EVMBench — BlockSec Research
🔗 อ้างอิงต้นฉบับ: The Block / BlockSec Research Blog

ความเห็นบรรณาธิการ Bitcoinaddict งานวิจัยของ BlockSec ครั้งนี้เตือนให้วงการไม่ตื่นเต้นเกินเหตุกับตัวเลขจากการทดสอบในสภาวะควบคุม เพราะโลกแห่งความเป็นจริงนั้นซับซ้อนกว่ามาก การที่ AI ตรวจจับช่องโหว่ที่รู้จักได้ดี แต่ยังติดขัดกับช่องโหว่ใหม่ที่ต้องการการวิเคราะห์เชิงลึก สะท้อนให้เห็นว่า AI ไม่ใช่ผู้มาแทนนักตรวจสอบ แต่เป็นเครื่องมือที่ช่วยเสริมศักยภาพของพวกเขา น่าจับตามองว่าจะมีการพัฒนา Benchmark มาตรฐานที่แม่นยำขึ้นอีกอย่างไรในอนาคตอันใกล้นี้

Tags / คีย์เวิร์ด SEO: BlockSec, EVMBench, AI Smart Contract Audit, ความปลอดภัยบล็อกเชน, Smart Contract, OpenAI, Paradigm, Claude Opus, Crypto Security

— รายงานโดยทีมข่าว Bitcoinaddict.com

Bitcoin Addict - ข่าวสารและบทความคริปโต

แทนที่คนไม่ได้! BlockSec ยันการตรวจสอบ Smart Contract ต้องใช้ "คน+AI" หลังผลทดสอบชี้ AI ยังขาดวิจารณญาณ

EVMBench บอกอะไรไว้?

BlockSec ทดสอบซ้ำ ได้ผลลัพธ์ที่ต่างออกไปอย่างสิ้นเชิง

ผลลัพธ์: ยิงไม่ออกสักนัด

สรุป: AI และมนุษย์ต้องทำงานร่วมกัน ไม่ใช่แทนกัน