Tตามที่หัวหน้านักวิทยาศาสตร์ของศิลปะแห่งปัญญาประดิษฐ์โมเดล AI ล่าสุด
มานุษยวิทยาได้เตือนความเสี่ยงเหล่านี้มานานแล้ว – ในปี 2566 บริษัท สัญญาว่าจะไม่ปล่อยโมเดลบางรุ่นจนกว่าจะมีการพัฒนามาตรการรักษาความปลอดภัยที่สามารถ จำกัด ได้
ตอนนี้ระบบนี้เรียกว่านโยบายการปรับขนาดที่รับผิดชอบ (RSP) กำลังเผชิญกับการทดสอบจริงครั้งแรก
เมื่อวันพฤหัสบดีที่ Anpropic เปิดตัว Claude Opus 4 ซึ่งเป็นรุ่นใหม่ซึ่งดำเนินการอย่างมีประสิทธิภาพมากขึ้นในการทดสอบภายในมากกว่ารุ่นก่อนหน้าในการให้คำปรึกษาผู้เริ่มต้นเกี่ยวกับวิธีการผลิตอาวุธชีวภาพ Jared Kaplan นักวิทยาศาสตร์หลักของนักวิทยาศาสตร์กล่าว “ คุณสามารถลองสังเคราะห์บางอย่างเช่น Covid หรือเป็นไข้หวัดใหญ่ที่อันตรายกว่า – และส่วนใหญ่การสร้างแบบจำลองของเราแสดงให้เห็นว่าสิ่งนี้อาจเป็นไปได้” Kaplan กล่าว
ดังนั้น Claude Opus 4 จึงมีให้ตามมาตรการความปลอดภัยที่เข้มงวดกว่าแบบจำลองมานุษยวิทยาเบื้องต้น มาตรการเหล่านี้เป็นที่รู้จักกันในชื่อ AI หรือ“ ASL-3” ระดับความปลอดภัยมีเป้าหมายสำหรับการ จำกัด ระบบ AI ซึ่งสามารถ“ เพิ่มขึ้นอย่างมีนัยสำคัญ” ความสามารถของผู้ที่มีลำต้นหลักในการผลิตการผลิตหรือการติดตั้งอาวุธเคมีชีวภาพหรือนิวเคลียร์ตาม บริษัท พวกเขารวมถึงมาตรการความปลอดภัยทางไซเบอร์ที่เพิ่มขึ้นการป้องกันการแหกคุกและระบบเพิ่มเติมสำหรับการตรวจจับและละทิ้งพฤติกรรมที่เป็นอันตรายเฉพาะประเภท
แน่นอนว่า Anthropus ไม่แน่ใจว่า Claude เวอร์ชันใหม่นำเสนอความเสี่ยงที่ร้ายแรงใน Bioapon รายงาน Kaplan แต่มานุษยวิทยาก็ไม่ได้ยกเว้นความเป็นไปได้นี้
ถ้าเรารู้สึกว่าสิ่งนี้ไม่ชัดเจนและเราไม่แน่ใจว่าเราสามารถยกเว้นความเสี่ยงที่จะเกิดความเสี่ยงที่เพิ่มอารมณ์ของผู้ก่อการร้ายมือใหม่ใครบางคนเช่นทิโมธีแม็ควีเพื่อให้อาวุธทำลายล้างได้มากขึ้นกว่านี้ มันอยู่ใกล้พอที่เราจะไม่สามารถยกเว้นได้”
หากการทดสอบเพิ่มเติมแสดงให้เห็นว่าแบบจำลองไม่จำเป็นต้องมีมาตรฐานความปลอดภัยที่เข้มงวดเช่นนี้แอนโตรปิกสามารถลดการป้องกันของ ASL-2 ที่ได้รับอนุญาตมากขึ้นตามที่คลอดด์รุ่นก่อนหน้านี้ได้รับการปล่อยตัวเขากล่าว
ช่วงเวลานี้เป็นการทดสอบที่สำคัญสำหรับ ANPROPIC ซึ่งเป็น บริษัท ที่อ้างว่าทำให้อันตรายของ AI ลดลงในเวลาเดียวกันการแข่งขันในตลาด Claude เป็นคู่แข่งโดยตรงของ CHATGPT และนำรายได้ต่อปีมากกว่า $ 2 พันล้าน มานุษยวิทยาอ้างว่า RSP ของมันสร้างแรงจูงใจทางเศรษฐกิจสำหรับตัวเองในการสร้างมาตรการรักษาความปลอดภัยเวลาเพื่อไม่ให้ลูกค้าสูญเสียอันเป็นผลมาจากการป้องกันโมเดลใหม่ “ เราไม่ต้องการมีอิทธิพลต่อลูกค้าจริงๆ” เวลา Kaplan กล่าวเมื่อต้นเดือนพฤษภาคมขณะที่ Anpropic เสร็จสิ้นมาตรการความปลอดภัยของเขา “เรากำลังพยายามเตรียมพร้อมล่วงหน้า”
แต่ RSP anpropic – และภาระผูกพันที่คล้ายกันที่นำมาใช้โดย บริษัท ปัญญาประดิษฐ์อื่น ๆ – เหล่านี้เป็นนักการเมืองสมัครใจทั้งหมดที่สามารถเปลี่ยนแปลงหรือทิ้งตามความประสงค์ บริษัท เองไม่ใช่หน่วยงานด้านกฎระเบียบหรือสมาชิกสภานิติบัญญัติเป็นผู้พิพากษาเกี่ยวกับการปฏิบัติตาม RSP อย่างเต็มที่หรือไม่ ช่องว่างของเขาไม่ได้รับค่าปรับภายนอกนอกเหนือไปจากความเสียหายที่อาจเกิดขึ้นกับชื่อเสียง มานุษยวิทยาอ้างว่าการเมืองสร้าง“ การแข่งขันชั้นนำ” ระหว่าง บริษัท ปัญญาประดิษฐ์ซึ่งบังคับให้พวกเขาแข่งขันเพื่อสร้างระบบรักษาความปลอดภัยที่ดีที่สุด แต่เมื่อการแข่งขันหลายล้านล้านนั้นร้อนขึ้นเพื่อความเหนือกว่าของ AI นักวิจารณ์ก็กังวลว่า RSP และตระกูลของมันสามารถอยู่ในแบบที่พวกเขามีความสำคัญที่สุด
อย่างไรก็ตามในกรณีที่ไม่มีการควบคุมแนวชายแดนของ AI ในสภาคองเกรส RSP anpropic มันเป็นหนึ่งในข้อ จำกัด ที่มีอยู่ไม่กี่อย่างเกี่ยวกับพฤติกรรมของ บริษัท ใด ๆ ในงานศิลปะ และมานุษยวิทยายังคงรักษาสิ่งนี้ไว้ จากข้อมูลของ Kaplan หาก Anpropic แสดงให้เห็นว่าอาจมีข้อ จำกัด โดยไม่ได้รับการระเบิดทางเศรษฐกิจสิ่งนี้อาจส่งผลกระทบเชิงบวกต่อการปฏิบัติด้านความปลอดภัยในอุตสาหกรรมที่กว้างขึ้น
การรับประกันใหม่ของมานุษยวิทยา
ในมาตรการรักษาความปลอดภัย ASL-3 บริษัท ใช้สิ่งที่ บริษัท เรียกว่า “การป้องกันในเชิงลึก” กลยุทธ์-มีการรับประกันการทับซ้อนที่แตกต่างกันหลายประการซึ่งอาจไม่สมบูรณ์แบบเป็นรายบุคคล
หนึ่งในมาตรการเหล่านี้เรียกว่า “ตัวแยกประเภทรัฐธรรมนูญ”: ระบบ AI เพิ่มเติมที่สแกนเคล็ดลับของผู้ใช้และแบบจำลองของแบบจำลองสำหรับวัสดุอันตราย Claude เวอร์ชันก่อนหน้านี้มีระบบที่คล้ายกันภายใต้การรักษาความปลอดภัย ASL-2 ในระดับที่ต่ำกว่า แต่ Anpropic กล่าวว่าสิ่งนี้ปรับปรุงพวกเขาเพื่อให้พวกเขาสามารถหาคนที่อาจพยายามใช้ Claude เพื่อสร้างห้องโถงชีวประวัติ ตัวจําแนกเหล่านี้ได้รับการออกแบบมาเป็นพิเศษเพื่อตรวจจับโซ่ยาวของปัญหาเฉพาะที่มีคนสร้าง bioapoton สามารถลองได้
Anpropic พยายามที่จะไม่อนุญาตให้มาตรการเหล่านี้ป้องกันประโยชน์โดยรวมของ Claude สำหรับผู้ใช้ตามกฎหมาย – เนื่องจากสิ่งนี้จะทำให้แบบจำลองมีประโยชน์น้อยลงเมื่อเทียบกับคู่แข่ง “ มี bioaapones ที่สามารถเรียกคนตายได้ แต่เราไม่คิดว่าจะพูดว่าเป็นการระบาดใหญ่” Kaplan กล่าว “ เราไม่ได้พยายามปิดกั้นการละเมิดเหล่านี้เราพยายามที่จะตั้งเป้าหมายที่เป็นอันตรายที่สุด”
อีกองค์ประกอบหนึ่งของกลยุทธ์การป้องกันคือการป้องกันการแหกคุกหรือเคล็ดลับที่สามารถนำไปสู่ความจริงที่ว่าแบบจำลองนั้นลืมเกี่ยวกับการฝึกอบรมด้านความปลอดภัยของเขาและให้คำตอบสำหรับคำถามที่มิฉะนั้นอาจปฏิเสธได้ จากข้อมูลของ Kaplan บริษัท ตรวจสอบการใช้ Claude และ“ Non -Introduced” ผู้ใช้ที่พยายามจะแหกคุก และเธอได้เปิดตัวโปรแกรมความเอื้ออาทรเพื่อให้รางวัลแก่ผู้ใช้สำหรับสถานที่ของการแหกคุก “สากล” หรือเคล็ดลับที่สามารถบังคับให้ระบบยกเลิกการรับประกันทั้งหมดในเวลาเดียวกัน จนถึงขณะนี้โปรแกรมได้ปรากฏตัวในการแหกคุกสากลหนึ่งครั้งซึ่งมนุษย์ได้รับการแก้ไขในเวลาต่อมาตัวแทนกล่าว นักวิจัยที่ค้นพบว่าได้รับรางวัล $ 25,000
Anpropic ยังเสริมสร้างความปลอดภัยในโลกไซเบอร์เพื่อให้เครือข่ายประสาทหลักของ Claude ได้รับการปกป้องจากความพยายามที่จะขโมยหน่วยงานที่ไม่ใช่รัฐ บริษัท ยังคงพิจารณาว่าตัวเองมีความเสี่ยงต่อผู้โจมตีในระดับของรัฐแห่งชาติ แต่พยายามที่จะมีเพียงพอที่จะยับยั้ง Cyberdefens ของพวกเขา เมื่อถึงเวลาที่เขาเชื่อว่าเขาต้องการเปลี่ยนไปใช้ ASL-4: ระดับความปลอดภัยต่อไปซึ่งคาดว่าจะตรงกับการปรากฏตัวของแบบจำลองที่สามารถแสดงถึงความเสี่ยงที่ร้ายแรงของความมั่นคงของชาติหรือสามารถดำเนินการศึกษา AI โดยอัตโนมัติโดยไม่ต้องมีส่วนร่วมของมนุษย์
ในที่สุด บริษัท ได้ดำเนินการสิ่งที่เรียกว่าการทดสอบของ “การเพิ่ม” ที่ออกแบบมาเพื่อหาปริมาณโมเดลของ AI เท่าใด ปราศจาก ข้อ จำกัด ข้างต้นสามารถปรับปรุงความสามารถของผู้เริ่มต้นที่พยายามสร้าง aponen ทางชีวภาพเมื่อเปรียบเทียบกับเครื่องมืออื่น ๆ เช่น Google หรือโมเดลขั้นสูงน้อยกว่า จากข้อมูลของ Kaplan ในการทดสอบเหล่านี้ซึ่งได้รับการประเมินโดยผู้เชี่ยวชาญเกี่ยวกับ Biosystanism, Anpropic พบว่า Claude Opus 4 นำเสนอประสิทธิภาพ“ มากขึ้น” มากกว่าการค้นหาใน Google และรุ่นก่อนหน้า
ความหวังของ anpropic คือระบบรักษาความปลอดภัยหลายระบบที่ถูกพับไปทั่วส่วนบนของโมเดลซึ่งผ่านการฝึกอบรมแยกต่างหากเพื่อ“ มีประโยชน์ซื่อสัตย์และไม่เป็นอันตราย” จะป้องกันการใช้งานเกือบทั้งหมด “ ฉันไม่ต้องการที่จะบอกว่าสิ่งนี้สมบูรณ์แบบในทุกกรณีมันจะเป็นเรื่องง่ายมากถ้าคุณสามารถพูดได้ว่าระบบของเราไม่เคยโกรธ” Kaplan กล่าว “ แต่เราทำมันยากมาก”
อย่างไรก็ตามต้องขอบคุณการรับรู้ของเขาเองเกี่ยวกับ Kaplan นักแสดงที่ไม่ดีเพียงคนเดียวเท่านั้นที่ต้องลื่นไถลเพื่อทำให้เกิดความสับสนวุ่นวายที่ไม่สามารถแสดงออกได้ “ สิ่งอันตรายประเภทอื่น ๆ ส่วนใหญ่ที่ผู้ก่อการร้ายสามารถทำได้ – บางทีพวกเขาอาจฆ่าคน 10 คนหรือ 100 คน” เขากล่าว “เราเพิ่งเห็นว่า Covid ฆ่าคนหลายล้านคนได้อย่างไร”