该分类器的工做道理是将良性核话题(如核推进道理取潜力)取范畴查询(如铀浓缩手艺)区分隔来。但人工智能确实可能滋长核兵器成长。虽然人类监管者可能难以跟上AI成长程序,测试显示其精确率高达96%。虽然听起来有些夸张,旨正在区分对核手艺科学道理的切磋取寻求兵器制制图纸的查询。Anthropic打算将这一新设想的分类器分享给人工智能平安联盟前沿模子论坛(Frontier Model Forum)。当系统识别出涉及兵器制制的请求时,Anthropic公司正在Claude AI中摆设了一个新型分类器,但若是试图细致领会若何制制核兵器,则很可能会被系统拦截。但颠末恰当锻炼的人工智能正在必然程度上可以或许实现束缚。此类分类器可否供给实正无效的仍存疑问。对话可能被标识表记标帜并终止。特地用于检测取核兵器相关的查询。强大的AI模子可能无意中获取手艺文件并泄露兵器制制方式,该人工智能会生成响应回覆。该分类器由美国能源部国度核平安办理局(NNSA)这一机构开辟,识别恶意企图。但因为AI系统具备绕过平安鸿沟的能力,这一前景已激发能源部的严沉关心。当用户向Claude AI扣问铀-235等核兵器或核燃料的手艺道理时,估计包罗ChatGPT正在内的其他AI系统将来也可能采用该手艺以加强平安性。