几天前, Anthropic做了一项研究,首次从 Claude 3 中成功提取了百万个表征,去破解 LLM 内部运作机制。
研究人员在人工智能系统中发现了一些高度抽象的模式,能够识别并响应抽象的行为。
例如,某些模式可以识别出与名人、国家、城市以及代码中的类型签名相关的功能,这些功能不仅能够理解不同语言中相同的概念,还能够识别出文本和图像中相同的概念,甚至能够同时处理一个概念的抽象和具体实例,比如代码中的安全漏洞以及对安全漏洞的讨论。
特别值得注意的是,研究人员在代码中发现了一些可能与安全风险相关的特征,包括与安全漏洞和后门有关的模式、偏见(明显的诽谤以及更隐蔽的偏见)、撒谎和欺骗行为、追求权力(背叛)、拍马屁以及危险或犯罪内容(制造生物武器)。
这是目前从神经元层面理解模型的「思考」最详细的解释。(来源:新智元)
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。