大语言模型会在蒸馏中「夹带」自己的偏好

超人 2026-06-21 1 0

扫一扫用手机浏览

文章目录 [+]

4月16日,《自然》15日发表的一项研究显示,大语言模型(LLM)可能会将某些自己的偏好“夹带私货”传授给其他算法,即使在训练数据中清除原始特征后,这些本不需要的特征,仍可能持续存在。

在一个案例中,一个模型似乎通过数据中的隐含信号,将自己对猫头鹰的偏好传递给了其他模型。该研究结果表明,在开发LLM时,需要进行更彻底的安全检查。(财联社)

你可能想看:

相关文章

多名博主致歉:全额退款

近日,央视曝光“澳洲优思益”虚构海外产地、伪造品牌背景,所谓墨尔本工厂实为汽修厂,产品实为国内代工生产。“澳洲优思益”是抖音、天猫...

coonline新闻 2026-06-21 1 0