大语言模型会在蒸馏中「夹带」自己的偏好

超人 2026-06-21 1 0

扫一扫用手机浏览

文章目录 [+]

4月16日，《自然》15日发表的一项研究显示，大语言模型（LLM）可能会将某些自己的偏好“夹带私货”传授给其他算法，即使在训练数据中清除原始特征后，这些本不需要的特征，仍可能持续存在。

在一个案例中，一个模型似乎通过数据中的隐含信号，将自己对猫头鹰的偏好传递给了其他模型。该研究结果表明，在开发LLM时，需要进行更彻底的安全检查。（财联社）

你可能想看：

中广联演员委员会就AI换脸合成、影视素材魔改发声明

4月2日，据中国广电联合会演员委员会，当前，AI换脸合成、声纹克隆复刻、影视素材任意篡改、魔改、擅自抓取演员影像声频用于AI模型训...

coonline新闻 2026-06-21 1 0

“ 现在就是跟打地鼠一样，发现某个时间段 AI 视频生成软件排队少，大家就调整到那个时间段工作。” 李追远（化名）说...

coonline新闻 2026-06-21 1 0

近日，央视曝光“澳洲优思益”虚构海外产地、伪造品牌背景，所谓墨尔本工厂实为汽修厂，产品实为国内代工生产。“澳洲优思益”是抖音、天猫...

coonline新闻 2026-06-21 1 0

4月2日，上汽集团公布3月销量37.6万辆，同比下降2.56%；新能源汽车销量113101辆，同比下降10.03%。其中，...

coonline新闻 2026-06-21 1 0

一、字节今天，宇宙厂发布了AI产品体验新政策，以后员工在业余时间使用各种AI产品，都可以享受到公司报销，其中产研序列每年最高1...

coonline新闻 2026-06-21 1 0

4月1日，央视新闻曝光网红保健品品牌“YouthIt优思益”系统性虚假宣传。该品牌长期以“澳大利亚原装进口”作为核心卖点，其包装标...

coonline新闻 2026-06-21 1 0