AI安全与伦理 - 负责任的AI开发

- 对抗攻击

2026/04/19 1 分钟读完 #AI #安全 #伦理

访问-- 赞-- 踩--

一、AI安全风险

对抗攻击
数据投毒
提示注入
隐私泄露

二、对抗防御

# 对抗训练
def adversarial_training(model, data):
    # 在对抗样本上训练
    pass

三、LLM安全

提示注入防御
内容审核
输出过滤

四、公平性与偏见

人口统计均等
均等机会
偏见检测

五、隐私保护

差分隐私
联邦学习

六、负责任AI原则

公平性、透明性、隐私保护、安全性、可问责

最后更新: 2026年4月19日

访问 --

讨论与反馈