AI安全与伦理 - 负责任的AI开发
- 对抗攻击
一、AI安全风险
- 对抗攻击
- 数据投毒
- 提示注入
- 隐私泄露
二、对抗防御
# 对抗训练
def adversarial_training(model, data):
# 在对抗样本上训练
pass
三、LLM安全
- 提示注入防御
- 内容审核
- 输出过滤
四、公平性与偏见
- 人口统计均等
- 均等机会
- 偏见检测
五、隐私保护
- 差分隐私
- 联邦学习
六、负责任AI原则
公平性、透明性、隐私保护、安全性、可问责
最后更新: 2026年4月19日
- 对抗攻击
# 对抗训练
def adversarial_training(model, data):
# 在对抗样本上训练
pass
最后更新: 2026年4月19日
讨论与反馈