ailearn

AI安全与伦理 - 负责任的AI开发

- 对抗攻击

访问-- -- --

一、AI安全风险

  • 对抗攻击
  • 数据投毒
  • 提示注入
  • 隐私泄露

二、对抗防御

# 对抗训练
def adversarial_training(model, data):
    # 在对抗样本上训练
    pass

三、LLM安全

  • 提示注入防御
  • 内容审核
  • 输出过滤

四、公平性与偏见

  • 人口统计均等
  • 均等机会
  • 偏见检测

五、隐私保护

  • 差分隐私
  • 联邦学习

六、负责任AI原则

公平性、透明性、隐私保护、安全性、可问责

最后更新: 2026年4月19日

访问 --

讨论与反馈