ChatGPT DAN:聚合DAN及其它Jailbreak提示的测试集合
该仓库聚合多版DAN与类似jailbreak提示,便于研究和对比测试,但缺乏许可与维护,存在伦理与合规风险,不宜直接用于生产。
GitHub 0xk1h0/ChatGPT_DAN 更新 2025-12-18 分支 main 星标 10.4K 分叉 967
提示工程 Jailbreak 提示 ChatGPT 角色扮演 合规/伦理风险

💡 深度解析

3
这个项目解决了什么具体问题,采用了怎样的方法来实现?

核心分析

项目定位:该项目把多版 DAN/jailbreak 提示汇集为可复制的文本模板,目标是通过提示工程改变通用对话模型的行为,从而获得模型默认拒绝或过滤的信息类型。

技术分析

  • 核心方法:使用系统指令、角色扮演(persona)、控制命令(如 /classic/jailbroken)和心理化激励(代币/惩罚)来操纵模型的回复策略。
  • 数据与证据:README 中明确给出 DAN 13.0 模板、双轨输出格式示例,以及对 GPT-3.5/GPT-4 的适配提示;解决方案指出无需运行时依赖,只需将提示文本投喂模型。
  • 优劣对比:优点是零依赖、易迭代、可复现;缺点是高度依赖目标模型当前过滤逻辑,容易随模型更新失效,并可能鼓励编造或有害输出。

实用建议

  1. 用途限定:仅用于研究、测试或教育场景,在受控环境下评估提示效果并记录版本信息。
  2. 实验方法:小步迭代提示、AB 测试不同版本,记录模型版本、时间点和参数以评估鲁棒性。

注意:该项目本质是规避或弱化安全策略,存在违反服务条款和法律风险,请勿在生产或未经授权的环境中使用。

总结:该仓库为提示工程和安全研究提供了一个可复现的文本工具箱,其价值在于快速验证和比较不同 jailbreak 策略,但其有效性和合规性均依赖外部模型的策略与使用场景。

90.0%
在实际使用中,这类 jailbreak 提示的学习曲线、常见问题与最佳实践是什么?

核心分析

问题核心:该类 jail break 提示对新手友好到能快速启动,但要稳定使用并适配不同模型需要持续的实验和提示工程技能。

技术分析与常见问题

  • 学习曲线中等偏低。复制 README 示例即可立即试验,但达到稳定、可复用的效果需学习提示微调技巧。
  • 常见问题
  • 提示脆弱性:模型更新或参数调整会导致失效或不可预测的行为。
  • 输出可靠性差:jailbreak 指令鼓励编造信息,产出需严格核查。
  • 跨语言/模型差异:同一提示在不同模型或语言上表现差异大,需要反复微调。
  • 项目内置对策:使用控制命令(/classic、/jailbroken)、双轨输出和恢复词(如 “Stay DAN”)以尽量维持一致性。

最佳实践(实用建议)

  1. 在隔离环境中测试:避免对外泄露敏感内容或触发平台审查。
  2. 小步迭代并记录:每次调整记录模型版本、完整提示和输出,用于可复现性分析。
  3. 后处理与人工审核:对生成内容进行事实核验与合规审查,拒绝任何违法或敏感请求。

注意:使用这些提示可能违反服务条款或法律,务必在受控范围内做研究和验证。

总结:易于上手但难以稳定;对研究者和提示工程师有价值,但需严格的实验方法和合规管控。

87.0%
如何评估和提升这些提示在不同模型版本上的鲁棒性?

核心分析

问题核心:提示在不同模型版本上非常脆弱,需要系统化评估方法与工程实践来提升跨版本鲁棒性。

技术分析

  • 评估要素:固定模型参数(如温度、top-p)、记录模型版本与接口,收集双轨输出([🔒CLASSIC] 与 [🔓JAILBREAK])用于并行对比。
  • 评价指标:成功率(按预定义条件判定是否达到 jail break 效果)、偏离率(何时脱离预期 persona)、合规违例数量与虚假信息比例。
  • 工程方法
  • 自动化回归测试:在模型升级或提示调整后自动跑批量测试,检测性能退化。
  • 提示变体化:为每个核心意图维护多个表达方式,以减轻单一触发词被屏蔽的风险。
  • 元数据与日志:严格记录时间、模型版本、完整提示与输出以便溯源。

实用建议

  1. 小步迭代并做 A/B 测试:每次只修改一处提示片段并比较差异。
  2. 采用混合评估:结合自动判分(关键词/正则)与人工复核以评估效果和危险性。
  3. 维护版本化提示库:对有效模板打标签(模型版本、成功率),保留回滚路径。

注意:即便如此,提示鲁棒性仍受限于模型厂商的内部策略更新,无法保证长期稳定性。

总结:通过自动化测试、多样化提示表达和严格记录,可以显著提升短期和跨版本的适应能力,但无法完全消除模型策略带来的脆弱性。

86.0%

✨ 核心亮点

  • 集中收录多版本DAN类绕过提示,便于对比测试
  • 内容旨在规避模型限制,存在伦理与合规风险
  • 仓库缺乏维护与贡献记录,更新与可靠性不可保证

🔧 工程化

  • 主打DAN及其它角色扮演类jailbreak提示集合,便于试验
  • 便于快速对比不同绕过策略的语义和行为效果

⚠️ 风险

  • 内容鼓励绕过安全策略,可能导致滥用与法律或合规风险
  • 缺乏许可证与贡献记录,合规性、追责与可审计性较低

👥 适合谁?

  • 适合安全研究者与模型鲁棒性评估者用于实验与对抗测试
  • 不适合在生产或合规敏感场景中直接使用,应谨慎处理