ChatGPT DAN：聚合DAN及其它Jailbreak提示的测试集合

中 En

ChatGPT DAN：聚合DAN及其它Jailbreak提示的测试集合

该仓库聚合多版DAN与类似jailbreak提示，便于研究和对比测试，但缺乏许可与维护，存在伦理与合规风险，不宜直接用于生产。

GitHub 0xk1h0/ChatGPT_DAN 更新 2025-12-18 分支 main 星标 10.4K 分叉 967

提示工程 Jailbreak 提示 ChatGPT 角色扮演合规/伦理风险

💡 深度解析

3

这个项目解决了什么具体问题，采用了怎样的方法来实现？

核心分析 ¶

项目定位：该项目把多版 DAN/jailbreak 提示汇集为可复制的文本模板，目标是通过提示工程改变通用对话模型的行为，从而获得模型默认拒绝或过滤的信息类型。

技术分析 ¶

核心方法：使用系统指令、角色扮演（persona）、控制命令（如 /classic、/jailbroken）和心理化激励（代币/惩罚）来操纵模型的回复策略。
数据与证据：README 中明确给出 DAN 13.0 模板、双轨输出格式示例，以及对 GPT-3.5/GPT-4 的适配提示；解决方案指出无需运行时依赖，只需将提示文本投喂模型。
优劣对比：优点是零依赖、易迭代、可复现；缺点是高度依赖目标模型当前过滤逻辑，容易随模型更新失效，并可能鼓励编造或有害输出。

实用建议 ¶

用途限定：仅用于研究、测试或教育场景，在受控环境下评估提示效果并记录版本信息。
实验方法：小步迭代提示、AB 测试不同版本，记录模型版本、时间点和参数以评估鲁棒性。

注意：该项目本质是规避或弱化安全策略，存在违反服务条款和法律风险，请勿在生产或未经授权的环境中使用。

总结：该仓库为提示工程和安全研究提供了一个可复现的文本工具箱，其价值在于快速验证和比较不同 jailbreak 策略，但其有效性和合规性均依赖外部模型的策略与使用场景。

90.0%

在实际使用中，这类 jailbreak 提示的学习曲线、常见问题与最佳实践是什么？

核心分析 ¶

问题核心：该类 jail break 提示对新手友好到能快速启动，但要稳定使用并适配不同模型需要持续的实验和提示工程技能。

技术分析与常见问题 ¶

学习曲线：中等偏低。复制 README 示例即可立即试验，但达到稳定、可复用的效果需学习提示微调技巧。
常见问题：
提示脆弱性：模型更新或参数调整会导致失效或不可预测的行为。
输出可靠性差：jailbreak 指令鼓励编造信息，产出需严格核查。
跨语言/模型差异：同一提示在不同模型或语言上表现差异大，需要反复微调。
项目内置对策：使用控制命令（/classic、/jailbroken）、双轨输出和恢复词（如 “Stay DAN”）以尽量维持一致性。

最佳实践（实用建议）¶

在隔离环境中测试：避免对外泄露敏感内容或触发平台审查。
小步迭代并记录：每次调整记录模型版本、完整提示和输出，用于可复现性分析。
后处理与人工审核：对生成内容进行事实核验与合规审查，拒绝任何违法或敏感请求。

注意：使用这些提示可能违反服务条款或法律，务必在受控范围内做研究和验证。

总结：易于上手但难以稳定；对研究者和提示工程师有价值，但需严格的实验方法和合规管控。

87.0%

如何评估和提升这些提示在不同模型版本上的鲁棒性？

核心分析 ¶

问题核心：提示在不同模型版本上非常脆弱，需要系统化评估方法与工程实践来提升跨版本鲁棒性。

技术分析 ¶

评估要素：固定模型参数（如温度、top-p）、记录模型版本与接口，收集双轨输出（[🔒CLASSIC] 与 [🔓JAILBREAK]）用于并行对比。
评价指标：成功率（按预定义条件判定是否达到 jail break 效果）、偏离率（何时脱离预期 persona）、合规违例数量与虚假信息比例。
工程方法：
自动化回归测试：在模型升级或提示调整后自动跑批量测试，检测性能退化。
提示变体化：为每个核心意图维护多个表达方式，以减轻单一触发词被屏蔽的风险。
元数据与日志：严格记录时间、模型版本、完整提示与输出以便溯源。

实用建议 ¶

小步迭代并做 A/B 测试：每次只修改一处提示片段并比较差异。
采用混合评估：结合自动判分（关键词/正则）与人工复核以评估效果和危险性。
维护版本化提示库：对有效模板打标签（模型版本、成功率），保留回滚路径。

注意：即便如此，提示鲁棒性仍受限于模型厂商的内部策略更新，无法保证长期稳定性。

总结：通过自动化测试、多样化提示表达和严格记录，可以显著提升短期和跨版本的适应能力，但无法完全消除模型策略带来的脆弱性。

86.0%

✨ 核心亮点

集中收录多版本DAN类绕过提示，便于对比测试
内容旨在规避模型限制，存在伦理与合规风险
仓库缺乏维护与贡献记录，更新与可靠性不可保证

🔧 工程化

主打DAN及其它角色扮演类jailbreak提示集合，便于试验
便于快速对比不同绕过策略的语义和行为效果

⚠️ 风险

内容鼓励绕过安全策略，可能导致滥用与法律或合规风险
缺乏许可证与贡献记录，合规性、追责与可审计性较低

👥 适合谁？

适合安全研究者与模型鲁棒性评估者用于实验与对抗测试
不适合在生产或合规敏感场景中直接使用，应谨慎处理