LLM 辅助提示词生成与评估工作流

## LLM辅助的提示词生成与评估工作流目标：利用大型语言模型（LLM）自身的能力来生成、评估并优化针对特定任务的提示词。核心理念： LLM生成的提示词可能比人工编写的更符合其内部运作机制，从而产生更优的输出。建议：在整个流程中，尽可能使用同一系列（甚至同一版本）的LLM，以确保权重和行为的一致性。 --- ### 阶段一：提示词生成 (Prompt Generation) #### 指令1：生成提示工程指南 (用户 -> LLM) 目的：让LLM提供一个关于如何为特定角色构建提示的通用框架和思路。提示词格式：请为 <角色> 生成一份详细的提示工程指南。例如：角色：书籍作者角色：软件开发人员角色：客户支持代表用户操作：将 `<角色>` 替换为你的目标受众。 --- #### 指令2：提供少量示例 (用户 -> LLM) 目的：向LLM展示你期望通过新提示词达成的具体输入输出效果。提示词格式 (作为后续指令3的前置内容，直接粘贴到聊天中)：以下是我希望新提示词能够实现的一些示例：示例1: 输入: <你的少量示例输入1> 输出: <对应的期望输出1> 示例2: 输入: <你的少量示例输入2> 输出: <对应的期望输出2> 示例3: 输入: <你的少量示例输入3> 输出: <对应的期望输出3> 示例4: 输入: <你的少量示例输入4> 输出: <对应的期望输出4> 示例5: 输入: <你的少量示例输入5> 输出: <对应的期望输出5> 用户操作：准备并粘贴你的5个输入输出示例。 --- #### 指令3：生成初始提示词及更优示例 (用户 -> LLM) 目的：基于提供的示例，让LLM生成一个能够复现这些结果的提示词，并要求LLM提供一套它认为更优的示例集。提示词格式 (紧接在指令2的示例之后提交)： [在此粘贴上述步骤2中的5个示例] 请根据以上示例，生成一个能够产生类似输出的通用提示词。此外，请提供一套比我给出的示例更好、更全面的示例集，用于演示这个新生成提示词的用法和效果。用户操作：提交此指令。LLM将返回一个它生成的提示词和一套新的示例。 --- ### 阶段二：提示词评估与优化 (Prompt Evaluation and Optimization) *(建议在新聊天会话中进行，以避免上下文干扰)* #### 指令4：生成提示评估指南 (用户 -> LLM) 目的：让LLM提供一个关于如何评估提示词有效性的框架。提示词格式：请为 <角色> 生成一份详细的提示评估指南。例如：角色：提示工程师角色：AI产品经理角色：内容创作者用户操作：将 `<角色>` 替换为负责评估提示的人员角色。 --- #### 指令5：评估生成的提示词 (用户 -> LLM) 目的：利用LLM生成的评估指南（或其内置知识）来评估在阶段一中生成的提示词。提示词格式： [在此粘贴步骤3中LLM生成的提示词] 请根据您在先前对话中生成的提示评估指南（或根据通用的提示评估最佳实践），对此提示词进行评估。请指出其优点、潜在缺点以及可以改进的方面。用户操作：将阶段一（步骤3）LLM生成的提示词粘贴到指定位置并提交。 --- #### 指令6：生成改进的替代提示词 (用户 -> LLM) 目的：基于LLM的评估，要求其提供多个改进后的提示词版本。提示词格式：基于你对先前提示词的评估，请生成3个改进的替代提示词。这些替代提示词应该旨在解决已发现的缺点，并更好地实现原始目标（即产生如我最初在阶段一提供的示例那样的输出）。请确保每个替代提示词都有其独特的优化侧重点。用户操作：提交此指令。 --- #### 指令7：选择与编辑 (用户操作) 目的：从LLM提供的替代方案中选择最佳版本，并进行最终的人工调整。用户操作： 1. 仔细审查LLM生成的3个改进的替代提示词。 2. 选择最符合你需求、预期效果最好、或最具潜力的一个。 3. 根据需要进行手动编辑和微调，可以结合不同替代方案的优点。 4. 进行充分测试，验证其鲁棒性和在不同场景下的表现。 --- ### 这种方法的优势： * 利用LLM的“内部知识”： LLM自身的权重和训练数据影响了提示的生成和评估过程，可能使其更“懂”如何与自己或其他同系列模型高效交互。 * 超越人工直觉：生成的提示可能包含一些非直观但有效的结构或措辞，这是人类作者可能想不到的。 * 系统化迭代：提供了一个结构化的方法来系统地改进提示词，而不仅仅是随意尝试。