Question 1

文生图模型是如何理解文本提示词的？

Accepted Answer

文生图模型使用文本编码器（如 CLIP）将提示词转换为向量表示，捕获语义信息。模型在训练时学习了图像和文本描述之间的对应关系，因此能理解'日落'、'油画风格'等概念。生成时，扩散模型根据这些文本向量引导去噪过程，逐步生成符合描述的图像。

Question 2

什么是负面提示词？如何有效使用？

Accepted Answer

负面提示词告诉模型要避免生成的内容，如'模糊、低质量、变形'。它通过在生成过程中引导模型远离这些特征来工作。有效使用技巧：明确列出不想要的元素、使用常见的质量负面词（如 blurry、distorted）、针对特定问题添加负面词（如生成人物时添加'多余手指'）。

Question 3

Stable Diffusion、DALL-E 和 Midjourney 有什么区别？

Accepted Answer

Stable Diffusion 是开源模型，可本地运行和自定义，社区活跃；DALL-E 是 OpenAI 的闭源服务，通过 API 使用，与 ChatGPT 集成；Midjourney 以艺术质量著称，通过 Discord 使用，擅长生成美学风格图像。选择取决于需求：开源灵活性选 SD，便捷集成选 DALL-E，艺术效果选 Midjourney。

Question 4

如何写出更好的文生图提示词？

Accepted Answer

优质提示词的要素：明确描述主体和场景、指定艺术风格（如'数字艺术'、'水彩画'）、添加光线和氛围描述（如'黄金时刻'、'电影级光影'）、指定质量关键词（如'高细节'、'8K'）、使用具体而非抽象的描述。可以参考成功的提示词模板，并通过迭代实验优化。

Question 5

文生图技术存在哪些伦理和版权问题？

Accepted Answer

主要问题包括：训练数据可能包含受版权保护的作品引发的版权争议、生成内容的归属权不明确、可能被用于创建虚假信息或深度伪造、对艺术家就业的影响。应对措施包括：使用明确授权的训练数据、标注 AI 生成内容、遵守平台使用政策、尊重原创艺术家的权益。

创建时间	2021 年（DALL-E）、2022 年（Stable Diffusion、Midjourney 公开发布）
规范文档	官方规范

什么是文生图？

快速了解

工作原理

主要特点

常见用途

示例

常见问题

文生图模型是如何理解文本提示词的？

什么是负面提示词？如何有效使用？

Stable Diffusion、DALL-E 和 Midjourney 有什么区别？

如何写出更好的文生图提示词？

文生图技术存在哪些伦理和版权问题？

相关工具

图片大小调整

图片压缩

相关术语

生成式AI

扩散模型

提示词

文本生成视频（Text-to-Video）

相关文章

AI 图片生成工具对比 2026：Midjourney V7 vs Flux 2 vs GPT-Image vs Seedream 选型指南

扩散模型如何工作？从DDPM到Stable Diffusion原理详解

生成式AI完全指南：从原理到实践，掌握AI内容创作的核心技术