人机交互的三种方式
- 编程语言(code):C++、DOS
- 图形用户界面(GUI):Photoshop、Windows
- 自然语言(NLP):Chatgpt
什么是AIGC
即“人工智能生成内容”(Artificial Intelligence Generated Content)是指使用人工智能技术自动创建或生成各种形式的内容,如文本、图像、音乐、视频等。这种技术通常利用深度学习模型,如生成对抗网络(GANs)和变换器模型(Transformer)来分析大量数据,从而学习如何模仿和生成新的内容,这些内容在风格和质感上可以与人类创作者的作品相媲美。AIGC广泛应用于新闻写作、艺术创作、游戏开发、娱乐产业等领域,极大地推动了创意产业的自动化和创新。
AIGC三种底层架构
Transformer模型:
是使用庞大的文本数据集训练的复杂人工智能系统,能够理解和生成人类语言。
数据集:文本数据。这些数据可能来自书籍、文章、网页等多种来源。
GAN(生成对抗网络)模型:
数据集:图片数据。来自于摄影网站、电影抽帧、艺术作品。
Diffusion(扩散)模型
通过一个升噪过程将数据转化为噪声,然后在一个降噪过程中逐步还原数据,以此生成高质量的新内容。代表模型包括StableDiffusion、DALL·E2、Imagen等。
以上三种底层架构为AIGC提供了不同的技术支撑,分别对应语言、图像、多模态等内容生成任务。
模型架构vs应用模型
| 层级 | 说明 |
| 底层架构 | 指的是模型的技术原理,如Transformer、GAN、Diffusion。 |
| 应用模型 | 指的是基于这些架构构建出来的具体AI产品,如GPT-5、Claude、Gemini。 |
模型构架vs应用模型对应关系
| 应用模型名称 | 所属架构 | 应用方向 |
| GPT-5 | Transformer | 文本生成、代码、推理 |
| Claude4.5 | Transformer | 长文本处理、安全对话 |
| Gemini3 | Transformer+多模态模块 | 文本、图像、音频理解与生成 |
| Llama3 | Transformer | 开源语言模型,适合本地部署 |
| DeepSeekV3 | Transformer | 中文优化,性价比高 |
| 文心一言4.0 | Transformer | 中文政务、金融、教育场景 |
| Kimi | Transformer | 思维链推理、复杂问题求解 |
| Grok | Transformer | 实时问答、社交平台集成 |
| Midjourney | GAN | 图像生成、艺术创作 |
| Stable Diffusion | Diffusion | 高质量图像生成 |
| DALL·E2/Imagen | Diffusion | 文生图、多模态生成 |
GPT-5、Claude、Gemini等大语言模型,是基于Transformer架构构建的应用模型,专注于文本理解与生成,广泛应用于写作、翻译、问答、代码生成等任务,是AIGC技术体系的核心支柱之一;而Midjourney属于GAN架构,擅长图像创作;Stable Diffusion、DALL·E2则基于Diffusion模型,在图像生成方面表现出色。三种底层架构为AIGC提供了不同的技术支撑,分别对应语言、图像、多模态等内容生成任务。
Prompt
是用户提供给人工智能系统的一条指令或信息,用以引导和控制系统生成特定的文本、图像或其他内容。
Prompt应用示例
| 类型 | 示例用途 |
| 文本Prompt | “写一篇关于人工智能的科普文章” |
| 图像Prompt | “一个未来城市的夜景,赛博朋克风格” |
| 编程Prompt | “用Python实现快速排序算法” |
| 多模态Prompt | “生成一张图像并配上描述性文字” |
如:GigapixelArt千亿像素艺术;Japandi日式风格。
AIGC应用
AI创意师+AI调教师(提高效率;增强创意;降低成本;个性化营销;适应市场趋势;新的工作机会;职业发展;日常应用;创意表达;信息理解;增强问题解决能力)。