发布日期: 2026-02-09

更新日期: 2026-02-09

文章字数: 1.1k

本系列生成式人工智能导论博文基于国立台湾大学李宏毅老师发布的课程视频整理而来, 仅用作复习参考.
可以算是人工智能领域的入门课程.
需要明确的是, 李宏毅老师上传的课程已经是2024年的课程, 距今有两年的时间, 知识难免有过时的可能, 如果出现了这种情况, 博主会尽可能补足当前的状态.

生成式人工智能导论 Chap.5 关于其余种类的人工智能模型

5.1 生成式人工智能的生成策略

5.1.1 各类不同生成式材料的基本组成单位

我们在此前四章中, 谈论的从始至终是LLM, 也就是大语言模型的生成策略, 而对于其它的生成式资料, 我们似乎并未完全涉及.

语言是由词汇(在人工智慧中将其抽象成了Token)组成的, 图像是由像素(Pixel)组成的, 声音是由不同的取样点(Sample)组成的.

我们真正需要解决的问题, 也就是怎么给出对应的条件(Condition), 让模型将这些基本元素以 正确的顺序组合起来 .

5.1.2 各类不同生成对象的生成策略

对于文本生成, 我们已经很熟悉, 它使用 自回归生成策略(Autoregressive Generation, AR) , 本质上就是接龙.

在图像以及音频上, 研发者们自然会想用这种已经非常成熟, 并且被证实在文本上十分成功的策略, 这是研究者们在5至10年前在进行的尝试, 并且其实被证明是可行的.
那为什么现在这种策略被推翻了?

因为接龙时间太长了.

我们拿目前主流的影像清晰度来做对比, 1920*1080像素数的图片需要一个模型做 207万 次接龙!
这代价太高了, 不论是时间成本还是算力成本, 想想现在我们等待一个很聪明的语言模型生成1w字要多久? 又要花费多少Token?

因此, 我们需要换种思路.
我们要尝试规避掉自回归需要按部就班, 一个个产生基本单位所带来的代价, 非自回归生成策略(Non-Autoregessive Generation, NAR) 应运而生.

NAR时间这么短, 为什么文字生成不用NAR?
因为从大量的实验上可以证明, NAR的生成质量不如AR. 它需要AI自行脑补更多的内容, 实现难度与成本也更大. 因此在文本这一类我们不需要巨量基本单位的方面, 目前AR的策略仍然是主流.

NAR的本质是让生成模型进行 “并行” 运算, 让其尽可能同时将所有位置的基本单元都生成出来.
当然, 它的弱点也是显而易见的: 我们无法保证模型在生成每一个单元的时候都在思考同一件事情. 因为在生成每一个单元时都是一种概率分布, 同时取结果很有可能搞出来一团乱麻.

这个办法有方式缓解吗?
事实上, 此前比较流行的图像生成模型, 如VAE, GAN, Diffusion(~~不过现在几乎全是Diffusion了~~)等都有类似的设计, 它们除开你的输入之外, 还会随即输入一个向量, 来保证模型在生成每一个基本单元时, 脑子里想到的是同一个东西.
除此之外, 我们可以兼取AR和NAR的优势. 表现为先让AR产生出一个简要的内容, 随后让NAR在对这个内容进行细化. 在图片中, 这个方法表现为先通过AR产生一个压缩过后的图片(分辨率很低), 随后让NAR对这个图片进行再生成.
第三个方式, 是通过多步NAR 的方式来降低每个单元之间的内容差距. 拿图片举例, 第一次只生成4*4的图片, 随后8*8, 16*16, …以此类推. 由于每一步中单位面积的像素差距比较小, 因此被证实可以有效降低这种问题的产生几率.

事实上, 现在最流行的Diffusion Model本质上就是做的这件事情, 只不过它倒过来, 从全噪声的图像, 逐渐变为没有噪声的图像.

MUG-chen

http://mug-chen.github.io/posts/60896.html