开源 SD-Small 和 SD-Tiny 知识蒸馏代码与权重

2023-08-29 21:00:32 哔哩哔哩

最近，人工智能社区在开发更大、更高性能的语言模型方面取得了显著的进展，例如 Falcon 40B、LLaMa-2 70B、Falcon 40B、MPT 30B; 以及在图像领域的模型，如和 SDXL 。这些进步无疑推动了人工智能的发展，使其具有高度多功能和最先进的图像生成和语言理解能力。然而，在我们惊叹于这些模型的强大和复杂性之余，必须认识到一个日益增长的需求: 使人工智能模型体量更小、运行更高效、更易于访问，特别是通过开源它们来共建生态。

在 Segmind，我们一直致力于如何使生成式 AI 更快、更便宜。去年，我们开源了我们加速的 SD-WebUI 库 voltaML，它是一个基于 AITemplate/TensorRT 的推理加速库，推理速度提高了 4-6 倍。为了继续实现使生成模型更快、更小、更便宜的目标，我们正在开源我们压缩的 SD 模型：SD-Small 和 SD-Tiny的权重和训练代码。预训练的检查点可在 Hugging Face 上获取。

知识蒸馏

我们的新压缩模型已经经过知识蒸馏 (KD) 技术的训练，这项工作主要基于这篇论文。作者描述了一种块移除知识蒸馏方法，其中一些 UNet 层被移除，学生模型权重被训练。使用论文中描述的 KD 方法，我们能够使用 diffusers 库训练两个压缩模型; Small (微小版本)和 Tiny (极小版本)，分别比基础模型少 35% 和 55% 的参数，同时实现与基础模型相当的图像保真度。我们已经在这个 repo 中开源了我们的蒸馏代码，并将预训练检查点上传到了 Hugging Face 。

(资料图片仅供参考)

知识蒸馏训练神经网络类似于老师一步一步指导学生。一个大的老师模型 (teacher model) 预先在大量数据上训练，然后一个较小的模型在较小的数据集上训练，以模仿大模型的输出并在数据集上进行经典训练。

在这种特殊类型的知识蒸馏中，学生模型被训练来完成从纯噪声恢复图像的正常扩散任务，但同时，模型被迫与更大的老师模型的输出匹配。输出匹配发生在 U-nets 的每个块，因此模型质量基本保持不变。所以，使用前面的类比，我们可以说，在这种蒸馏过程中，学生不仅会试图从问题和答案中学习，还会从老师的答案以及逐步得到答案的方法中学习。我们在损失函数中有 3 个组成部分来实现这一点，首先是目标图像隐变量和生成图像隐变量之间的传统损失。其次是老师生成的图像隐变量和学生生成的图像隐变量之间的损失。最后，也是最重要的组成部分，是特征级损失，即老师和学生每个块输出之间的损失。

结合所有这些构成了知识蒸馏训练。下面是论文中描述的用于 KD 的块移除 UNet 架构。

图片来自 Shinkook 等人的论文 “On Architectural Compression of Text-to-Image Diffusion Models”。

我们以 Realistic-Vision 为基础老师模型，并在LAION Art Aesthetic 数据集上训练，图像分数高于，因为它们具有高质量的图像描述。与论文不同，我们选择分别为 Small 和 Tiny 模式训练两个模型，分别在 1M 张图像上进行 100K 步和 125K 步的训练。蒸馏训练的代码可以在这里找到。

模型使用

模型可以通过 diffusers 中的 DiffusionPipeline 来使用。

推理延迟方面的速度表现

我们观察到，蒸馏模型比原始基础模型快了一倍。基准测试代码可以在这里找到。

潜在的局限性

蒸馏模型处于早期阶段，输出可能还不具备生产水平的质量。这些模型可能不是最好的通用模型，它们最好用作针对特定概念/风格进行微调或 LoRA 训练。蒸馏模型目前还不太擅长组合性或多概念。

在人像数据集上微调 SD-tiny 模型

我们已经在 Realistic Vision 模型生成的人像图像上微调了我们的 sd-tiny 模型。下面是使用的微调参数。

原版参数中文释义Steps: 131000步数: 131000Learning rate: 1e-4学习率: 1e-4Batch size: 32批量大小: 32Gradient accumulation steps: 4梯度累积步数: 4Image resolution: 768图像分辨率: 768Dataset size: 7k images数据集大小: 7 千张图像Mixed precision: fp16混合精度: fp16

我们能够产生接近原始模型产生的图像质量，参数减少了近 40%，下面的样本结果不言自明:

微调基础模型的代码可以在这里找到。

LoRA 训练

在蒸馏模型上进行 LoRA 训练的一个优点是训练更快。下面是我们在蒸馏模型上对一些抽象概念进行的第一个 LoRA 训练的一些图像。LoRA 训练的代码可以在这里找到。

结论

我们邀请开源社区帮助我们改进并实现这些蒸馏 SD 模型的更广泛采用。用户可以加入我们的 Discord 服务器，在那里我们将宣布这些模型的最新更新，发布更多的检查点和一些令人兴奋的新 LoRAs。如果你喜欢我们的工作，请在我们的 Github 上点一下 star。

英文原文: /blog/sd_distillation
原文作者: Yatharth Gupta
译者: innovation64
审校/排版: zhongdongy (阿东)

知识蒸馏

模型使用

推理延迟方面的速度表现

潜在的局限性

在人像数据集上微调 SD-tiny 模型

LoRA 训练

结论

戴兵呼吁推动国际社会在叙利亚反恐问题上加强合作

城商行进军“跨境理财通” 上海银行入围

青少年科技素养提升计划在农村培训逾万教师 超31万小学

从“节能减排”到“绿色发展” 民航局印发《“十四五”

“小份菜”引领新风尚

粤港澳大湾区年货班列开行数量创历史新高

应急管理部启动低温雨雪冰冻灾害Ⅳ级应急响应

虎虎生威振精神——来自澳门的新年祝福

城市对青年更友好 青年在城市更有为

香港资审会裁定57名选委会当然委员登记有效

拿什么来保护数据安全？基层数据安全体系建设待提升

粤澳警方联合打掉一跨境有组织犯罪团伙

香港大学首推“顶尖运动员入学计划”

香港应科院将拓宽在内地的发展

香港入境处：2021年访港旅客同比跌97.4%

香港警方共拘捕162人涉嫌违反香港国安法

开源 SD-Small 和 SD-Tiny 知识蒸馏代码与权重

朗姿股份上半年净利同比大增 医美板块营收同比增长25.15%

全国首笔跨境人民币自缴核销缴税业务在广东肇庆落地

蜜雪开启炸串业务；东方甄选淘宝正式开播；安慕希库里限定包装上市；

腾讯控股：今日回购122万股股份 耗资约4亿港元

河南鲁山花费715万元建牛郎织女雕塑，当地回应！称正调查

大摩：今年还有13个“AI时间点”，最近的就在今天

中央气象台发布台风蓝色预警

莫里兹·斯蒂勒(关于莫里兹·斯蒂勒简述)

城市轨道交通运营安全评估管理办法印发

手机业务全面归来？华为Mate 60 Pro提前上线

假面骑士geats：原来茨姆莉演员青岛心说过自己不想变身，op场景也不是大结局伏笔

今日2397只个股突破五日均线

玉米粉鸡蛋饼热量（玉米粉鸡蛋饼）

润建股份8月29日盘中涨幅达5%

不能跟情人说的话 歌词 不能跟情人说的话

2023年7月吴中综合保税区进出口总额及进出口差额统计分析

开盘即巅峰，重大利好下股市怎么了

大同市道路交通秩序管理工作情况的通报

美国北卡罗来纳大学教堂山分校发生枪击事件 校方：嫌疑人已经被捕

印尼巴厘海7.1级地震

天能股份上半年净利同比增45%至10.92亿元 Q2环比下降约23%

洗面奶推荐：自用过的4款超级无敌好用的经典良心的洗面奶推荐！

摩根大通：现在是抢购美股医疗科技股的时候了

来呈贡 创未来 | 呈贡区举办“宜居春‘呈’”2023年招商推介会

【风口解读】正极材料需求，振华新材上半年转亏，第二季度亏损1.06亿元

山西：来这里开启一场别样田园之旅 邀你一起体验！

三湘印象上半年营收1.8亿元，目前剩余可开发建筑面积为41.48万平方米

A股2023年SIP封装概念股龙头一览（2023/8/28）

榴莲披萨的做法视频（榴莲披萨的做法）

东方碳素：上半年营收1.88亿元 同比增长15.33％

中国保险汽车安全指数（C-IASI）2023年测评车型第一次结果发布

福建省森林消防总队2023年“火焰蓝” 专业技能比武正式开幕

万润新能（688275）8月28日主力资金净卖出194.53万元

五年超2.3万匹次赛马往返粤港两地

以爱为名的隐形枷锁

江苏盐城遭龙卷风，村民称多处房屋倒塌，步凤镇政府：2人轻伤，已组织救援

山东科技大学学分怎么算 大学学分怎么算

文明“绿书签” 携手共“护苗”

暑期校外培训“监管护苗”行动亮成绩单 隐形变异培训现象得到有效控制

内蒙古注册会计师待遇怎么样（内蒙古注册会计师报名）

日常怎样快速有效去黑头（8个小窍门有效去黑头）

想要脾胃好，少 少 少

隔壁装修我们这里甲醛味儿很大（隔壁装修甲醛会飘来怎么办）

比赛日：曼城险胜+曼联利物浦超级逆转 皇萨仁告捷

调整优化房地产信贷政策

省发展改革委 全力推进重大项目“五个四”工作机制助推经济高质量发展

女生网名唯美小清新带符号两个字（女生网名唯美小清新带符号）

肉包不吃肉黑过墨香铜臭吗（肉包不吃肉）

小组赛-费尔南多14+7 克拉克森21+7 安哥拉送菲律宾连败

教育录播四大品牌 教育录播

瑞斯康集团(01679)拟1.1亿元收购Zhongyi (BVI) International Limited

菇丸清汤面(关于菇丸清汤面简述)

这名新生刚报到就要返乡：“我要先去救爸爸！”

错过再等一年！荣耀Magic4 5G手机优惠价2899!

清华大学文科好还是理科好（学文科好还是理科好）

打卡228街坊这场市集， 解锁周末新玩法

青少年科技素养提升计划在农村培训逾万教师超31万小学

城市对青年更友好青年在城市更有为

朗姿股份上半年净利同比大增医美板块营收同比增长25.15%

腾讯控股：今日回购122万股股份耗资约4亿港元

不能跟情人说的话歌词不能跟情人说的话

美国北卡罗来纳大学教堂山分校发生枪击事件校方：嫌疑人已经被捕

来呈贡创未来 | 呈贡区举办“宜居春‘呈’”2023年招商推介会

山西：来这里开启一场别样田园之旅邀你一起体验！

东方碳素：上半年营收1.88亿元同比增长15.33％

山东科技大学学分怎么算大学学分怎么算

暑期校外培训“监管护苗”行动亮成绩单隐形变异培训现象得到有效控制

想要脾胃好，少少少

比赛日：曼城险胜+曼联利物浦超级逆转皇萨仁告捷

省发展改革委全力推进重大项目“五个四”工作机制助推经济高质量发展

教育录播四大品牌教育录播

打卡228街坊这场市集，解锁周末新玩法

秦钰恒：黄金1922反复加仓空头，弱势看跌1840

尼尔森：我没按卡莱尔要求叫战术气得他跺脚两周后我就被交易了

2023年中国风电塔筒行业市场发展分析行业供需结构有望迎来明显改善

厦门国际会议中心酒店电话号码厦门国际会议中心

香港恒生指数当日内交易策略: 在 19920 之上目标价位为 20450（20230731）

和平精英跟随跳伞怎样操作和平精英内容推荐

中国休闲零食行业格局分散休闲零食行业保持稳健增长趋势

北京遭遇今年以来最大规模降雨全市平均降雨量109.3毫米

国睿科技董秘回复：公司未开展相关领域技术研究。

碱厂夏季集中检修纯碱价格小幅走高