ComfyUI

Flux + ComfyUI = 量产网红美女 2024-08-31

Key Takeaway

Flux模型结合ComfyUI工作流和网红Lora，能生成高度逼真的AI图片，甚至可以以假乱真。
Flux模型由Stable Diffusion核心团队开发，生成图片真实度高，且能实现精准控制。
ComfyUI通过节点式工作流，解决了传统AI图像生成难以精准控制的问题，实现了精细化产出。
Lora作为“技能包”，能让模型按照特定风格生成图片，并可叠加使用。
AI图像生成已进入落地期，在电商等领域具有商业应用潜力，且ComfyUI工作流可分享。

Full Content

喜欢在小红书上看美女的小伙伴们请注意：

你们现在看到的，很有可能都是AI生成的。

别说什么平台会识别，你们是不知道，最新技术做出来的图片有多逼真。

比如这张图，你觉得是真的还是假的？

其实啊，这张图是我用AI生成的。准确来说，用的是Flux模型，加上一个简单的ComfyUI工作流。这里边有两个关键点：

第一，Prompt部分，也就是图片的文字描述，我是让Claude生成的。我给了它一张现成的图片，让它用英文详细描述，然后拿过来用。

第二，之所以图片上的小姐姐大家看着这么习惯，那是因为我加上了网红Lora。你可以简单理解为就是一个小插件，让模型按照特定风格去生成。

用这样一个简单的方法就能以假乱真。其实如果你更狠一点，完全可以直接图生图。比如，去小红书找一张符合大家口味的图片，然后让AI照着这个生成。很容易就可以做到姿势、身材、背景都基本一样，但是脸不一样。

以前的模型在局部做得不好，比如手指经常会多了一根。但是今天的模型已经进步非常多了。国内这些平台没法识别。所以有人做号、卖号，靠的就是我刚才演示里用的Flux模型，加上ComfyUI。

先来说说Flux模型。

最近一个多月，这款模型在圈内特别火。很多公司和团队已经实打实用上了，比如在电商领域。

那么，这么牛逼的模型是从哪冒出来的？

大家肯定听说过Stable Diffusion。Flux就是SD的核心团队出来做的。他们成立了一家新公司，叫黑森林实验室。

8月1日，黑森林实验室正式发布Flux模型，包含三个版本：schnell，就是快速版本，配置要求低一些；dev版，质量更高，但配置要求也更高，最好是4090显卡；Pro版，闭源版本，只能通过API调用。

官方版本出来之后，整个社区也是大力支持。比如推出了GGUF版，方便那些显存不够的用户使用Flux。

有了模型之后，下一个问题就是怎么运行。目前最好的方法，就是通过ComfyUI。

传统的AI图像生成，都是通过输入一大串的Prompt，俗称“咒语”。这会带来一个很头大的问题：

没法精准控制AI的生成。

一串文字给过去之后，后边的流程你完全不知道AI是怎么处理的。而且，如果对结果不满意的话，也只能在文字层面修修改改。很多时候，这种做法精确度不够，效率也很低。

于是，ComfyUI来了。它通过一个个节点组成一套工作流。这种节点式界面让用户很清楚了解AI究竟是怎么生成图像的，以及如果有问题的话，又是卡在了哪里。用户可以很精细地控制产出。

举个简单例子。你是做电商的，没钱雇那么多模特帮你拍照，那就换脸呗。你或者你手下的小姑娘先穿样衣拍好照片，然后放到ComfyUI工作流里边，专门针对脸的位置做一个遮罩。这样一来，AI就只针对脸部做生成。它会按照这个轮廓生成一张新的脸，然后再放回原来的位置。

通过这种方法，你就有了一个虚拟模特。是不是有一种画皮的感觉。这么想想还挺吓人的。

如果你觉得生成的图片AI感太强了，看起来太油、太完美了，可以加个Lora。比如，有大佬做了模拟业余摄影的，让图片看着像个外行拍的，这样就真实多了。我刚才演示里用的网红风格的Lora，也是别的大佬做的。我下载下来之后，放到特定的文件夹里，就可以在工作流里选择了。

所以你看，有了ComfyUI，原本一大坨的工作被拆解成了一个个步骤和节点，简单许多，清晰许多，可控性也高了许多。

更爽的是，这些工作流还可以分享。拿到工作流这个JSON文件后，拖到画布里就自动加载了。于是，不管是国内还是国外，有很多人在制作特别专业的工作流。这已经是现成的生意了。

大家在短视频平台上肯定有看到过这样的内容：先给你炫一下生成的图片有多牛，然后展示他搭建的极其复杂的工作流，最后跟你说，想要的话就来加微信。

如果你的机子跑不动也没关系。几乎所有的算力租赁平台都跟创作者有合作，为用户提供现成的镜像，可以直接用。

我就买了别人做的整合包，一共花了一千五。人家全都打包好了，一百多G下载下来，都不需要安装，省了我非常多的时间。

花钱买成品的好处是，很多基础的东西不需要再折腾一遍，理解一下就好了。比如，除了模型之外，Clip是干嘛的，VAE又是干嘛的；几个关键的文件夹都是放什么文件的。

实践和拆解才是重点。把别人的东西吃透了，最后造出自己的东西来。这就是我的天赋，我很清楚。所以这钱该花钱就花，而且绝对能翻倍赚回来。

Flux这一波预示着AI图像生成已经进入落地期了。动作快的人已经开始摘果子了。这也是为什么我等了一年多，到现在才开始研究。我建议大家不管想不想拿这个技术做点生意，最好都了解一下。你想想，当眼见不一定为实的时候，我们的生活会有多大变化。

OK，以上就是本期内容。想找我就来newtype社群。那咱们下期见！

本地微调Flux LoRA，最简单的方法 2024-08-31

#Flux #Lora #微调 #图像生成 #本地部署 #ComfyUI

Key Takeaway

Fluxgym是一个简单易用的本地微调Flux LoRA工具，支持12G-24G显存GPU，能以假乱真地生成虚拟模特。
LoRA（Low-Rank Adaptation）是一种微调技术，通过添加“便签纸”式技能包，让大模型适应特定任务和风格。
Fluxgym结合了AI-toolkit的前端和Kohya Sripts的后端，提供直观的用户界面和丰富的进阶调整选项。
文章详细介绍了Fluxgym的手动安装步骤，并强调了训练素材质量和模型选择对LoRA效果的影响。
尽管云端微调速度快，但本地微调在拥有闲置算力或需大量训练时更具优势，且成本低廉。

Full Content

只需要12G显存，你就可以在自己的电脑上微调Flux LoRA，打造完全可以以假乱真的虚拟模特。

Fluxgym这个项目支持从12G显存到24G显存的GPU，对配置的要求挺宽容的。操作起来非常简单，就三步：

根据你的需求填写参数、设定触发关键词，然后上传训练用的素材图片，最后点击开始，等着就可以了。

LoRA训练好之后，把它放到ComfyUI对应的文件夹里边，在工作流里加一个LoRA节点就可以使用了。是不是超级简单？

Fluxgym前端fork了AI- toolkit这个项目，所以才会这么直观、好用。而它后端用的是Kohya Sripts这个项目，可以做非常多进阶的调整。如果你懂的话，点开Advanced Tab就会看到一大堆选项。

这就是我为什么说Fluxgym是微调LoRA最简单也是最好的方法。

哈喽大家好，欢迎来到我的频道。谦虚地说，我是国内少数几个能把关于AI的Why和How讲明白的博主。记得点一波关注，只要有一个视频你看进去了，就赚大了。如果想链接我，就来newtype社群。已经有500多位小伙伴付费加入啦！

回到今天的主题：Fluxgym。

我在上上上期视频介绍过微调Flux LoRA的基本概念和方法。在视频中，当时我用的是部署在云端的项目。在H100的帮助下，只花20分钟就把LoRA训练出来。成本大概是两三美元。

说真的，我觉得这个价格其实很OK了。不过，如果你有闲置的本地算力的话，不用白不用，以及要训练的数量比较大的话，可以使用我今天要介绍的方法。

Fluxgym的安装有三种方式。你可以一键安装，可以通过Docker安装，也可以完全手动安装。我这边演示一下手动安装。其实超级简单，就无脑按照官方流程操作就好。

第一步，把项目下载到本地。记得要用cd命令进入Fluxgym文件夹，把sd-scripts也下载下来。

第二步，在根目录下，创建环境，并且启动。

第三步，下载、安装需要的各种依赖。大家注意，这里其实有两个部分：一是进入sd-scripts文件夹，通过pip install、按照requirements这个txt安装；二是返回上一级目录，同样通过pip install安装。

第四步也是最后一步，安装Pytorch。

我在家里和公司的PC上都安装了Fluxgym，没遇到任何问题。大家如果安装过程中遇到什么报错，记住：别问我，问ChatGPT——这一定是最有效的方法。你问我，我要么问GPT，要么Google一下，看看别人是怎么解决的。你有问我的功夫，还不如直接上手呢，对吧？

要启动Fluxgym，记得是在环境启动的状态下，在根目录下边执行这行命令。这时我们打开这个本地链接，就能看到UI了。

作为演示，在参数配置这边，我不做任何调整，就用默认参数。

在模型选择上，Fluxgym提供了三个模型：dev、schnell，以及一个他们微调后的dev模型。我这边就用官方的dev模型。

在训练素材方面，我还是用上次的图片，这样咱们一会儿可以对比不同项目训练出来的LoRA的效果。

都配置完毕后，咱们点击开始。

第一次使用，Fluxgym会下载模型文件，包括unet、clip、vae，一共有四个文件，加起来得有30G。如果你之前已经下载过了，那就把文件拷过来，放到对应的文件夹里。

整个训练过程咱们等着就好。我演示用的是公司的PC，4090显卡，64G内存，i9的CPU。即使是这种消费级的顶配，我都能明显感觉到，放在脚边的机箱发热多了非常多。

等训练完成，可以看到，这次一共花了70分钟。具体需要花多久，除了看配置，也取决于你前边的配置，比如你的步数需求。

把这个LoRA文件拷到ComfyUI的LoRA文件夹里，就可以在工作流里使用了。咱们来做个测试，提示词很简单。从生成结果来看，这个微调挺成功的，跟素材图片基本一致。

作为对比，咱们再来看看之前我在云端用AI-Toolkit训练的LoRA。还是同样的提示词。这次生成结果和刚才的基本一样。

前边我提到，Fluxgym默认支持三个模型，其中一个是微调后的。他们建议，最好是用这个微调后的模型来训练。原因在于：

dev模型是从pro模型蒸馏过来的。在蒸馏的过程中，某些能力或输入条件被削弱或去掉了。比如，可能会有一些美学嵌入条件在简化过程中被限制，或者模型在训练过程中只使用了更小的数据集。这就导致用dev模型训练LoRA，效果有可能不太好。

为了把丢失的能力补回来，开发者使用大规模、高质量的数据对dev进行微调。这样一来，用这个定制版的dev模型再去微调，就能避免模型崩溃或输出质量下降的情况。大家使用的时候，我建议还是优先用它。

通过LoRA，咱们可以达到直接生成指定外观的人物或者物品的目的。我知道肯定会有人说，不用LoRA也可以。确实，比如你用PuLID，让模型根据参考图，也可以生成指定长相的人物。

但是，这是有限制的。比如，生成人物的朝向会受到参考图像的限制。还有，你经常会发现，一张图作为参考不够，还得多加几张。然后还需要对图像做个裁切，把脸的位置给单独拎出来。

所以，在我看来，图生图或者换脸都只是权宜之计。如果你要长期、稳定生成虚拟模特或者物品的话，还是搞个LoRA吧。训练成本和使用成本都很低，挺划算的。

OK，以上就是本期内容。想进一步交流AI就来newtype社群。那咱们下期见！