ComfyUI

Flux + ComfyUI = 量产网红美女

Key Takeaway

  • Flux模型结合ComfyUI工作流和网红Lora,能生成高度逼真的AI图片,甚至可以以假乱真。
  • Flux模型由Stable Diffusion核心团队开发,生成图片真实度高,且能实现精准控制。
  • ComfyUI通过节点式工作流,解决了传统AI图像生成难以精准控制的问题,实现了精细化产出。
  • Lora作为“技能包”,能让模型按照特定风格生成图片,并可叠加使用。
  • AI图像生成已进入落地期,在电商等领域具有商业应用潜力,且ComfyUI工作流可分享。

Full Content

喜欢在小红书上看美女的小伙伴们请注意:

你们现在看到的,很有可能都是AI生成的。

别说什么平台会识别,你们是不知道,最新技术做出来的图片有多逼真。

比如这张图,你觉得是真的还是假的?

其实啊,这张图是我用AI生成的。准确来说,用的是Flux模型,加上一个简单的ComfyUI工作流。这里边有两个关键点:

第一,Prompt部分,也就是图片的文字描述,我是让Claude生成的。我给了它一张现成的图片,让它用英文详细描述,然后拿过来用。

第二,之所以图片上的小姐姐大家看着这么习惯,那是因为我加上了网红Lora。你可以简单理解为就是一个小插件,让模型按照特定风格去生成。

用这样一个简单的方法就能以假乱真。其实如果你更狠一点,完全可以直接图生图。比如,去小红书找一张符合大家口味的图片,然后让AI照着这个生成。很容易就可以做到姿势、身材、背景都基本一样,但是脸不一样。

以前的模型在局部做得不好,比如手指经常会多了一根。但是今天的模型已经进步非常多了。国内这些平台没法识别。所以有人做号、卖号,靠的就是我刚才演示里用的Flux模型,加上ComfyUI。

先来说说Flux模型。

最近一个多月,这款模型在圈内特别火。很多公司和团队已经实打实用上了,比如在电商领域。

那么,这么牛逼的模型是从哪冒出来的?

大家肯定听说过Stable Diffusion。Flux就是SD的核心团队出来做的。他们成立了一家新公司,叫黑森林实验室。

8月1日,黑森林实验室正式发布Flux模型,包含三个版本:schnell,就是快速版本,配置要求低一些;dev版,质量更高,但配置要求也更高,最好是4090显卡;Pro版,闭源版本,只能通过API调用。

官方版本出来之后,整个社区也是大力支持。比如推出了GGUF版,方便那些显存不够的用户使用Flux。

有了模型之后,下一个问题就是怎么运行。目前最好的方法,就是通过ComfyUI。

传统的AI图像生成,都是通过输入一大串的Prompt,俗称“咒语”。这会带来一个很头大的问题:

没法精准控制AI的生成。

一串文字给过去之后,后边的流程你完全不知道AI是怎么处理的。而且,如果对结果不满意的话,也只能在文字层面修修改改。很多时候,这种做法精确度不够,效率也很低。

于是,ComfyUI来了。它通过一个个节点组成一套工作流。这种节点式界面让用户很清楚了解AI究竟是怎么生成图像的,以及如果有问题的话,又是卡在了哪里。用户可以很精细地控制产出。

举个简单例子。你是做电商的,没钱雇那么多模特帮你拍照,那就换脸呗。你或者你手下的小姑娘先穿样衣拍好照片,然后放到ComfyUI工作流里边,专门针对脸的位置做一个遮罩。这样一来,AI就只针对脸部做生成。它会按照这个轮廓生成一张新的脸,然后再放回原来的位置。

通过这种方法,你就有了一个虚拟模特。是不是有一种画皮的感觉。这么想想还挺吓人的。

如果你觉得生成的图片AI感太强了,看起来太油、太完美了,可以加个Lora。比如,有大佬做了模拟业余摄影的,让图片看着像个外行拍的,这样就真实多了。我刚才演示里用的网红风格的Lora,也是别的大佬做的。我下载下来之后,放到特定的文件夹里,就可以在工作流里选择了。

所以你看,有了ComfyUI,原本一大坨的工作被拆解成了一个个步骤和节点,简单许多,清晰许多,可控性也高了许多。

更爽的是,这些工作流还可以分享。拿到工作流这个JSON文件后,拖到画布里就自动加载了。于是,不管是国内还是国外,有很多人在制作特别专业的工作流。这已经是现成的生意了。

大家在短视频平台上肯定有看到过这样的内容:先给你炫一下生成的图片有多牛,然后展示他搭建的极其复杂的工作流,最后跟你说,想要的话就来加微信。

如果你的机子跑不动也没关系。几乎所有的算力租赁平台都跟创作者有合作,为用户提供现成的镜像,可以直接用。

我就买了别人做的整合包,一共花了一千五。人家全都打包好了,一百多G下载下来,都不需要安装,省了我非常多的时间。

花钱买成品的好处是,很多基础的东西不需要再折腾一遍,理解一下就好了。比如,除了模型之外,Clip是干嘛的,VAE又是干嘛的;几个关键的文件夹都是放什么文件的。

实践和拆解才是重点。把别人的东西吃透了,最后造出自己的东西来。这就是我的天赋,我很清楚。所以这钱该花钱就花,而且绝对能翻倍赚回来。

Flux这一波预示着AI图像生成已经进入落地期了。动作快的人已经开始摘果子了。这也是为什么我等了一年多,到现在才开始研究。我建议大家不管想不想拿这个技术做点生意,最好都了解一下。你想想,当眼见不一定为实的时候,我们的生活会有多大变化。

OK,以上就是本期内容。想找我就来newtype社群。那咱们下期见!

本地微调Flux LoRA,最简单的方法

#Flux #Lora #微调 #图像生成 #本地部署 #ComfyUI

Key Takeaway

  • Fluxgym是一个简单易用的本地微调Flux LoRA工具,支持12G-24G显存GPU,能以假乱真地生成虚拟模特。
  • LoRA(Low-Rank Adaptation)是一种微调技术,通过添加“便签纸”式技能包,让大模型适应特定任务和风格。
  • Fluxgym结合了AI-toolkit的前端和Kohya Sripts的后端,提供直观的用户界面和丰富的进阶调整选项。
  • 文章详细介绍了Fluxgym的手动安装步骤,并强调了训练素材质量和模型选择对LoRA效果的影响。
  • 尽管云端微调速度快,但本地微调在拥有闲置算力或需大量训练时更具优势,且成本低廉。

Full Content

只需要12G显存,你就可以在自己的电脑上微调Flux LoRA,打造完全可以以假乱真的虚拟模特。

Fluxgym这个项目支持从12G显存到24G显存的GPU,对配置的要求挺宽容的。操作起来非常简单,就三步:

根据你的需求填写参数、设定触发关键词,然后上传训练用的素材图片,最后点击开始,等着就可以了。

LoRA训练好之后,把它放到ComfyUI对应的文件夹里边,在工作流里加一个LoRA节点就可以使用了。是不是超级简单?

Fluxgym前端fork了AI- toolkit这个项目,所以才会这么直观、好用。而它后端用的是Kohya Sripts这个项目,可以做非常多进阶的调整。如果你懂的话,点开Advanced Tab就会看到一大堆选项。

这就是我为什么说Fluxgym是微调LoRA最简单也是最好的方法。

哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。记得点一波关注,只要有一个视频你看进去了,就赚大了。如果想链接我,就来newtype社群。已经有500多位小伙伴付费加入啦!

回到今天的主题:Fluxgym。

我在上上上期视频介绍过微调Flux LoRA的基本概念和方法。在视频中,当时我用的是部署在云端的项目。在H100的帮助下,只花20分钟就把LoRA训练出来。成本大概是两三美元。

说真的,我觉得这个价格其实很OK了。不过,如果你有闲置的本地算力的话,不用白不用,以及要训练的数量比较大的话,可以使用我今天要介绍的方法。

Fluxgym的安装有三种方式。你可以一键安装,可以通过Docker安装,也可以完全手动安装。我这边演示一下手动安装。其实超级简单,就无脑按照官方流程操作就好。

第一步,把项目下载到本地。记得要用cd命令进入Fluxgym文件夹,把sd-scripts也下载下来。

第二步,在根目录下,创建环境,并且启动。

第三步,下载、安装需要的各种依赖。大家注意,这里其实有两个部分:一是进入sd-scripts文件夹,通过pip install、按照requirements这个txt安装;二是返回上一级目录,同样通过pip install安装。

第四步也是最后一步,安装Pytorch。

我在家里和公司的PC上都安装了Fluxgym,没遇到任何问题。大家如果安装过程中遇到什么报错,记住:别问我,问ChatGPT——这一定是最有效的方法。你问我,我要么问GPT,要么Google一下,看看别人是怎么解决的。你有问我的功夫,还不如直接上手呢,对吧?

要启动Fluxgym,记得是在环境启动的状态下,在根目录下边执行这行命令。这时我们打开这个本地链接,就能看到UI了。

作为演示,在参数配置这边,我不做任何调整,就用默认参数。

在模型选择上,Fluxgym提供了三个模型:dev、schnell,以及一个他们微调后的dev模型。我这边就用官方的dev模型。

在训练素材方面,我还是用上次的图片,这样咱们一会儿可以对比不同项目训练出来的LoRA的效果。

都配置完毕后,咱们点击开始。

第一次使用,Fluxgym会下载模型文件,包括unet、clip、vae,一共有四个文件,加起来得有30G。如果你之前已经下载过了,那就把文件拷过来,放到对应的文件夹里。

整个训练过程咱们等着就好。我演示用的是公司的PC,4090显卡,64G内存,i9的CPU。即使是这种消费级的顶配,我都能明显感觉到,放在脚边的机箱发热多了非常多。

等训练完成,可以看到,这次一共花了70分钟。具体需要花多久,除了看配置,也取决于你前边的配置,比如你的步数需求。

把这个LoRA文件拷到ComfyUI的LoRA文件夹里,就可以在工作流里使用了。咱们来做个测试,提示词很简单。从生成结果来看,这个微调挺成功的,跟素材图片基本一致。

作为对比,咱们再来看看之前我在云端用AI-Toolkit训练的LoRA。还是同样的提示词。这次生成结果和刚才的基本一样。

前边我提到,Fluxgym默认支持三个模型,其中一个是微调后的。他们建议,最好是用这个微调后的模型来训练。原因在于:

dev模型是从pro模型蒸馏过来的。在蒸馏的过程中,某些能力或输入条件被削弱或去掉了。比如,可能会有一些美学嵌入条件在简化过程中被限制,或者模型在训练过程中只使用了更小的数据集。这就导致用dev模型训练LoRA,效果有可能不太好。

为了把丢失的能力补回来,开发者使用大规模、高质量的数据对dev进行微调。这样一来,用这个定制版的dev模型再去微调,就能避免模型崩溃或输出质量下降的情况。大家使用的时候,我建议还是优先用它。

通过LoRA,咱们可以达到直接生成指定外观的人物或者物品的目的。我知道肯定会有人说,不用LoRA也可以。确实,比如你用PuLID,让模型根据参考图,也可以生成指定长相的人物。

但是,这是有限制的。比如,生成人物的朝向会受到参考图像的限制。还有,你经常会发现,一张图作为参考不够,还得多加几张。然后还需要对图像做个裁切,把脸的位置给单独拎出来。

所以,在我看来,图生图或者换脸都只是权宜之计。如果你要长期、稳定生成虚拟模特或者物品的话,还是搞个LoRA吧。训练成本和使用成本都很低,挺划算的。

OK,以上就是本期内容。想进一步交流AI就来newtype社群。那咱们下期见!