对国内10款免费AI文生图工具5个梯度的进阶体验对比,哪款工具更得心应手?
过去一年,AI文生图模型持续进化,不仅能熟练驾驭各路画风,而且陆续解决画不好手、搞不明白空间位置、不理解“红烧狮子头”等有歧义或抽象概念的种种难点。
国外Midjourney、DALL·E 3、Imagen 2虽好,但用起来有一定门槛。好在国内大模型企业们急追猛赶,发布了一大波适合中国人体质的AI绘图工具,在易得性上甩开国外AI工具十条街。
这些工具通通可以免费体验,通过网页或App即可使用,在使用门槛上基本拉不开差距。拼生成速度吧,大致每张图片都能在半分钟内生成,具体受网络环境或浏览器状况的影响,做不到很客观。
那么谁才是国产AI文生图工具的头号玩家?谁才是辅助专业创作者提高效率、解救绘画小白于水火之中的神器?回答这个问题,要考察两个关键能力:理解到位,画得精细。
为此,我对国内10款免费的AI文生图工具进行了5个梯度进阶的体验对比,考题包括但不限于日常脑洞、网络名梗、头像设计、公司年会、春节氛围、跨界组合、诗词理解、多轮修改,来看看哪款工具更得心应手、更能秒懂用户的心。
综合来看,智谱AI的智谱清言是整体表现最稳定的一款AI文生图工具,在10个考验中基本都能生成符合我要求的图像。
不过全员翻车的考题也不少,例如画出来的鹦鹉爪子不仅奇形怪状,数量也与真实不符;理解不了时下正热的“南方小土豆”,还把“拿着冰糖葫芦”这一动作画成了串在一起的土豆;把福字、春联上的文字写的像鬼画符……
论文字理解能力,智谱清言、文心一言、讯飞星火、通义万相、混元助手的表现更胜一筹。360智绘、美图MiracleVision则在面对第一道题的“阿拉斯加”时就出了岔子,莫名把阿拉斯加画成一个男人/北极熊。
论画面精细程度,智谱清言、通义万相、文心一格生成的春节氛围图几乎可以拿来即用;但画出来的吉祥物,即使直接点名龙年背景,结果通义万相、讯飞星火、抖音豆包的吉祥物形象可以说与传统“龙”没有关系。
论多轮修改的靠谱程度,文心一言是每一轮都坚持到最后的玩家,智谱清言都是忠于上一幅图片修改,腾讯混元助手的表现则可圈可点,有的每一步需求都理解到位,有的却加了一些奇怪元素。整体来看,多轮修改是画图、设计的必备技能,但基本所有的AI绘画工具都无法做到。
为了保证对比的公平,我在体验每一个工具的生成能力时均以第一次生成图片为准,具体的对比如下:
青铜难度:1-2个关键词,鸟爪、网络热词难拆解,讯飞、智谱AI表现亮眼
第一阶段青铜难度的提示词较为简单,这些提示里包含的关键词大多只有2个,包含生成图片中的主要角色,以及其这一角色的地理位置、行为动作、图片大小、图片风格等其中之一个关键要素。
首先是“一只站在楼顶的阿拉斯加”,主要包含对地理位置和阿拉斯加犬种的理解。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
将两个关键词分拆来看,各个工具都通过周围楼层的对比或者俯瞰来呈现“站在楼顶”。大多数图片也都突出了阿拉斯加大型犬、黑白配色、长毛等主要特征。
但是令我没想到的是“阿拉斯加”这个常见犬种,竟然会有AI生成的形象完全与之不搭边。美图MiracleVision画了一只形似北极熊的动物站在了楼顶,360智绘更离谱,画了一个男人站在楼顶。
第二道题是生成“一只站在树杈上的粉色鹦鹉”,这一提示词的关键词主要包含地理位置、粉色、鹦鹉。这道题的难点在于鸟爪和人手一样,都是困扰AI的一道难关,一些AI生成的鸟爪图经常会出现形态扭曲、奇怪的情况。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
果不其然,10款AI绘画工具全都翻车。鹦鹉脚趾为对趾型足,两趾向前,两趾向后。但这些图片中有的将脚趾隐藏在树干之后,有的即使画出了脚趾但数量和位置也不对。
不过这些AI生图都呈现了“站在树杈上、粉色”的特点,也都能一眼看出是鹦鹉,但经不起细看。
当我放大图片细细观察时,通义万相、讯飞星火、讯飞星火绘画助手、美图MiracleVision在鹦鹉眼睛的处理上也出了岔子,有的鹦鹉一侧有两只眼睛、有的眼球很小完全失真。
第三道难题是“一个拿着冰糖葫芦的南方小土豆,‘南方小土豆’是东北人对游客的昵称”,这一提示词的主要难点在于理解“拿着冰糖葫芦”和“南方小土豆是游客”。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
从结果来看,有的图片将土豆当成山楂串了起来,有的直接将一颗颗小土豆重新排列组合,还有的直接搬来了土豆的卡通形象。
其中独树一帜的当属讯飞的两款AI工具,充分理解了“小土豆是游客”这一概念,我也终于在10张图片中看到了真人形象。
但冰糖葫芦全部翻车也是我没想到的,只有智谱清言的卡通形象在一根木棍上串着几颗红色果子,还稍微与冰糖葫芦贴边。
青铜挑战的最后一道题是,“用青花瓷风格画冷杉”,对图片风格进行了指定。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
这一大难题的生成结果之间的差距较大,有将冷杉画到青花瓷器具上、有将青花瓷花纹画到冷杉上、还有使用青花瓷对应的线条颜色等直接呈现一幅画。
前两种虽然将青花瓷风格和冷杉这两大元素相结合,但理解的仍然不够准确。其中通义万相、智谱清言、腾讯混元助手的图片感觉甚至可以直接拿来用,其将青花瓷风格直接融入到了画中。
不过,智谱清言的画还有一个小bug:将冷杉画成了松树。
白银阶段的提示词难度上升,关键词从2个增长到5个以上,并且需要对关键词描述加以理解。
第一道题为了契合即将到来的春节,让AI绘画工具生成了“一张春节氛围浓重的图片,需要包含灯笼、春联、福字”,除了美图MiracleVision外,其余图片都体现了热闹的春节氛围。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
为了降低一点难度,方便我能快速在图片中找到相应元素,这道题只设置了“灯笼、春联、福字”三个明确的关键词,但最后的结果并不完美。
智谱清言、抖音豆包倒是完全保留了三个元素,但中文字符的呈现仍然是一大难题。智谱清言的图片可以勉强看出“福”的轮廓,抖音豆包的春联、福字则全是一堆乱码。
其余几个工具生成的图片中大多都只包含其中的1-2个元素,而通义万相、讯飞星火、讯飞星火绘画助手、腾讯混元助手的春节氛围十分浓厚,整个画面看起来也很和谐。
第二道题的关键词数量直接翻倍,包括“饺子,美食,热气腾腾,色彩柔和,高饱和度,食物摄影,诱人,定焦,超清”。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
起初我以为这道难题的门槛会在后面一长串的限定词呈现上,但没想到直接从“饺子”就开始翻车。抖音豆包、讯飞星火、讯飞星火绘画助手、通义万相、智谱清言生成的图片能看出是正宗饺子,其余几个已经直接“变异”为包子。
第三道题中设置了一个难关,“一家公司开年会,在图片的右上角位置,需要有年会主题的横幅”,需要在指定位置画出年会的横幅。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
在体现氛围这一块,这些AI工具画得都还不错。不过,360智绘、通义万相、美图MiracleVision的图片并没有理解“年会”的概念,而是直接省略了“年”字,生出了一张大家开会的图片。
这道题里我并没有将放横幅的位置指定十分精确,只是模糊说了“右上角”。从位置来看,抖音豆包、讯飞星火、讯飞星火绘画助手有横幅、主题,但都在画面的正上方,智谱清言的图片右上角可以明显看到有横幅、标语类元素。
白银阶段的最后一道难题是,“今年是龙年,为春晚画一幅宣传海报,需要有吉祥物”。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
春晚的吉祥物传统由来已久,龙也是中国传统文化的典型代表形象,AI绘画在这两个元素的结合方面确实给出了一些更新的思路。有龙头人身、小恐龙形象等等,还有一些甚至完全脱离了传统意义的龙。
从最后的生图效果来看,除了智谱清言的图片有出现宣传海报的边框等,其余大多都只有一个吉祥物形象和背景。
黄金难度考验的既是AI绘画工具的想象力与创造力,还有对一些误导性提示词的分辨。
第一道题为“两个机器人携手登月的四格漫画”,四格漫画想要考研AI绘画工具能不能将四个有互相关联的画面呈现出来。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
从结果来看,虽然单看图片无法理解四格漫画呈现的具体故事,但相似的角色以及角色动作、背景的改变都呈现出了其中的连贯性,其中的代表AI绘画工具就是智谱清言、抖音豆包、美图MiracleVision。360智绘生成的图片虽然也呈现了四格漫画,但更像是一个人类登月的故事。
其余几款工具则直接忽略了“四格漫画”这一关键词,只体现了“两个机器人携手”登月。
第二道题更加无厘头,“蒙娜丽莎来到中国应聘为一名程序员”,需要AI绘画工具体现出蒙娜丽莎、中国、程序员三个元素。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
文心一格、讯飞星火、讯飞星火绘画助手直接将蒙娜丽莎的经典形象和电脑相结合,百度文心一言、360智绘、阿里云通义万相、智谱清言、混元助手则进行了完全再创作,前三个生成的图片可能是为了贴合中国这一元素,长相更像中国人。智谱清言的形象更贴近外国人形象,并且唯一将“应聘”体现出来的图片,混元助手则自行采用了漫画画风。
抖音豆包、美图MiracleVision直接将蒙娜丽莎的原形象搬到了图片上,但调整了图片背景,不过并不能让我一眼看明白想体现的关键元素是什么。
第三道题为AI绘画工具挖了一个大坑,“一只叫做‘松鼠鳜鱼’的鱼成功跃龙门”,需要AI避开“松鼠鳜鱼”,精准get到这不是重点。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
“松鼠鳜鱼”这一难题还是骗过了1/2的AI工具,好在此前的“松鼠跪在一条鱼前”的乌龙没有再次出现。讯飞星火的图片体现的是“鱼跃门”,智谱清言包含了“龙”和“门”。美图MiracleVision更为简单粗暴,直接用文字将这条鱼的名字打在了正中间。
最后钻石难度,就是集中国古人智慧之大成的古诗理解环节。一般而言,古诗寥寥数语背后蕴含了与社会背景、人物古诗等都相关的意境等,所以既需要AI理解这句诗,还应该联合古诗上下文。
为了循序渐进,AI绘画工具一开始接收到的诗句都是画面感很强,有突出的对象和环境描写。
第一道题是“墙角数枝梅,凌寒独自开”,单看句面意思拆解来看就是墙角、梅花、寒冷、开放这几个关键词。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
除了另辟蹊径的美图MiracleVision,其余几款工具都将“梅花”、“开”作为画面的主体。文心一言的画作边上还有诗句及印章,更符合古诗配图的风格。文心一格、通义万相、智谱清言、讯飞星火、讯飞星火绘画助手、腾讯混元助手的画面上都有雪花,体现了“凌寒”。
智谱清言的梅花处于墙角,但从外观看更像现代的墙壁,与古诗暗含的年代不相符。
第二道题的古诗“黄河之水天上来,奔流到海不复回”画面感也很强,但与梅花不同,这句诗中的“黄河”有指定的对象。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
美图MiracleVision仍然直接了当将诗句放到了图片正中间。抖音豆包、百度文心一言、百度文心一格、阿里云通义万相的图片对于黄河的呈现更为真实,且体现出了“奔流到海”的气势。智谱清言、讯飞星火、讯飞星火绘画助手更专注于呈现“黄”的元素。
360智绘虽然能感受到黄河,但河面过于平静,没有奔流的气势。
最后一道题“了却君王天下事,赢得生前身后名”的难度在于,画面感不强,AI无法直接从字面获取到诗句的主要对象。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
从AI绘画工具生成的图片可以看出,大多工具将“君王”作为图片的主体,通义万相是一个大型宫殿,也从侧面体现的是君王。不过文心一言和文心一格呈现出的是一个女性形象,与古诗的字面意思看起来毫无联系。
美图MiracleVision无法根据这一提示词生成图片。
当将“醉里挑灯看剑,梦回吹角连营。八百里分麾下炙,五十弦翻塞外声,沙场秋点兵。马作的卢飞快,弓如霹雳弦惊。了却君王天下事,赢得生前身后名。可怜白发生!”整首诗作为提示词,AI绘画工具生成图片更符合古诗本身的意境,都有征战沙场的将军形象。不过美图MiracleVision仍然无法生成。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
其中,智谱清言左下方还有诗句,更符合古诗配图风格。360智绘、阿里云通义万相图片中只有一位将军形象,无法体现出更宏大的场面。
每一个设计师的设计稿都有N个版本,所以想要让AI画出我满意的图片就需要反复提需求。
然而在这一环节只剩三位竞争对手:文心一言、智谱清言、腾讯混元助手。其余几款工具因为不支持多轮对话等原因直接退赛。
第一道题还是延续了上文多个AI工具败下阵来的春节氛围图的提示词。
这回我变难缠了,对AI工具生成的图片更加挑剔,在让它们生成一张春节氛围浓厚、包含灯笼、春联、福字的图片后,又不断提出新的修改要求,包括“画面更写实”、“人多一点”、“画面里还要有人在放鞭炮”等。向所有AI工具都输入的文字都完全一致。
文心一言生成的四张图中,除了对“写实”这个词理解不到位,其余改进都很符合我的需求,并且可以看出下一幅图基本没有偏离上一幅的整体风格。
与文心一言相比,智谱清言的四张图能明显感受到是同一幅画面的内容逐渐增多,不过也是在“写实”这部分,后三张图仍然为卡通、动漫风格。
腾讯混元助手的四张图可以用风格迥异来形容了,每一张都是在前面所有需求的基础上进行再创造,不过对于“写实”的理解,混元助手也更胜一筹,后三张明显感觉更为真实。然而,最后一张图,混元助手却将“放鞭炮”画成了“放烟花”,完全找不出鞭炮在哪儿。
第二道题也是前面众多AI绘画工具曾经化饺子为包子的考题要求增加版。
在让每个AI工具画一张刚出炉的饺子照片后,我又陆续提出“让这盘饺子冒着热气”、“再多来几盘饺子”、“旁边再多几盘菜”、“旁边再坐一家人吃这些菜”等修改要求。
一共五轮对话,一路坚持到最后的只有文心一言,智谱清言在加几盘菜环节落败,告诉我它还没有构思好,可以换其他需求,混元助手仅仅坚持到了让饺子冒着热气,就回复“还未学习到如何回答这个问题的内容”。
不过,乍看之下文心一言的前四张图几乎没有差别,第四张图虽然勉强可以看到饺子周围多了几个碗,但这些更像是蘸料碗。最后一张的氛围倒是很对,但并没有在此前的版本上修改,等于全都推翻重来。
智谱清言虽然仅有三张图,但都按要求改了,不过还是和之前的问题一样,最后饺子变包子。智谱清言生成的每一张图下面还附带了它对图片的理解与解释,比如第三张图它有提到“中心是一盘冒着热气的刚出炉的饺子,周围摆放着几盘其他各种不同的中国菜肴。这些菜肴包括蔬菜、肉类和米饭,代表了一顿传统的中国餐”。这让我能够根据它对需求的理解去再次提出修改建议。
腾讯混元助手的两张图既把饺子变成了包子,还莫名其妙在中间放了一碟辣椒。
第三道题则更具迷惑性,我试图让AI搞懂狗和狗不理包子的关系。
我首先让每个AI工具画一桌天津狗不理包子,接着要求把图改成“一只狗在吃狗不理包子”,又让它把狗的颜色换成黑色、把图片换成漫画风。
文心一言前两轮表现很不错,既有狗不理包子也有狗,但后两张图让我大跌眼镜,黑漆漆的包子属实很罕见,并且第四张图包子“露馅”了,有一种往烧麦生成的感觉。
智谱清言的四张图,我每一张要求它修改的细节都涵盖很到位,美中不足的是为什么包子会接连变成馒头、汉堡包和一大块面包?
腾讯混元助手直接在中间将狗放到了包子盘中,不过狗的颜色确实改变的很到位,后两张图的包子同样变成了汉堡包。
从我深度体验国产10款AI绘画工具的感受来看,AI在一些氛围感较强、没有指明具体包含要素的图片生成上表现较好,但一旦指定生成狗、包子、饺子等具体可以物体时,就会出现奇怪的图片。不过当碰上春节氛围或者青花瓷风格,这些需要AI自主创作更多的画面时,它往往能带给我惊喜,有些甚至可以拿来即用。
刚开始,AI绘画工具因为对松鼠“跪”鱼、车/水/马/龙等的奇葩理解闹出不少乌龙,但现在随着其图像生成效果越来越逼真,对细节的刻画也很细致,我对这些工具的印象也大大改观。
不过对于更资深的绘画工作者而言,AI在刻画物体方面容易犯错的问题十分致命。当人们想要用AI来为书籍配图、宣传海报生成图片时,非资深人士很难发现AI生成的鸟爪、动物形象等是否符合客观情况,海报上的文字、吉祥物形象如果不能被一下子看懂或者出现一些不符合常理的内容也会让传播效果大打折扣,因此这也是我希望AI绘画工具下一步亟需改进的地方。