今日份知识你摄入了么?
Bard图像(左)与Midjourney图像(右)相比
昨天,Google发布了备受期待的Google Bard人工智能图像生成器(https://blog.google/products/bard/google-bard-gemini-pro-image-generation/)。这一新版本使谷歌与人工智能公司Midjourney和OpenAI保持一致,这两家公司都在市场上拥有强大的人工智能图像生成器。
自从发布以来,我一直在广泛测试Google Bard的新图像生成功能。
以下是你需要知道的。
Imagen首次公开亮相
谷歌是第一批追求人工智能图像生成的大公司之一。该公司在2022年的一篇研究论文中(https://arxiv.org/abs/2205.11487)宣布了Imagen系统。
当时,Imagen引发了大量的兴趣和兴奋。随后,谷歌将这项技术搁置了近两年,而OpenAI、Stability和Midjourney等竞争对手则纷纷推出了大量商用图像生成器。
现在,在漫长的等待之后,公众终于尝到Imagen的滋味了。一个新的竞争对手和一个新的技术平台进入人工智能图像生成领域是令人兴奋的,即使漫长的等待让发布感觉有点虎头丧气。
Bard的图像生成器是免费的
要访问当前一流的人工智能生成器 Midjourney,你需要每月支付10至120美元的额外费用,并使用一个笨拙的Discord桌面应用程序。
Google Bard使访问人工智能图像生成器变得简单且免费。现在工具已经推出,你可以访问https://bard.google.com并要求聊天机器人生成你想要的任何图像。
这些图像还不能与Midjourney相提并论(详见下文)。但对于那些想尝试人工智能的人,或者只是想和孩子们一起制作笑脸三角形汽车的人来说,Bard的免费且易于访问的界面是一个很大的卖点。
Bard的图好像有隐形水印
隐形水印技术已经存在了几十年。像Digimarc这样的公司从Photoshop诞生之初就开始使用隐形水印,而像Steg AI这样的新科技公司已经扩展和改进了这项技术。
为了给图像添加看不见的水印,特殊的软件会以一种人类看不到的方式微妙地改变图像的像素。这些更改遵循另一个软件稍后可以读取的模式。它本质上是一种嵌入难以察觉的跟踪代码的方法。
由于这些不可见的代码不依赖于图像的元数据,而是嵌入到图像本身的实际像素中,因此无论图像在何处使用,它们都可以与图像一起传播。这使得任何人都可以在以后的时间里跟踪图像回到它的创作点。
这项技术有助于保护传统照片的图像版权。但到目前为止,它还没有被应用于跟踪人工智能生成的图像。
Google Bard是首个使用SynthID系统在平台上创建的每张图像中嵌入隐形水印的主要人工智能软件。在创建时这样做可以确保任何Bard图像都可以追溯,并显示其ai生成的状态。
至关重要的是,像SynthID这样的数字水印通常能够经受住对原始图像的编辑、裁剪和其他改变。
例如,如果有人试图使用Bard的图像作为深度伪造,谷歌的算法可以扫描图像并立即显示它是由Bard制作的。这是建立对系统图像信任的有效方法。
你可以期待在像Google Images这样的工具中看到这种验证功能,这样你就可以快速识别人工智能生成的图像和传统图像。
安全是重中之重
秉承人工智能道德的精神,Google Bard的新图像生成器比竞争对手更重视安全性。
OpenAI的DALL·E拒绝创建攻击性图像,但创建已知政治人物的图像通常没有问题。
同样,Midjourney也会很乐意制作名人漫画,过滤查询的敏感度要低得多。我用它为最近的一篇文章创建了OpenAI的Sam Altman的模仿图像。
作者通过Midtravel绘制的Altman插图
相比之下,Google Bard经常拒绝创建哪怕有一点点可能被滥用的图像。
为了将Bard的图像生成器与Midjourney进行比较,我要求它创建一个律师研究案件的图像,这是我在另一个系统中测试过的提示。
它拒绝了。据推测,我的律师形象可能被用于一些邪恶的方式——也许是为了给一个虚假的法律网站增加不劳而获的权威。结果,Bard没能成功。
作为一名用户,Bard的广泛护栏可能会令人厌烦。但它们确实表明谷歌在图像生成方面做得非常安全。
Bard的图像与Midjourney不同,然而…
现在,你一直在等待我回答的问题是:“Bard创建的图像是否与Midjourney和DALL-E等竞争工具一样好?”
最简洁的答案是不。
在我的测试中,我发现许多Bard的图像仍然带有Midjourney版本4和5的典型卡通和过度饱和的外观。例如,这是Bard对“一个男人的肖像”的演绎。
一个人的肖像,来自Google Bard
下面是来自Midjourney的相同提示。
一个男人的肖像,来自Midjourney
Bard的形象并不逼真。灯光不对,皱纹太明显,脸部程球根状的、漫画般的表情,不切实际。
另一方面,Midjourney的图片感觉就像一张真实的照片——甚至可能是一件艺术品。像男人的胡茬这样的细节被渲染得很漂亮,他的脸传达出强烈而真实的情感。
我在Bard上创建的许多图像都重复了同样的模式。
这是一张来自Bard的“一个男人牵着比熊犬行走的令人向往的照片”。
Bard的理想比熊犬
还有来自Midjourney。
Midjourney的理想比熊犬
Bard的图像并不糟糕,但它们与Midjourney甚至是DALL-E3中的许多图像都不在同一水平上。
也就是说,在某些图像上,Bard做得很好。在我的测试中,它在创建带有真实文本的图像方面比Midjourney做得更好。
Bard擅长文字
它还拥有经典的“牛油果扶手椅”提示,这是人工智能图像生成器的常见测试,可以追溯到OpenAI关于图像生成的原始研究论文。
Bard牛油果扶手椅
充满希望的未来
我对Google Bard的新图像生成器的第一印象基本上是负面的。
我对世界上最大的软件公司之一抱有很高的期望,而Bard的图像生成技术无法与Midjourney这样的小初创公司相比,这让我感到失望。
但随着我使用Bard的次数越来越多,我对它的能力印象越来越深刻。是的,它没有Midjourney那么有艺术性。它在理解提示方面也不如ChatGPT的DALL-E3那么好。
但尽管有这些缺点,Bard在正确处理基本问题方面做得令人钦佩。对于大多数人实际生成和使用的那种简单图像,Bard做得足够好。
这是一个由Bard生成的警灯镜头的例子。这是报纸用来说明重大犯罪故事的常见图片。对于这种目的,Bard的形象感觉完全可以通过。
Bard警灯
是的,该系统的许多图像都有点卡通化。是的,Bard可能会让人扫兴,尤其是当被要求创作任何有争议的东西时。
但作为一个任何人都可以访问并立即使用的免费工具,Bard的图像生成器仍然很强大。
从这里开始,情况只会变得更好。
Bard一发行就受到了广泛的嘲笑。随着系统的改进,用户数据也越来越多,这种嘲笑也逐渐消失了。Bard在某些任务上仍然不如ChatGPT,但它在访问信息、撰写博客文章和其他实际任务方面做得很好。
随着谷歌继续收集数据并改进Bard的新图像生成器,我相信它也会看到类似的改进。
也许有一天,它甚至可以创造双手!
原文作者:Thomas Smith
翻译作者:文杰
美工编辑:过儿
校对审稿:Jason
原文链接:https://medium.com/the-generator/google-bards-new-ai-image-generator-everything-to-know-7180e52a7554
Pandas2.2中的新功能
我尝试了多个AI编码助手,这些是最好的!
人工智能裁员已经开始:Duolingo在使用ChatGPT-4后裁员数千人
14场Kaggle比赛,开启你的数据科学之旅
Spotify数据科学家的终极指南
点「在看」的人都变好看了哦
点击“阅读原文”查看数据应用学院核心课程










