返回博客列表

疯狂的 Google Nano Banana Pro 绘图效果

11/27/2025
作者: AwesomeYang
类别: AI
疯狂的 Google Nano Banana Pro 绘图效果

转载自网络

我选用了一个常见的教程/概念配图场景去绘制多个图像,首先看看一次性绘制能够达到什么样的效果,然后再将细节丰富重新生成,查看画风,画面描述的遵循程度,中文文字的绘制效果,最后以风格化批量制作类似风格的图像。

提示词:
我是一个人工智能领域的小白,对深度学习,强化学习,LLM,Agent 智能体,向量数据库,MCP, ReAct 框架都不熟悉。我希望你分别绘制这些知识点的细节,以最浅显易懂的方式。效果就像教材插图一样。


Gemini:

你好!欢迎来到人工智能的奇妙世界。作为一个 AI“小白”,面对这些充满科技感的名词感到极其困惑是非常正常的。别担心,它们其实没有那么高深莫测。

我们把这看作是一本轻松的科普画册。我会用最生活化的比喻,为你“绘制”每一张知识点的插图。你只需要发挥一点想象力,跟着我的描述去脑补画面。

第一次生成

AI 思考,搜索和汇总了我需要的内容,并且将绘制的图片做了合并,但细节缺失,某些内容比较简单。

会话中他一次生成了多个常见的图像,略显粗糙: 这幅图的左侧展示了深度学习,它就像一个制作千层蛋糕的流水线,通过多层处理将原始数据(面粉、鸡蛋)转化为最终结果(蛋糕)。右侧展示了强化学习,它就像训练小狗,通过不断的试错、奖励(电池饼干)和惩罚(打叉),让智能体学会在环境中采取最优行动。

左图是大语言模型,一只读过无数书的机械鹦鹉,它能根据上文(床前明月光)预测最可能的下文(疑是地上霜)。右图是向量数据库,一个按“感觉”分类的太空超市,意思相近的东西(水果、宠物)会聚集在一起,方便AI通过语义距离进行搜索。(这里的图有些关系错误)

左侧的Agent智能体是一个全能管家,它能感知环境、做出决策并采取行动(如倒水、拉窗帘)。右侧的MCP则像是一个给考生准备的记事贴和参考资料夹,它管理着AI的“短期记忆”,确保它在执行任务时不会忘记当前的目标和背景信息。

这张图描绘了ReAct框架,它就像一个大厨在做菜时的内心独白。AI不会盲目行动,而是遵循“思考(Reason) -> 行动(Act) -> 观察(Observation)”的循环。它先计划,再执行,然后根据观察到的结果调整下一步的计划,直到完成复杂的任务。

第二次生成

我将AI 生成的每个项的画面细节单独给他重新生成,这样生成的图片细节很丰富了,我把 AI 描述的细节和重新生成的图片内容放到了一起,大部分是比较遵循画面描述的,另外我把解读文字也放了进去,他的中文文字绘制也很强。


第一章:AI 的基础“大脑”构建

1. 深度学习 (Deep Learning, DL)

【插图标题】:制作千层蛋糕的流水线

【画面描述】: 想象一个巨大的、透明的千层蛋糕制作工厂。

  • 左侧(输入端):倒入的是最原始、杂乱的原材料:面粉、鸡蛋、牛奶(这代表原始数据,比如像素点、声音波形)。
  • 中间(核心层):是一排排像筛子一样的处理层,一层叠一层,有很多层(这就是“深度”)。
    • 第一层筛子只负责把面粉筛细。
    • 第二层把鸡蛋打匀。
    • 第三层把它们混合成面糊。
    • 越往后的层级,处理的东西越复杂、越具体,比如有的层专门负责烤制出完美的焦糖色。
  • 右侧(输出端):经过几十层处理后,传送带末端出来的是一个完美的千层蛋糕(这代表最终的答案,比如识别出图片里是只猫)。

画面和描述相当符合

【小白解说】: 深度学习就是模仿人脑神经元,搞了很多很多的“层”。它不靠死记硬背,而是通过一层层地过滤和提炼特征,把复杂的问题(原材料)一点点拆解,最后得出答案(蛋糕)。


2. 强化学习 (Reinforcement Learning, RL)

【插图标题】:训练小狗握手

【画面描述】: 画面中心是一只可爱的小机器狗(Agent),它的面前是一位人类训练师(环境)。

  • 场景一(尝试与惩罚):小机器狗试图咬训练师的鞋子。训练师立刻皱眉,做了一个“打叉”的手势,并且发出了刺耳的蜂鸣声(负向反馈/惩罚)。小狗的脑袋上冒出一个大大的问号和一滴冷汗,它学到了:咬鞋子=坏事。
  • 场景二(尝试与奖励):小机器狗试探性地抬起一只前爪。训练师立刻喜笑颜开,塞给它一块金灿灿的电池形状的饼干(正向反馈/奖励)。小狗的眼睛变成了爱心状,它学到了:抬爪子=有糖吃。
  • 循环箭头:一个箭头从场景二指向场景一,表示小狗会不断地尝试各种动作,目标是拿到最多的“电池饼干”。

【小白解说】: 强化学习就是“从试错中学习”。AI 没有老师告诉它标准答案,它只能在环境里瞎折腾。做对了给糖吃(奖励),做错了打手心(惩罚)。为了多吃糖,它会拼命寻找最优策略。

第二章:AI 的超级进化与应用

3. 大语言模型 (LLM)

【插图标题】:读过全人类图书馆的超级“鹦鹉”

【画面描述】: 画面的背景是一座巨大无比的图书馆,书架高耸入云,里面塞满了古今中外所有的文字资料。

  • 核心形象:图书馆中央坐着一只戴着博士帽的巨大机械鹦鹉。它的肚子是透明的,里面像粉碎机一样吞噬着无数的书籍(数据训练)。
  • 前景互动:一个人在左边的小黑板上写了半句话:“床前明月光,____”。
  • 预测输出:机械鹦鹉立刻在右边的大屏幕上吐出概率最高的下一个字:“疑”。紧接着它迅速补全了:“是地上霜”。
  • 细节:屏幕旁边还有几个小一点的选项在闪烁(比如“李白忙”、“真漂亮”),但“疑是地上霜”的字体最大、最亮。

【小白解说】: LLM 本质上是一个超级强大的“文字接龙高手”。它读了海量的书,知道了字与字之间出现的概率关系。你给它上文,它就靠概率猜出最可能的下文。因为它读得太多了,所以它猜得特别准,看起来就像懂了你的意思一样。


4. 向量数据库 (Vector Database)

【插图标题】:按“感觉”分类的神奇超市

【画面描述】: 想象一个漂浮在太空中的奇异超市,这里没有货架。所有的商品都像星星一样悬浮在空中。

  • 左上角区域:聚集着一堆水果。苹果、香蕉、橘子紧紧挨在一起。
  • 右下角区域:聚集着一堆交通工具。汽车、飞机、自行车挨在一起。
  • 关键点:一个叫“苹果手机”的商品,它没有和真苹果在一起,而是飘在“电子产品”的区域。
  • 搜索动作:一个顾客拿着一张“小猫”的照片走进来。超市中心发射出一道光束,瞬间定位到距离“小猫”最近的区域,那里飘着“小狗”、“仓鼠”、“宠物粮”等商品,因为它们在意义上是“近亲”。

【小白解说】: 传统的数据库是按死板的表格存数据。向量数据库是把万事万物(文字、图片)都变成数学坐标(向量)。意思相近的东西,在空间里的距离就近;意思相反的,距离就远。这样AI就能通过计算“距离”来理解事物之间的关系,而不是傻傻地对关键词。


第三章:让 AI 动起来——迈向自主智能

5. Agent 智能体

【插图标题】:全能AI管家

【画面描述】: 画面是一个家庭场景。一个长着手脚的小机器人(Agent)正在忙碌。它被分成了三个明显的步骤模块:

  • 步骤1:感知(眼睛图标):机器人的摄像头眼睛看到了桌上的空水杯和窗外的大太阳。
  • 步骤2:决策(大脑图标):机器人脑袋里的齿轮转动,思考气泡显示:“主人可能渴了,天气热,需要加冰柠檬水。”
  • 步骤3:行动(手脚图标):机器人的手拿起水杯走向厨房,同时另一只手去拉窗帘。
  • 环境反馈:窗帘拉上后,屋里变暗了,机器人感知到了这个变化。

【小白解说】: 之前的 AI 主要是“回答问题”。Agent 不一样,它是能“干活”的。它能感知环境,自己动脑子做决定,然后动手去改变环境,是一个有自主行动能力的小帮手。


6. MCP (这里我们理解为“模型上下文管理/协议”)

注:MCP 在 AI 领域不是一个非常标准的通用教材术语,它有时指特定的协议,有时指一种概念。为了小白理解,我们把它解读为“如何管理 AI 的短期记忆”。

【插图标题】:AI 的记事贴和文件夹

【画面描述】: 一个正在考试的学生(代表 LLM 模型)坐在课桌前。

  • 没有 MCP 的情况:桌子上空空如也,学生每做一道题,就像失忆了一样,忘了上一题讲啥。
  • 有 MCP 的情况:学生的桌子上整整齐齐摆着两个区域。
    • 左边(当前任务区):贴着一张黄色的记事贴,上面写着:“现在的任务是写一个关于环保的故事,主角是一只北极熊。”
    • 右边(参考资料区):放着一个打开的文件夹,里面夹着几页纸:“刚才用户提供的背景资料A”、“刚才用户要求的限制条件B”。
  • 学生一边看着这些资料,一边答题,确保不会写跑题,也不会忘了之前的设定。

【小白解说】: LLM 的记性其实很差。MCP 就像是给 AI 配备了一套高效的秘书系统,负责把最重要的信息(上下文)整理好,贴在它眼前,让它知道现在在干嘛,之前说过啥,确保它说话做事连贯、不出错。


7. ReAct 框架 (Reason + Act)

【插图标题】:大厨做菜的内心独白

【画面描述】: 一个大厨(Agent)正在厨房里面对一个复杂的点单:“做一份宫保鸡丁”。画面用一个循环的流程图来表示他的工作方式:

  • 圆圈1:思考 (Thought) 💭:大厨头顶的思考气泡:“要在这个厨房做宫保鸡丁,我得先看看冰箱里有没有鸡肉和花生。”
  • 圆圈2:行动 (Action) 🛠️:大厨的手走向冰箱,做出“打开冰箱查找”的动作。
  • 圆圈3:观察 (Observation) 👀:冰箱门打开,大厨眼睛看到:“有冷冻鸡胸肉,但没有花生了。”
  • 回到圆圈1:思考 (Thought) 💭:大厨头顶新的思考气泡:“既然没花生,我得先下单买花生,同时把鸡肉解冻。”
  • 回到圆圈2:行动 (Action) 🛠️:大厨拿起手机下单,并把鸡肉拿出来。

整个过程是一个“想一步 -> 做一步 -> 看一眼结果 -> 再想下一步”的死循环,直到菜做好了。

【小白解说】: ReAct 就是让 AI 不要脑子一热就瞎干。它要求 AI Agent 必须像个严谨的大厨一样:先思考(Reason)要干啥,再采取行动(Act),然后观察行动的结果,根据结果再进行下一轮思考。这样 AI 处理复杂任务时就不会乱套了。


进阶,风格化

最近看到很多发这种识字小报的,我尝试在不看答案的情况下,按图描述了一下提示词,用于复刻,效果还行,下面是我编写的提示词,可以放到 System 中生成。

我现在要为我 3 岁的小孩制作用于学习识字的海报素材彩色插画,素材应该保持儿童友好,简单易懂。
我们生活中会有很多场景可以去为孩子创造插画,比如上学,游乐园游玩,去公园,超市购物,在家里看电视,打扫卫生等常见的生活场景。  
我理想中的插画应当是尽量多的列出某个场景下涉及的实物,包括但不限于人物,动物,植物,娱乐设施等。这些东西都为小孩提供了学习的素材。所以在我提出一个场景的时候,你需要列出每个场景中任何内容并且为每一项标记拼音和名称(中文),注意:文字不要挡住实物主体。  
图像的顶部是对场景的描述标题,字体应该大一点,随后是对场景的绘制,合理的将事物放在画面的合理位置,然后对每个实物进行文字标记便于后续学习。  
人物应当保持中国卡通的风格,其他实物保持形态的同时尽量保持与环境一致的画风。
后续的对话中我会提供场景,你返回一张绘制完成的图片即可。  

下面是几个生成效果:

游乐场玩耍 动物园奇遇 打扫家里卫生

分享本文

发表评论

  • No comments yet.
Ad
Ad not loaded or not displayed

推荐的AI工具

精心选择的AI工具来改善您的工作,学习和生活效率。

OpenArt

OpenArt 是一款多功能的 AI 图像和视频生成器。

SPONSORED
SAM TTS

在您的浏览器中体验怀旧的Windows XP中的Microsoft SAM语音。

23.2K
SPONSORED
Circle Crop Image

Circle Crop Image 是一个免费的在线工具,用于创建圆形图像。

SPONSORED
Image to Image AI

人工智能驱动的图像转换工具,专为专业创意工作流程设计。

SPONSORED
Grayscale Image

Grayscale Image 是一款免费在线工具,通过专业调控功能将彩色照片转换为黑白影像。

SPONSORED
 Lipsync Studio

通过先进的唇动同步技术转变您的视频。

61.2K
SPONSORED

相关文章

Grokipedia – xAI推出的新型AI知识平台,挑战传统百科的AI革命
News
10/28/2025
Grokipedia – xAI推出的新型AI知识平台,挑战传统百科的AI革命
作者: Lucas

知识获取的新范式已经到来,这次是由AI驱动。

ChatGPT群聊功能上线:打造你的20人AI协作空间
AI
11/17/2025
ChatGPT群聊功能上线:打造你的20人AI协作空间
作者: Lydia

2025年11月14日,OpenAI正式开启ChatGPT群聊功能试点,标志着AI从个人助手迈向团队协作伙伴的重大转折

Cursor 2.0震撼发布!自研Composer模型引爆AI编程革命,开发者竟可“一心八用”?​
AI
10/30/2025
Cursor 2.0震撼发布!自研Composer模型引爆AI编程革命,开发者竟可“一心八用”?​
作者: ​Victor

Cursor正式迈入2.0时代!其首个自研编程智能体模型Composer将响应速度提升4倍,更颠覆性地支持最多8个AI智能体并行协作。从此,你不再是代码的“打字员”,而是项目的“总指挥”。

在2025 年,回顾人工智能发展历史
AI
4/24/2025
在2025 年,回顾人工智能发展历史
作者: Q Yang

站在2025年的时间节点回望人工智能的发展历程,我们见证了这项革命性技术如何重塑了人类社会的方方面面。从最初的理论构想到如今的实际应用,AI技术的每一步进展都在改变着我们的生活方式。让我们一起回顾这段令人着迷的历程。

最受欢迎的AI工具

LogoAi
30% offCode:aiwithme

通过 LogoAi 轻松创建惊艳的标志。

Midjourney API by PiAPI
5% offCode:AIWITHME

通过 Midjourney API 将文本转换为惊艳的图像。

Base44

Base44 是一个由人工智能驱动的平台,用于构建功能齐全的应用程序,无需编写任何代码。

105.8K
Magic Patterns

Magic Patterns 是一款为产品团队设计的人工智能设计工具。

FLUX API - PiAPI
5% offCode:AIWITHME

FLUX API by PiAPI 提供先进的图像生成能力。

Klap
30% offCode:AIWITHME

Klap轻松将长视频转换为引人入胜的短视频。

458.4K
Typeless

自然说话,Typeless 会将你的话语转化为精炼的讯息、邮件和文档,读起来就像你仔细打出来的一样。

627.7K
Pollo AI

Pollo AI 是一款多功能的 AI 图像和视频生成器。