8.1.20251026 AI Agent入门：从被动问答到主动做事的智能革命

当你让GPT-4o写代码却还要手动保存文件时；当你想让模型基于已有代码修改却必须手动复制粘贴时——你是否意识到，大模型其实是“感官缺失”的？它们能生成逻辑严密的回答，却无法主动感知外界（如读取本地文件），更不能改变环境（如写入代码到文件）。

而AI Agent（智能体）正是解决这一痛点的“超级助手”：它将大模型与一系列工具（如文件读写、网络搜索、终端命令）结合，让AI拥有“感官”（感知环境）和“四肢”（改变环境），实现从“被动问答”到“主动完成任务”的跨越。

编程Agent cursor：只需输入“开发贪吃蛇游戏”，它会自动调用代码生成工具、文件写入工具，全程无需你手动操作，最终直接交付可运行的程序。
搜索Agent Manus：当你问“哪款手机拍照最好”，它会自动规划搜索步骤（查找最新机型、对比相机参数、整理用户评价），最终生成一份可视化报告——整个过程你只需等待结果。

Agent最经典的运行模式是ReAct（Reasoning and Acting，思考与行动）。这一模式让AI像人类一样：先思考“要做什么”，再行动“调用工具”，最后根据结果“调整策略”，直到完成任务。

Thought（思考）：分析任务目标，判断是否需要调用工具。
▶ 例：用户让“开发贪吃蛇游戏”，Agent思考：“需要生成HTML、CSS、JS三个文件，先写HTML结构。”
Action（行动）：调用合适工具执行步骤。
▶ 例：调用“写入文件工具”，生成index.html代码。
Observation（观察）：获取工具执行结果。
▶ 例：工具返回“文件写入成功”。
Final Answer（最终答案）：当所有步骤完成，输出结果。
▶ 例：三个文件全部生成后，Agent返回“贪吃蛇游戏开发完成，文件已保存至指定目录”。

为何大模型会乖乖遵循ReAct流程？关键不在模型训练，而在“系统提示词”的设计。一份合格的ReAct系统提示词需包含：

▶ 例：当系统提示词规定“必须用<Thought></Thought>标签思考”，大模型便会严格按格式输出，如同遵循“剧本”演戏。

当任务需要多步骤协同（如“分析2025澳网冠军的家乡”），ReAct的“走一步看一步”可能低效。此时需Plan-and-Execute模式：先制定详细计划，再动态调整执行，如同“战略家”般全局掌控。

Plan（制定计划）：将任务拆解为有序步骤。
▶ 例：“分析澳网冠军家乡”拆解为：①查当前日期→②查对应年份冠军→③查冠军家乡。
Execute（执行计划）：调用“执行Agent”（可用ReAct模式）完成单步任务。
▶ 例：执行①返回“2025年7月”，执行②返回“冠军Jannik Sinner”。
Re-Plan（动态调整）：根据执行结果优化计划。
▶ 例：完成①后，计划更新为“查2025年澳网冠军”；完成②后，计划更新为“查Jannik Sinner家乡”。

AI Agent的本质，是让大模型从“被动回答工具”进化为“主动解决问题的智能体”。其核心能力源于：

无论是自动写代码、生成报告，还是复杂任务处理，Agent都在重新定义“人机协作”——未来，你只需提出目标，剩下的交给AI即可。

推荐文章

2.2.20250919 Agent (1.000)
8.1.20251026 Agentic AI重新定义智能任务的拆解与执行艺术 (1.000)
9.3.20251026 AIGC、Agent与MCP概念解析 (1.000)
1.0.20250803 行业-知识管理工具 (0.500)
2.1.3 思维模型-包围式学习法 (0.500)
5.1.20250816 voicenotes (RANDOM - 0.500)