LLM 学习笔记
本笔记记录了近期对 AIGC、AGI 与 Agent 等前沿 AI 技术的探索与实践心得,旨在梳理各技术概念、分析核心实现以及展望未来趋势。
目录
- AIGC 与 AGI 趋势
- Agent 技术详解
- 2.1 Agent 定义与核心能力
- 2.2 Agent 底层依赖与行动实现
- LLMs Text 说明
- MCP 标准与生态
- 4.1 MCP 原理
- 4.2 MCP Client 与 Server
- Multiple-Agents 多智能体
- 术语解释与参考资料
AIGC 与 AGI 趋势
近年来,AIGC(AI Generated Content)技术迅速发展,已从文本、图片生成扩展到音视频内容,并不断拓宽应用领域。AIGC 的未来正逐步向 AGI(Artificial General Intelligence)迈进。
主要趋势:
-
生态演进
由传统问答和内容生成转向注重自主决策的 Agent 及其多智能体生态系统。 -
系统能力升级
强调从单一生成到具备感知、推理、行动和反馈的综合能力,实现更动态的交互。 -
应用场景扩展
应用从内容创作延伸至自动化运维、智能客服及企业知识管理,实现跨领域协同工作。
Agent 技术详解
Agent 定义与核心能力
Agent 是能代表用户独立完成任务的智能系统。不同机构对其定义有所不同:
-
OpenAI 的观点:
“Agent 是能独立代表你完成任务的技术系统”,重点在于其自主执行的能力。 -
Anthropic 的解读:
强调将动态自主决策与预设工作流分离,认为部分 Agent 适用于复杂任务管理,而其他则更适合预设流程的执行。
核心能力包括:
- 感知: 理解用户输入、外部环境及多模态信息。
- 推理: 分析任务需求,拆分为多个子任务并设计解决方案(例如采用 ReAct 框架)。
- 行动: 调用外部 API 或工具,实现任务执行。
- 反馈与自我调整: 根据任务执行情况不断调整策略,保持最佳状态。
Agent 底层依赖与行动实现
底层依赖——LLMs Text:
- 信息获取和结构化处理:
通过对原始网页内容进行提炼,降低信息噪声,确保 Agent 针对关键数据作出决策。
优势:
- 高效解析: 减少原始数据中冗余信息,减轻上下文负担。
- 精准索引: 便于后续检索及数据整合,提升响应速度。
开发选择:
- Agent Framework: 利用明确的逻辑循环与状态管理实现任务调度。
- Agent SDK: 提供抽象化接口,开发者关注业务逻辑而不必处理底层细节。
行动实现方式:
-
Function Calling:
例如 GPT-4.1 支持在推理过程中调用预定义函数,自动生成调用请求并整合返回结果。 -
MCP 协议应用:
通过详细 API Schema 描述,构建标准化调用请求,并支持多种通信方式(如 SEE、stdio、HTTP 流)。
LLMs Text 说明
LLMs Text 标准将网页或文档内容提炼为结构化摘要,主要用于:
- 降低噪音: 提取核心数据,减少无关信息。
- 高效索引: 便于大语言模型快速定位并理解关键信息。
常见应用:
- 新闻聚合
- 企业知识库构建
- 智能客服系统
MCP 标准与生态
MCP 原理
MCP(Model Content Protocol)旨在规范大语言模型与外部 API 之间的数据交换,核心思想包括:
-
API Schema 装饰:
为每个 API 提供详细 schema 描述,包括功能、参数与返回数据格式。 -
自动调用生成:
根据自然语言描述自动构造符合标准的 API 调用请求。 -
多样通信渠道:
支持 Server-Sent Events(SEE)、stdio 及 HTTP 流等传输方式。
MCP Client 与 Server
-
MCP Client:
封装 API 调用逻辑,根据标准生成调用请求,目前已有工具如 Claude、Cherry Studio 支持。 -
MCP Server:
提供可供 Agent 调用的 API 接口,需要保证高可用性与实时响应,适用于多种企业场景。
Multiple-Agents 多智能体
Multiple-Agents 系统探索如何让多个 Agent 协同完成复杂任务,核心理念包括:
-
分工协作:
不同 Agent 根据各自优势负责不同任务模块,如数据收集、策略制定与执行反馈。 -
通信机制:
建立高效信息传递通道(例如消息队列、共享内存或分布式事件驱动)确保实时状态同步。 -
调度与协调:
指定主控 Agent 或调度器统一分配任务,整合各 Agent 反馈。 -
技术框架:
例如 OpenAI 的 openai-agents-python 框架,为多智能体协同提供开发工具与接口。
术语解释与参考资料
术语解释:
- AIGC: AI Generated Content,通过 AI 模型生成的各类内容。
- AGI: Artificial General Intelligence,旨在实现跨领域自主决策的通用智能。
- LLM: Large Language Model,为当前 AI 关键技术之一。
- Agent: 具备感知、推理与执行能力、能够独立或协同完成任务的智能系统。
- MCP: 模型内容协议,规范 LLM 与外部工具之间的数据交换。
- ReAct: 结合推理与行动,强调在决策中动态调用外部工具的框架。
- SEE: Server-Sent Events,实时向客户端推送数据的传输技术。
参考资料:
- MCP 官方文档
- ReAct 论文
- LLMs Text 标准
- 多智能体系统综述
备注:
本文内容仍在持续更新中,后续将补充更多案例分析、前沿技术动态及实践心得。
```