LLM 学习笔记

本笔记记录了近期对 AIGC、AGI 与 Agent 等前沿 AI 技术的探索与实践心得，旨在梳理各技术概念、分析核心实现以及展望未来趋势。

AIGC 与 AGI 趋势

近年来，AIGC（AI Generated Content）技术迅速发展，已从文本、图片生成扩展到音视频内容，并不断拓宽应用领域。AIGC 的未来正逐步向 AGI（Artificial General Intelligence）迈进。

主要趋势：

生态演进
由传统问答和内容生成转向注重自主决策的 Agent 及其多智能体生态系统。
系统能力升级
强调从单一生成到具备感知、推理、行动和反馈的综合能力，实现更动态的交互。
应用场景扩展
应用从内容创作延伸至自动化运维、智能客服及企业知识管理，实现跨领域协同工作。

Agent 技术详解

Agent 定义与核心能力

Agent 是能代表用户独立完成任务的智能系统。不同机构对其定义有所不同：

OpenAI 的观点：
“Agent 是能独立代表你完成任务的技术系统”，重点在于其自主执行的能力。
Anthropic 的解读：
强调将动态自主决策与预设工作流分离，认为部分 Agent 适用于复杂任务管理，而其他则更适合预设流程的执行。

核心能力包括：

感知： 理解用户输入、外部环境及多模态信息。
推理： 分析任务需求，拆分为多个子任务并设计解决方案（例如采用 ReAct 框架）。
行动： 调用外部 API 或工具，实现任务执行。
反馈与自我调整： 根据任务执行情况不断调整策略，保持最佳状态。

Agent 底层依赖与行动实现

底层依赖——LLMs Text：

信息获取和结构化处理：
通过对原始网页内容进行提炼，降低信息噪声，确保 Agent 针对关键数据作出决策。

优势：

高效解析： 减少原始数据中冗余信息，减轻上下文负担。
精准索引： 便于后续检索及数据整合，提升响应速度。

开发选择：

Agent Framework： 利用明确的逻辑循环与状态管理实现任务调度。
Agent SDK： 提供抽象化接口，开发者关注业务逻辑而不必处理底层细节。

行动实现方式：

Function Calling：
例如 GPT-4.1 支持在推理过程中调用预定义函数，自动生成调用请求并整合返回结果。
MCP 协议应用：
通过详细 API Schema 描述，构建标准化调用请求，并支持多种通信方式（如 SEE、stdio、HTTP 流）。

LLMs Text 说明

LLMs Text 标准将网页或文档内容提炼为结构化摘要，主要用于：

降低噪音： 提取核心数据，减少无关信息。
高效索引： 便于大语言模型快速定位并理解关键信息。

常见应用：

新闻聚合
企业知识库构建
智能客服系统

MCP 标准与生态

MCP 原理

MCP（Model Content Protocol）旨在规范大语言模型与外部 API 之间的数据交换，核心思想包括：

API Schema 装饰：
为每个 API 提供详细 schema 描述，包括功能、参数与返回数据格式。
自动调用生成：
根据自然语言描述自动构造符合标准的 API 调用请求。
多样通信渠道：
支持 Server-Sent Events（SEE）、stdio 及 HTTP 流等传输方式。

MCP Client 与 Server

MCP Client：
封装 API 调用逻辑，根据标准生成调用请求，目前已有工具如 Claude、Cherry Studio 支持。
MCP Server：
提供可供 Agent 调用的 API 接口，需要保证高可用性与实时响应，适用于多种企业场景。

Multiple-Agents 多智能体

Multiple-Agents 系统探索如何让多个 Agent 协同完成复杂任务，核心理念包括：

分工协作：
不同 Agent 根据各自优势负责不同任务模块，如数据收集、策略制定与执行反馈。
通信机制：
建立高效信息传递通道（例如消息队列、共享内存或分布式事件驱动）确保实时状态同步。
调度与协调：
指定主控 Agent 或调度器统一分配任务，整合各 Agent 反馈。
技术框架：
例如 OpenAI 的 openai-agents-python 框架，为多智能体协同提供开发工具与接口。

术语解释与参考资料

术语解释：

AIGC： AI Generated Content，通过 AI 模型生成的各类内容。
AGI： Artificial General Intelligence，旨在实现跨领域自主决策的通用智能。
LLM： Large Language Model，为当前 AI 关键技术之一。
Agent： 具备感知、推理与执行能力、能够独立或协同完成任务的智能系统。
MCP： 模型内容协议，规范 LLM 与外部工具之间的数据交换。
ReAct： 结合推理与行动，强调在决策中动态调用外部工具的框架。
SEE： Server-Sent Events，实时向客户端推送数据的传输技术。

参考资料：

MCP 官方文档
ReAct 论文
LLMs Text 标准
多智能体系统综述

LLM 学习笔记：AIGC、AGI、Agent、MCP、LLMs Text 全面解读