四、AI大模型原理及API的使用
本文介绍了AI大模型原理及API使用,涵盖AI分类(分析式与生成式)、大语言模型(LLM)核心能力、ChatGPT训练流程(基于RLHF的SFT、RM、PPO三步)、Token定义、Temperature与Top P参数控制生成多样性,以及AI聊天产品的超能力(联网搜索、读取文件、记忆)。学习目标包括掌握LLM基础、API调用方法及完成四大实战案例。
一、课前基础与学习目标
1.1 学习方法
- 思维层面:探究理论背后的逻辑,从实际问题出发理解知识
- 行动层面:通过工具解决实际问题,并清晰呈现结果
1.2 核心学习目标
- 掌握 AI 的分类及大语言模型(LLM)核心基础原理
- 理解 LLM 训练流程、Token 定义、Temperature 与 Top P 的作用
- 了解 AI Chat 产品的核心超能力(联网搜索、读取文件、记忆)
- 熟练掌握大模型 API 的使用方法,包括系统 / 用户提示词、Token 限制
- 完成情感分析、天气 Function、表格提取、运维事件处置四大实战案例
二、AI 基础认知
2.1 什么是 AI
AI 核心目标是让机器执行需人类智能的任务(语言理解、图像识别、复杂问题解决等),发展分为四个阶段:
- 早期阶段:规则化专家系统,依赖预设逻辑和规则
- 机器学习时代:通过数据训练模型,从数据中学习规律
- 深度学习时代:利用神经网络模拟人脑结构,处理复杂任务
- 大模型时代:以大规模数据和算力为基础,构建通用、高性能 AI 模型
2.2 AI 的分类
分析式 AI(判别式 AI)
- 核心任务:对已有数据进行分类、预测、决策
- 优势:高精度、高效率
- 局限性:仅能处理已有数据模式,无法创造新内容
生成式 AI
- 核心任务:创造新内容(文本、图像、音频等)
- 突破点:具备创造性和灵活性
- 挑战:面临数据隐私、版权保护等问题
2.3 大语言模型(LLM)核心能力
基本能力
- 语言生成、上下文学习、世界知识
“超” 能力
- 精准响应人类指令
- 泛化到未见过的任务场景
- 代码生成与代码理解
三、LLM 核心训练原理(以 ChatGPT 为例)
3.1 ChatGPT 整体训练流程
ChatGPT 基于GPT3.5微调,核心为基于人类反馈的强化学习(RLHF),分三个核心步骤:
- 步骤 1:收集数据,微调监督模型(SFT)
- 从问题库选问题,人工编写标准答案
- 在 GPT3.5 上做微调,得到监督学习模型
- 步骤 2:收集比较数据,训练奖励模型(RM)
- 对同一问题生成多版回答,人工对回答进行排序
- 利用排序结果训练奖励模型,为回答打分
- 【思考】为何用排序任务代替直接打分?(答案:降低标注员主观误差,实现标注结果统一)
- 步骤 3:强化学习优化模型(PPO 算法)
- 模型生成新问题的回答,将回答喂给奖励模型打分
- 根据分数通过 PPO 算法迭代优化模型,让模型生成更符合人类偏好的内容

3.2 ChatGPT 的核心优势
- 模型量级的持续提升(GPT→GPT2→GPT3→InstructGPT→ChatGPT)
- 精准理解用户真实意图
- 强大的上下文衔接能力
- 基于 RLHF 的人类偏好对齐
- 优秀的知识和逻辑理解能力
3.3 GPT 系列模型参数规模(基础版)
表格
| 模型 | 发布时间 | 参数规模 |
|---|---|---|
| GPT | 2018 年 6 月 | 1.17 亿 |
| GPT-2 | 2019 年 2 月 | 15 亿 |
| GPT-3 | 2020 年 5 月 | - |
四、LLM 核心基础概念
4.1 Token 的定义与特性
核心定义
Token 是 LLM 处理文本的最小单位,模型需将文本切分为 Token 并转换为数字(向量)后进行运算,不同模型的分词规则由分词器(Tokenizer) 决定。
分词示例
- 英文:Hello World → GPT-4o 切分为 ["Hello", "World"],对应唯一 Token ID
- 中文:人工智能你好啊 → DeepSeek-R1 切分为 ["人工智能", "你好", "啊"],对应唯一 Token ID
【工具推荐】
通过https://tiktokenizer.vercel.app/ 可查看不同模型的文本切分结果
【思考】分词方式对模型有何影响?(答案:直接影响模型的运算效率和对语言细节的理解能力)
4.2 模型的常见特殊 Token
特殊 Token 无具体词义,作为 “标点 / 命令” 辅助模型理解文本结构,核心类型:
- 分隔符(Separator Token):区分文本段落 / 角色,如 <|user|>(用户)、<|assistant|>(AI)
- 结束符(EOS/EOT Token):告知模型文本结束,停止生成,如 [EOS]、<|endoftext|>
- 起始符(Start Token):标记序列开始,辅助模型初始化处理,如 [CLS](分类)、[BOS](句首)
4.3 Temperature 与 Top P:生成多样性控制
两者均用于控制 LLM 生成文本的多样性,原理完全不同,是 API 调用的核心参数。
Temperature(温度)
- 原理:调整模型下一个 Token 的概率分布平滑度
- 高值(≥1.0):低概率 Token 易被选中,生成结果更有创造性,可能出现内容不连贯
- 低值(≤0.2):高概率 Token 权重放大,生成结果更稳定、符合训练数据,内容偏保守
Top P(核采样)
- 原理:设定概率阈值 P,将 Token 概率从高到低累加,仅在累加和超 P 的 “核心词汇表” 中选 Token
- 高值(如 0.9):候选词汇表大,结果多样性高
- 低值(如 0.1):候选词汇表小,结果确定性强
核心对比示例
模型补全 “今天天气真...”,预测概率:好 (60%)、不错 (30%)、糟 (9%)、可乐 (0.01%)
- 高 Temperature:可能提升 “可乐” 概率,导致离谱结果
- Top P=0.9:仅选择 “好 + 不错”(累加 90%),直接排除低概率离谱选项
关键结论
相比 Temperature,Top P 能动态调整候选词数量,避免生成低概率离谱内容,更易产生高质量文本。
五、AI 大模型聊天产品的核心超能力
LLM 本身存在固有局限性(无状态、训练数据有截止日期、无法直接处理非文本格式),聊天产品通过集成工具实现三大超能力,突破原生限制。
5.1 超能力 1:联网搜索
- 核心作用:弥补 LLM 训练数据截止日期的限制,获取实时外部信息
- 工作流程:
- 系统识别用户的实时信息需求
- 将问题转化为简洁搜索关键词,调用搜索引擎 API(如 Google)
- 模型将搜索到的实时信息作为上下文,总结提炼后生成回答
5.2 超能力 2:读取文件
并非简单打开文档,而是将不同格式转换为模型可理解的结构化数据,核心处理方式:
表格
| 文件格式 | 处理流程 |
|---|---|
| PDF / 扫描件 | OCR 提取文字→版式分析(标题 / 段落 / 表格)→转化为带标记文本 / Markdown |
| Word/Excel | 解析底层 XML 结构→保留大纲 / 表格 / 公式 / 样式,避免格式混乱 |
| 图片 | 调用多模态能力→ViT 视觉编码器提取特征→与语言模型对齐,实现看图说话 / 图表识别 |
| 音频 / 视频 | ASR 转文本 或 提取关键帧按图像处理 |
5.3 超能力 3:记忆功能(从无状态到个性化)
LLM 本身无状态,每次对话为全新互动,记忆功能通过两层机制实现:
- 短期记忆(上下文窗口):将最近几轮问答作为背景信息,随每次对话发送给模型
- 长期记忆:通过算法提取用户关键信息(姓名、偏好等),存储在用户专属数据库,后续对话自动读取
- 示例:用户告知 “喜欢简洁回答风格”,系统记录后,后续回答会主动精简内容
- 【思考】如何平衡短期记忆的上下文窗口大小与 Token 消耗?
六、大模型行业应用场景
大模型已广泛落地多行业,核心提升效率和准确率,典型应用场景及效果:
- 金融信贷智能风控:借贷风险判断准确率提升 21.5%
- 保险条款智能解析:文本处理效率提升 30 倍
- 医学病例自动化抽取:病例处理效率显著提升
- 候选人信息智能分类:模型识别准确率达 99%
- 行业新闻信息抽取:智能分析行业动态
- 短信内容智能分类与审核:过滤效率显著提升
- 电商评论观点分析:快速搭建评论数据分析系统
- 快递单物流地址智能识别与处理:提升物流分拣效率
七、全球 AI 大模型发展现状(2025-2026)
7.1 全球整体格局
- 美国仍保持前沿领先,中国差距大幅缩小,法 / 加 / 以等国有前沿模型但体量较小
- 2025 年初中国多家 AI 实验室已发布具备推理能力的前沿级模型
- 关键趋势:中国在推理模型、开源模型领域表现突出,2026 年技术差距缩短至约 3 个月(两年前为 1-2 年)
7.2 中美模型核心玩家(2025)
美国
- 主导企业:OpenAI、Anthropic、Google、Meta
- 代表模型:GPT-4o、Claude 4 Sonnet、Gemini 2.5 Flash
中国
- 主导企业:DeepSeek、阿里巴巴、Moonshot、智谱 AI、字节跳动
- 代表模型:DeepSeek R1/V3、Qwen3、Kimi K2、GLM 4-Turbo
- 关键突破:部分模型(Kimi K2、DeepSeek R1)已接近美国前沿水平
7.3 美国对华芯片出口限制及硬件影响
限制时间线
- 2022.10:首次限制(H100、A100 芯片)
- 2023.10:升级限制(H800、A800 芯片)
- 2025.01:新增AI 扩散规则,三级许可框架限制先进 AI 加速器
当前状态
仅低性能芯片(H20、L20)可出口中国,中国依赖国产芯片(华为昇腾) 或降级版 NVIDIA 芯片
核心硬件性能对比
表格
| 芯片型号 | 算力(TFLOPs) | 带宽(TB/s) | 备注 |
|---|---|---|---|
| NVIDIA H100 | 989 | 3.35 | 先进 AI 芯片,受限 |
| NVIDIA H20 | 148 | 4 | 专为中国市场设计,算力仅 H100 的 15% |
| AMD MI300X | 1307 | 5.3 | 未受出口限制 |
7.4 中美 AI 模型格局(2026)
美国:旗舰模型迭代,进入万亿参数时代
- OpenAI GPT-5.4/GPT-5.3 Codex:10 万亿参数,优化代码生成 / 复杂推理,支持自我改进智能体编程
- Anthropic Claude Opus 4.6:Chatbot Arena ELO 评分 1503,原生 Agent 能力,电脑操作准确率 72.5%
- Google Gemini 3.1 Pro:1000 万 + Token 上下文,视频流原生理解,多模态能力最强
- Meta Llama 4:开源,性能逼近 GPT-4.5
- 核心趋势:深耕 Agent 能力和多模态融合,全面转向后训练与强化学习
中国:从追赶到引领,开源生态爆发
- DeepSeek V4/V3.2:1T 参数 MoE 架构,编码能力超 Claude/GPT,API 成本为海外 1/20-1/50,推理能力碾压闭源模型
- Moonshot Kimi K2.5:1T 参数开源 MoE,Agent Swarm 架构,To C 付费用户月环比增长超 170%
- 智谱 AI GLM-5:745B 参数(最高 7440B 稀疏激活),华为昇腾训练,国产替代标杆
- 阿里 Qwen 3.5:开源下载量超 6 亿次,全球最受欢迎开源模型
- 字节 Doubao-Seed-2.0:视觉推理 / 时间序列理解提升,流量入口优势显著
- 核心突破:2026 年 2 月中国 AI 模型周调用量首次超越美国(5.16 万亿 Token vs 2.7 万亿 Token)
7.5 中美生态竞争分化
美国
- 核心方向:Plugin 生态、MCP 协议、Google 工具集成,强调生态整合
中国
- 双路径并行:
- 互联网大厂(字节、百度):依托流量入口 + 场景闭环,提升 C 端渗透
- AI 初创公司(DeepSeek、Moonshot、智谱):聚焦 B 端和海外开发者市场,加速商业化
八、大模型 API 核心使用基础
8.1 API 调用核心认知
- API 调用的是云端部署的远程模型,非本地模型(类比:点外卖,无需自备食材,仅发送订单即可)
- 开发工具选择:
- 交互式学习:Jupyter Notebook(分段运行、即时看结果)
- 实际开发:VS Code(配插件本地调试)、Cursor/Trae(AI 原生 IDE)
- 核心凭证:API Key(身份凭证,类似门禁卡),需在代码中配置,严禁泄露
- 优化体验:流式输出(Streaming),回答逐字呈现,提升用户体验
8.2 核心平台:DashScope API(阿里云)
- 定义:阿里云提供的模型即服务(MaaS) 平台 API,集成多类 AI 大模型(Qwen、DeepSeek-v3 等)
- 安装方式:
pip install dashscope - 核心调用逻辑:设置 API Key→准备标准化输入消息→调用
dashscope.Generation.call()→解析响应结果
8.3 系统提示词(System Prompt)与用户提示词(User Prompt)
系统提示词
- 核心作用:设定 AI 的角色、行为准则、输出格式,是贯穿对话的全局指令(人设)
- 编写要求:对话开始时设定,内容清晰明确,不包含用户具体问题,避免频繁更改(易导致 AI 行为不稳定)
- 消耗规则:与普通内容一样消耗 Token
- 示例(代码助手):你是一个资深程序员,请直接提供代码,并用 Markdown 格式包裹。不要解释,不要说任何无关的话。
用户提示词
- 核心作用:用户的具体问题、需求或指令
- 编写要求:简洁明确,结合系统提示词的人设,避免模糊表述
8.4 LLM 的 Token 限制(输入 + 输出)
LLM 的 Token 限制是 API 调用的关键约束,分为输入和输出两类,超出限制会导致 API 报错或回答不完整。
输入 Token 限制
- 定义:模型单次 API 调用能处理的最大信息量,包含系统提示词 + 历史对话 + 当前用户输入
- 管理要求:需自行管理历史对话长度,通过截断 / 总结旧消息确保总输入不超过模型上下文窗口(Context Window)
- 示例:模型窗口 4096 Token,系统提示词 + 历史对话占 3500 Token,则用户提示词最多 596 Token
输出 Token 限制
- 定义:模型一次回复中能生成的最大内容长度,可通过 API 参数(
max_tokens)手动设置 - 设置权衡:
- 过低:回答不完整,内容被截断
- 过高:增加 API 调用时间和费用
- 示例:请求写诗歌但输出限制 5 Token,仅能得到诗歌第一句
【思考】如何在长对话场景中平衡历史对话完整性与输入 Token 消耗?
九、DashScope API 标准化使用流程
9.1 基础代码框架
import dashscope
from dashscope.api_entities.dashscope_response import Role
# 1. 设置API Key(核心,不可泄露)
dashscope.api_key = "your-api-key"
# 2. 构造标准化消息列表
messages = [
{"role": "system", "content": "系统提示词:设定AI角色和行为准则"},
{"role": "user", "content": "用户提示词:具体问题/需求"},
# 如有历史对话,按「assistant→user」顺序追加
# {"role": "assistant", "content": "AI上一轮回复"},
# {"role": "user", "content": "用户新输入"}
]
# 3. 调用模型
response = dashscope.Generation.call(
model="模型名称", # 如qwen-turbo、deepseek-r1、qwen-vl-plus
messages=messages,
result_format="message", # 标准化消息输出格式
temperature=0.7, # 生成多样性
top_p=0.8, # 核采样阈值
max_tokens=1500, # 最大输出Token
stream=False # 是否流式输出
)
# 4. 解析响应结果(非流式)
result = response.output.choices[0].message.content
# 4. 解析响应结果(流式)
if stream:
for chunk in response:
print(chunk.output.choices[0].message.content, end='')
9.2 核心参数说明
| 参数名 | 作用 | 常用值 |
|---|---|---|
| model | 指定调用的模型,不同模型能力 / 场景不同 | qwen-turbo 等 |
| messages | 对话内容载体,列表内字典包含 role 和 content | - |
| result_format | 设定返回结果格式,message 为标准化格式 | message |
| temperature | 控制生成多样性,值越高越有创造性 | 0.1-1.0 |
| top_p | 核采样阈值,值越高候选词越多 | 0.7-0.9 |
| max_tokens | 最大输出 Token 数,限制回答长度 | 500-2000 |
| stream | 是否开启流式输出,逐字呈现回答 | False/True |
9.3 核心角色(role)说明
| 角色值 | 含义 | 使用场景 |
|---|---|---|
| system | 系统 | 设定 AI 的角色、行为准则、格式 |
| user | 用户 | 输入具体问题、需求、指令 |
| assistant | AI 助手 | 模型的回复内容,历史对话追加 |
| function/tool | 函数 / 工具 | 函数调用的返回结果 |
十、四大实战案例(基于 Qwen 模型 + DashScope API)
10.1 案例 1:情感分析(Qwen-Turbo)
实战目标
对商品用户评论进行正负向情感分类,批量分析评论口碑
核心模型
qwen-turbo(轻量高效,适合文本分类任务)
实战步骤
- 准备用户评论数据(如 Excel 文件:商品评论观点.xlsx)
- 构造系统提示词:明确 AI 为舆情分析师,仅返回 “正向 / 负向”
- 循环遍历评论,调用 API 进行单条 / 批量分析
- 解析响应结果,记录每条评论的情感标签
核心代码片段
# 封装模型响应函数
def get_response(messages):
response = dashscope.Generation.call(
model='qwen-turbo',
messages=messages,
result_format='message'
)
return response
# 单条评论分析
review = '这款音效特别好给你意想不到的音质。'
messages=[
{"role": "system", "content": "你是一名舆情分析师,帮我判断产品口碑的正负向,回复请用一个词语:正向或者负向"},
{"role": "user", "content": review}
]
response = get_response(messages)
print(response.output.choices[0].message.content) # 输出:正向
【思考】如何实现评论的批量情感分析,并将结果保存为结构化文件(如 Excel)?
10.2 案例 2:天气 Function Call(Qwen-Max/Qwen-Turbo)
实战目标
实现模型调用自定义函数查询天气,让模型具备工具使用能力,解决原生模型无实时数据的问题
核心模型
qwen-turbo/qwen-max(支持 Function Call 能力)
核心概念
Function Call:模型根据用户问题,自动判断是否需要调用外部函数,并生成函数调用参数,程序执行后将结果返回模型,最终生成自然语言回答。
实战步骤
- 编写自定义函数:模拟天气查询函数
get_current_weather,根据城市返回温度、天气状况 - 注册函数:构造函数配置列表,定义函数名称、描述、参数(类型、必选 / 可选)
- 模型调用:传入用户天气查询问题,开启函数调用参数
- 判断函数调用:检查模型响应是否包含
function_call,提取函数名和参数 - 执行函数:调用自定义函数,获取天气数据
- 二次调用模型:将函数返回结果作为上下文追加到消息列表,让模型生成自然语言回答
核心工作流程
用户提问→模型判断需调用天气函数→生成函数参数→执行函数获取数据→模型基于数据生成回答
【思考】如何将模拟天气函数替换为真实的天气 API,实现实时天气查询?
10.3 案例 3:表格提取(Qwen-VL 多模态模型)
实战目标
利用多模态大模型提取图片中的表格内容,将非结构化表格图片转换为结构化 JSON 数据
核心模型
Qwen-VL 系列(多模态模型,支持图像 + 文本输入):
- Qwen-VL:基础版,支持 OCR、表格提取、图像描述
- Qwen-VL-Chat:指令微调版,优化对话交互
- Qwen-VL-Plus/MAX:升级版,性能接近 GPT-4V
- Qwen2.5-VL:最新旗舰版,提供 3B/7B/72B 版本
实战步骤
- 准备表格图片(本地路径 / 网络 URL)
- 构造多模态输入内容:同时包含图片地址和文本提示(要求提取表格并输出 JSON)
- 调用 Qwen-VL 系列模型(如 qwen-vl-plus)
- 解析响应结果,获取结构化 JSON 格式的表格内容
核心代码片段
# 构建多模态输入
content = [
{'image': 'https://xxx.pdf_table.jpg'}, # 表格图片URL
{'text': '这是一个表格图片,帮我提取里面的内容,输出JSON格式'}
]
# 构造消息
messages=[{"role": "user", "content": content}]
# 调用模型(后续同基础流程)
核心优势
Qwen-VL 支持私有化部署和微调,适合企业内部文档表格提取场景
【思考】如何处理复杂表格(如合并单元格、双栏表格)的提取,提升准确率?
10.4 案例 4:运维事件处置(Qwen-Turbo)
实战目标
将大模型应用于运维事件全流程,实现告警理解、分析建议、数据提取、处置方案推荐的自动化
实战场景
数据库连接数超过设定阈值的告警处置
运维事件处置全流程
- 告警内容理解:根据告警信息,判断告警对象、异常模式
- 分析方法建议:结合应急预案 / 运维文档,给出数据获取、原因分析的方法
- 分析内容自动提取:调用第三方接口(监控、日志、事件系统),获取并总结分析数据
- 处置方法推荐和执行:基于分析数据,推荐处置方案,待用户确认后调用接口执行
实战步骤
- 编写第三方接口模拟函数(如
get_current_status:获取数据库连接数、CPU / 内存使用率) - 注册工具函数,构造系统提示词(设定 AI 为运维分析师)
- 输入告警信息,调用模型获取分析建议和工具调用指令
- 执行工具函数,获取运维监控数据
- 二次调用模型,让模型基于监控数据生成具体处置方案
核心处置方案示例(数据库连接数超限)
- 优化数据库配置:调整连接池大小和相关参数
- 排查异常会话:终止占用大量连接的异常查询 / 会话
- 系统重启 / 备份恢复:非业务高峰时段执行,恢复系统正常
拓展任务
- 梳理更多运维告警场景(如服务器宕机、磁盘满额)
- 编写对应场景的 Tool Function
- 让模型生成不同告警的处置方法
- 开发处置方法的自动化执行函数
【思考】如何实现运维处置方案的自动化执行,无需人工确认?
十一、课程核心总结与打卡任务
11.1 核心知识总结
- AI 分为分析式和生成式,大语言模型是生成式 AI 的核心,具备语言生成、上下文学习、指令泛化等能力
- LLM 的训练核心为 RLHF(监督微调→奖励模型→强化学习),Token 是处理文本的最小单位,Temperature/Top P 控制生成多样性
- AI Chat 产品通过联网搜索、读取文件、记忆功能突破原生 LLM 的局限性
- 大模型 API 调用的核心是 DashScope 平台,需关注系统提示词编写、Token 限制、Function Call 能力
- 大模型已落地金融、保险、医疗、电商等多行业,2026 年中美技术差距大幅缩小,中国开源生态爆发
11.2 打卡任务
结合自身业务场景,编写大模型 API 使用示例,任选其一:
- 对文本进行情感分类 / 主题分类
- 对文章 / 文档进行自动总结
- 使用 Function Call 完成复杂业务逻辑(如查快递、查股票、数据分析)
- 可选模型:Qwen、DeepSeek、ChatGLM、文心一言、Kimi
- 提交要求:将 API 使用代码运行截屏发送至微信群
【通用思考】 结合自身业务,哪些场景可以落地大模型 API?如何平衡模型调用的成本与效果?