四、AI大模型原理及API的使用

一、课前基础与学习目标

1.1 学习方法

思维层面：探究理论背后的逻辑，从实际问题出发理解知识
行动层面：通过工具解决实际问题，并清晰呈现结果

1.2 核心学习目标

掌握 AI 的分类及大语言模型（LLM）核心基础原理
理解 LLM 训练流程、Token 定义、Temperature 与 Top P 的作用
了解 AI Chat 产品的核心超能力（联网搜索、读取文件、记忆）
熟练掌握大模型 API 的使用方法，包括系统 / 用户提示词、Token 限制
完成情感分析、天气 Function、表格提取、运维事件处置四大实战案例

二、AI 基础认知

2.1 什么是 AI

AI 核心目标是让机器执行需人类智能的任务（语言理解、图像识别、复杂问题解决等），发展分为四个阶段：

早期阶段：规则化专家系统，依赖预设逻辑和规则
机器学习时代：通过数据训练模型，从数据中学习规律
深度学习时代：利用神经网络模拟人脑结构，处理复杂任务
大模型时代：以大规模数据和算力为基础，构建通用、高性能 AI 模型

2.2 AI 的分类

分析式 AI（判别式 AI）

核心任务：对已有数据进行分类、预测、决策
优势：高精度、高效率
局限性：仅能处理已有数据模式，无法创造新内容

生成式 AI

核心任务：创造新内容（文本、图像、音频等）
突破点：具备创造性和灵活性
挑战：面临数据隐私、版权保护等问题

2.3 大语言模型（LLM）核心能力

基本能力

语言生成、上下文学习、世界知识

“超” 能力

精准响应人类指令
泛化到未见过的任务场景
代码生成与代码理解

三、LLM 核心训练原理（以 ChatGPT 为例）

3.1 ChatGPT 整体训练流程

ChatGPT 基于GPT3.5微调，核心为基于人类反馈的强化学习（RLHF），分三个核心步骤：

步骤 1：收集数据，微调监督模型（SFT）
- 从问题库选问题，人工编写标准答案
- 在 GPT3.5 上做微调，得到监督学习模型
步骤 2：收集比较数据，训练奖励模型（RM）
- 对同一问题生成多版回答，人工对回答进行排序
- 利用排序结果训练奖励模型，为回答打分
- 【思考】为何用排序任务代替直接打分？（答案：降低标注员主观误差，实现标注结果统一）
步骤 3：强化学习优化模型（PPO 算法）
- 模型生成新问题的回答，将回答喂给奖励模型打分
- 根据分数通过 PPO 算法迭代优化模型，让模型生成更符合人类偏好的内容

3.2 ChatGPT 的核心优势

模型量级的持续提升（GPT→GPT2→GPT3→InstructGPT→ChatGPT）
精准理解用户真实意图
强大的上下文衔接能力
基于 RLHF 的人类偏好对齐
优秀的知识和逻辑理解能力

3.3 GPT 系列模型参数规模（基础版）

表格

模型	发布时间	参数规模
GPT	2018 年 6 月	1.17 亿
GPT-2	2019 年 2 月	15 亿
GPT-3	2020 年 5 月	-

四、LLM 核心基础概念

4.1 Token 的定义与特性

核心定义

Token 是 LLM 处理文本的最小单位，模型需将文本切分为 Token 并转换为数字（向量）后进行运算，不同模型的分词规则由分词器（Tokenizer） 决定。

分词示例

英文：Hello World → GPT-4o 切分为 ["Hello", "World"]，对应唯一 Token ID
中文：人工智能你好啊 → DeepSeek-R1 切分为 ["人工智能", "你好", "啊"]，对应唯一 Token ID

【工具推荐】

通过https://tiktokenizer.vercel.app/ 可查看不同模型的文本切分结果

【思考】分词方式对模型有何影响？（答案：直接影响模型的运算效率和对语言细节的理解能力）

4.2 模型的常见特殊 Token

特殊 Token 无具体词义，作为 “标点 / 命令” 辅助模型理解文本结构，核心类型：

分隔符（Separator Token）：区分文本段落 / 角色，如 <|user|>（用户）、<|assistant|>（AI）
结束符（EOS/EOT Token）：告知模型文本结束，停止生成，如 [EOS]、<|endoftext|>
起始符（Start Token）：标记序列开始，辅助模型初始化处理，如 [CLS]（分类）、[BOS]（句首）

4.3 Temperature 与 Top P：生成多样性控制

两者均用于控制 LLM 生成文本的多样性，原理完全不同，是 API 调用的核心参数。

Temperature（温度）

原理：调整模型下一个 Token 的概率分布平滑度
高值（≥1.0）：低概率 Token 易被选中，生成结果更有创造性，可能出现内容不连贯
低值（≤0.2）：高概率 Token 权重放大，生成结果更稳定、符合训练数据，内容偏保守

Top P（核采样）

原理：设定概率阈值 P，将 Token 概率从高到低累加，仅在累加和超 P 的 “核心词汇表” 中选 Token
高值（如 0.9）：候选词汇表大，结果多样性高
低值（如 0.1）：候选词汇表小，结果确定性强

核心对比示例

模型补全 “今天天气真...”，预测概率：好 (60%)、不错 (30%)、糟 (9%)、可乐 (0.01%)

高 Temperature：可能提升 “可乐” 概率，导致离谱结果
Top P=0.9：仅选择 “好 + 不错”（累加 90%），直接排除低概率离谱选项

关键结论

相比 Temperature，Top P 能动态调整候选词数量，避免生成低概率离谱内容，更易产生高质量文本。

五、AI 大模型聊天产品的核心超能力

LLM 本身存在固有局限性（无状态、训练数据有截止日期、无法直接处理非文本格式），聊天产品通过集成工具实现三大超能力，突破原生限制。

5.1 超能力 1：联网搜索

核心作用：弥补 LLM 训练数据截止日期的限制，获取实时外部信息
工作流程：
1. 系统识别用户的实时信息需求
2. 将问题转化为简洁搜索关键词，调用搜索引擎 API（如 Google）
3. 模型将搜索到的实时信息作为上下文，总结提炼后生成回答

5.2 超能力 2：读取文件

并非简单打开文档，而是将不同格式转换为模型可理解的结构化数据，核心处理方式：

表格

文件格式	处理流程
PDF / 扫描件	OCR 提取文字→版式分析（标题 / 段落 / 表格）→转化为带标记文本 / Markdown
Word/Excel	解析底层 XML 结构→保留大纲 / 表格 / 公式 / 样式，避免格式混乱
图片	调用多模态能力→ViT 视觉编码器提取特征→与语言模型对齐，实现看图说话 / 图表识别
音频 / 视频	ASR 转文本或提取关键帧按图像处理

5.3 超能力 3：记忆功能（从无状态到个性化）

LLM 本身无状态，每次对话为全新互动，记忆功能通过两层机制实现：

短期记忆（上下文窗口）：将最近几轮问答作为背景信息，随每次对话发送给模型
长期记忆：通过算法提取用户关键信息（姓名、偏好等），存储在用户专属数据库，后续对话自动读取

示例：用户告知 “喜欢简洁回答风格”，系统记录后，后续回答会主动精简内容
【思考】如何平衡短期记忆的上下文窗口大小与 Token 消耗？

六、大模型行业应用场景

大模型已广泛落地多行业，核心提升效率和准确率，典型应用场景及效果：

金融信贷智能风控：借贷风险判断准确率提升 21.5%
保险条款智能解析：文本处理效率提升 30 倍
医学病例自动化抽取：病例处理效率显著提升
候选人信息智能分类：模型识别准确率达 99%
行业新闻信息抽取：智能分析行业动态
短信内容智能分类与审核：过滤效率显著提升
电商评论观点分析：快速搭建评论数据分析系统
快递单物流地址智能识别与处理：提升物流分拣效率

七、全球 AI 大模型发展现状（2025-2026）

7.1 全球整体格局

美国仍保持前沿领先，中国差距大幅缩小，法 / 加 / 以等国有前沿模型但体量较小
2025 年初中国多家 AI 实验室已发布具备推理能力的前沿级模型
关键趋势：中国在推理模型、开源模型领域表现突出，2026 年技术差距缩短至约 3 个月（两年前为 1-2 年）

7.2 中美模型核心玩家（2025）

美国

主导企业：OpenAI、Anthropic、Google、Meta
代表模型：GPT-4o、Claude 4 Sonnet、Gemini 2.5 Flash

中国

主导企业：DeepSeek、阿里巴巴、Moonshot、智谱 AI、字节跳动
代表模型：DeepSeek R1/V3、Qwen3、Kimi K2、GLM 4-Turbo
关键突破：部分模型（Kimi K2、DeepSeek R1）已接近美国前沿水平

7.3 美国对华芯片出口限制及硬件影响

限制时间线

2022.10：首次限制（H100、A100 芯片）
2023.10：升级限制（H800、A800 芯片）
2025.01：新增AI 扩散规则，三级许可框架限制先进 AI 加速器

当前状态

仅低性能芯片（H20、L20）可出口中国，中国依赖国产芯片（华为昇腾） 或降级版 NVIDIA 芯片

核心硬件性能对比

表格

芯片型号	算力（TFLOPs）	带宽（TB/s）	备注
NVIDIA H100	989	3.35	先进 AI 芯片，受限
NVIDIA H20	148	4	专为中国市场设计，算力仅 H100 的 15%
AMD MI300X	1307	5.3	未受出口限制

7.4 中美 AI 模型格局（2026）

美国：旗舰模型迭代，进入万亿参数时代

OpenAI GPT-5.4/GPT-5.3 Codex：10 万亿参数，优化代码生成 / 复杂推理，支持自我改进智能体编程
Anthropic Claude Opus 4.6：Chatbot Arena ELO 评分 1503，原生 Agent 能力，电脑操作准确率 72.5%
Google Gemini 3.1 Pro：1000 万 + Token 上下文，视频流原生理解，多模态能力最强
Meta Llama 4：开源，性能逼近 GPT-4.5
核心趋势：深耕 Agent 能力和多模态融合，全面转向后训练与强化学习

中国：从追赶到引领，开源生态爆发

DeepSeek V4/V3.2：1T 参数 MoE 架构，编码能力超 Claude/GPT，API 成本为海外 1/20-1/50，推理能力碾压闭源模型
Moonshot Kimi K2.5：1T 参数开源 MoE，Agent Swarm 架构，To C 付费用户月环比增长超 170%
智谱 AI GLM-5：745B 参数（最高 7440B 稀疏激活），华为昇腾训练，国产替代标杆
阿里 Qwen 3.5：开源下载量超 6 亿次，全球最受欢迎开源模型
字节 Doubao-Seed-2.0：视觉推理 / 时间序列理解提升，流量入口优势显著
核心突破：2026 年 2 月中国 AI 模型周调用量首次超越美国（5.16 万亿 Token vs 2.7 万亿 Token）

7.5 中美生态竞争分化

美国

核心方向：Plugin 生态、MCP 协议、Google 工具集成，强调生态整合

中国

双路径并行：
1. 互联网大厂（字节、百度）：依托流量入口 + 场景闭环，提升 C 端渗透
2. AI 初创公司（DeepSeek、Moonshot、智谱）：聚焦 B 端和海外开发者市场，加速商业化

八、大模型 API 核心使用基础

8.1 API 调用核心认知

API 调用的是云端部署的远程模型，非本地模型（类比：点外卖，无需自备食材，仅发送订单即可）
开发工具选择：
- 交互式学习：Jupyter Notebook（分段运行、即时看结果）
- 实际开发：VS Code（配插件本地调试）、Cursor/Trae（AI 原生 IDE）
核心凭证：API Key（身份凭证，类似门禁卡），需在代码中配置，严禁泄露
优化体验：流式输出（Streaming），回答逐字呈现，提升用户体验

8.2 核心平台：DashScope API（阿里云）

定义：阿里云提供的模型即服务（MaaS） 平台 API，集成多类 AI 大模型（Qwen、DeepSeek-v3 等）
安装方式：pip install dashscope
核心调用逻辑：设置 API Key→准备标准化输入消息→调用dashscope.Generation.call()→解析响应结果

8.3 系统提示词（System Prompt）与用户提示词（User Prompt）

系统提示词

核心作用：设定 AI 的角色、行为准则、输出格式，是贯穿对话的全局指令（人设）
编写要求：对话开始时设定，内容清晰明确，不包含用户具体问题，避免频繁更改（易导致 AI 行为不稳定）
消耗规则：与普通内容一样消耗 Token
示例（代码助手）：你是一个资深程序员，请直接提供代码，并用 Markdown 格式包裹。不要解释，不要说任何无关的话。

用户提示词

核心作用：用户的具体问题、需求或指令
编写要求：简洁明确，结合系统提示词的人设，避免模糊表述

8.4 LLM 的 Token 限制（输入 + 输出）

LLM 的 Token 限制是 API 调用的关键约束，分为输入和输出两类，超出限制会导致 API 报错或回答不完整。

输入 Token 限制

定义：模型单次 API 调用能处理的最大信息量，包含系统提示词 + 历史对话 + 当前用户输入
管理要求：需自行管理历史对话长度，通过截断 / 总结旧消息确保总输入不超过模型上下文窗口（Context Window）
示例：模型窗口 4096 Token，系统提示词 + 历史对话占 3500 Token，则用户提示词最多 596 Token

输出 Token 限制

定义：模型一次回复中能生成的最大内容长度，可通过 API 参数（max_tokens）手动设置
设置权衡：
- 过低：回答不完整，内容被截断
- 过高：增加 API 调用时间和费用
示例：请求写诗歌但输出限制 5 Token，仅能得到诗歌第一句

【思考】如何在长对话场景中平衡历史对话完整性与输入 Token 消耗？

九、DashScope API 标准化使用流程

9.1 基础代码框架

import dashscope
from dashscope.api_entities.dashscope_response import Role

# 1. 设置API Key（核心，不可泄露）
dashscope.api_key = "your-api-key"

# 2. 构造标准化消息列表
messages = [
    {"role": "system", "content": "系统提示词：设定AI角色和行为准则"},
    {"role": "user", "content": "用户提示词：具体问题/需求"},
    # 如有历史对话，按「assistant→user」顺序追加
    # {"role": "assistant", "content": "AI上一轮回复"},
    # {"role": "user", "content": "用户新输入"}
]

# 3. 调用模型
response = dashscope.Generation.call(
    model="模型名称",  # 如qwen-turbo、deepseek-r1、qwen-vl-plus
    messages=messages,
    result_format="message",  # 标准化消息输出格式
    temperature=0.7,  # 生成多样性
    top_p=0.8,        # 核采样阈值
    max_tokens=1500,  # 最大输出Token
    stream=False      # 是否流式输出
)

# 4. 解析响应结果（非流式）
result = response.output.choices[0].message.content

# 4. 解析响应结果（流式）
if stream:
    for chunk in response:
        print(chunk.output.choices[0].message.content, end=&#039;&#039;)

9.2 核心参数说明

参数名	作用	常用值
model	指定调用的模型，不同模型能力 / 场景不同	qwen-turbo 等
messages	对话内容载体，列表内字典包含 role 和 content	-
result_format	设定返回结果格式，message 为标准化格式	message
temperature	控制生成多样性，值越高越有创造性	0.1-1.0
top_p	核采样阈值，值越高候选词越多	0.7-0.9
max_tokens	最大输出 Token 数，限制回答长度	500-2000
stream	是否开启流式输出，逐字呈现回答	False/True

9.3 核心角色（role）说明

角色值	含义	使用场景
system	系统	设定 AI 的角色、行为准则、格式
user	用户	输入具体问题、需求、指令
assistant	AI 助手	模型的回复内容，历史对话追加
function/tool	函数 / 工具	函数调用的返回结果

十、四大实战案例（基于 Qwen 模型 + DashScope API）

10.1 案例 1：情感分析（Qwen-Turbo）

实战目标

对商品用户评论进行正负向情感分类，批量分析评论口碑

核心模型

qwen-turbo（轻量高效，适合文本分类任务）

实战步骤

准备用户评论数据（如 Excel 文件：商品评论观点.xlsx）
构造系统提示词：明确 AI 为舆情分析师，仅返回 “正向 / 负向”
循环遍历评论，调用 API 进行单条 / 批量分析
解析响应结果，记录每条评论的情感标签

核心代码片段

# 封装模型响应函数
def get_response(messages):
    response = dashscope.Generation.call(
        model=&#039;qwen-turbo&#039;,
        messages=messages,
        result_format=&#039;message&#039;
    )
    return response

# 单条评论分析
review = &#039;这款音效特别好给你意想不到的音质。&#039;
messages=[
    {"role": "system", "content": "你是一名舆情分析师,帮我判断产品口碑的正负向,回复请用一个词语:正向或者负向"},
    {"role": "user", "content": review}
]
response = get_response(messages)
print(response.output.choices[0].message.content)  # 输出：正向

【思考】如何实现评论的批量情感分析，并将结果保存为结构化文件（如 Excel）？

10.2 案例 2：天气 Function Call（Qwen-Max/Qwen-Turbo）

实战目标

实现模型调用自定义函数查询天气，让模型具备工具使用能力，解决原生模型无实时数据的问题

核心模型

qwen-turbo/qwen-max（支持 Function Call 能力）

核心概念

Function Call：模型根据用户问题，自动判断是否需要调用外部函数，并生成函数调用参数，程序执行后将结果返回模型，最终生成自然语言回答。

实战步骤

编写自定义函数：模拟天气查询函数get_current_weather，根据城市返回温度、天气状况
注册函数：构造函数配置列表，定义函数名称、描述、参数（类型、必选 / 可选）
模型调用：传入用户天气查询问题，开启函数调用参数
判断函数调用：检查模型响应是否包含function_call，提取函数名和参数
执行函数：调用自定义函数，获取天气数据
二次调用模型：将函数返回结果作为上下文追加到消息列表，让模型生成自然语言回答

核心工作流程

用户提问→模型判断需调用天气函数→生成函数参数→执行函数获取数据→模型基于数据生成回答

【思考】如何将模拟天气函数替换为真实的天气 API，实现实时天气查询？

10.3 案例 3：表格提取（Qwen-VL 多模态模型）

实战目标

利用多模态大模型提取图片中的表格内容，将非结构化表格图片转换为结构化 JSON 数据

核心模型

Qwen-VL 系列（多模态模型，支持图像 + 文本输入）：

Qwen-VL：基础版，支持 OCR、表格提取、图像描述
Qwen-VL-Chat：指令微调版，优化对话交互
Qwen-VL-Plus/MAX：升级版，性能接近 GPT-4V
Qwen2.5-VL：最新旗舰版，提供 3B/7B/72B 版本

实战步骤

准备表格图片（本地路径 / 网络 URL）
构造多模态输入内容：同时包含图片地址和文本提示（要求提取表格并输出 JSON）
调用 Qwen-VL 系列模型（如 qwen-vl-plus）
解析响应结果，获取结构化 JSON 格式的表格内容

核心代码片段

# 构建多模态输入
content = [
    {&#039;image&#039;: &#039;https://xxx.pdf_table.jpg&#039;},  # 表格图片URL
    {&#039;text&#039;: &#039;这是一个表格图片,帮我提取里面的内容,输出JSON格式&#039;}
]
# 构造消息
messages=[{"role": "user", "content": content}]
# 调用模型（后续同基础流程）

核心优势

Qwen-VL 支持私有化部署和微调，适合企业内部文档表格提取场景

【思考】如何处理复杂表格（如合并单元格、双栏表格）的提取，提升准确率？

10.4 案例 4：运维事件处置（Qwen-Turbo）

实战目标

将大模型应用于运维事件全流程，实现告警理解、分析建议、数据提取、处置方案推荐的自动化

实战场景

数据库连接数超过设定阈值的告警处置

运维事件处置全流程

告警内容理解：根据告警信息，判断告警对象、异常模式
分析方法建议：结合应急预案 / 运维文档，给出数据获取、原因分析的方法
分析内容自动提取：调用第三方接口（监控、日志、事件系统），获取并总结分析数据
处置方法推荐和执行：基于分析数据，推荐处置方案，待用户确认后调用接口执行

实战步骤

编写第三方接口模拟函数（如get_current_status：获取数据库连接数、CPU / 内存使用率）
注册工具函数，构造系统提示词（设定 AI 为运维分析师）
输入告警信息，调用模型获取分析建议和工具调用指令
执行工具函数，获取运维监控数据
二次调用模型，让模型基于监控数据生成具体处置方案

核心处置方案示例（数据库连接数超限）

优化数据库配置：调整连接池大小和相关参数
排查异常会话：终止占用大量连接的异常查询 / 会话
系统重启 / 备份恢复：非业务高峰时段执行，恢复系统正常

拓展任务

梳理更多运维告警场景（如服务器宕机、磁盘满额）
编写对应场景的 Tool Function
让模型生成不同告警的处置方法
开发处置方法的自动化执行函数

【思考】如何实现运维处置方案的自动化执行，无需人工确认？

十一、课程核心总结与打卡任务

11.1 核心知识总结

AI 分为分析式和生成式，大语言模型是生成式 AI 的核心，具备语言生成、上下文学习、指令泛化等能力
LLM 的训练核心为 RLHF（监督微调→奖励模型→强化学习），Token 是处理文本的最小单位，Temperature/Top P 控制生成多样性
AI Chat 产品通过联网搜索、读取文件、记忆功能突破原生 LLM 的局限性
大模型 API 调用的核心是 DashScope 平台，需关注系统提示词编写、Token 限制、Function Call 能力
大模型已落地金融、保险、医疗、电商等多行业，2026 年中美技术差距大幅缩小，中国开源生态爆发

11.2 打卡任务

结合自身业务场景，编写大模型 API 使用示例，任选其一：

对文本进行情感分类 / 主题分类
对文章 / 文档进行自动总结
使用 Function Call 完成复杂业务逻辑（如查快递、查股票、数据分析）

可选模型：Qwen、DeepSeek、ChatGLM、文心一言、Kimi
提交要求：将 API 使用代码运行截屏发送至微信群

【通用思考】 结合自身业务，哪些场景可以落地大模型 API？如何平衡模型调用的成本与效果？