AI扫盲

AI

ML

机器学习模型（Machine Learning Model）
是一个从数据中学习规律，并用于对新数据进行预测或决策的数学函数或程序
模型的本质：一个数学函数，接收输入数据，经过内部复杂计算，产出一个输出
模型的作用：预测和决策
一个ML模型就是一个封装了从历史数据中学到的知识（模式、关系、规则）的程序或数学函数。它的核心目的是利用这些学到的知识，对新的、未知的数据进行预测、分类、识别或做出决策

训练过程

构建一个ML模型的过程称为训练。
你需要提供训练数据集。这个数据集通常包含：
- 特征： 描述每个样本的属性或变量（例如：房子的面积、卧室数量、地段；图片的像素值；文本中的单词）。
- 标签/目标值： 对于监督学习，这是每个样本对应的正确答案或期望输出（例如：房子的实际售价；图片中物体的真实类别；文本的真实情感）。对于无监督学习，则没有标签。
你选择一个机器学习算法（例如：线性回归、决策树、支持向量机、神经网络）。
算法使用训练数据来调整模型内部的参数（例如：函数中的系数、权重），目标是让模型在训练数据上能尽可能准确地从输入预测出输出（最小化预测错误）。
这个过程就是模型“学习”数据中隐藏模式和关系的过程。

模型与算法的区别

算法是学习的方法和过程（如何从数据中学习），就像烹饪的菜谱。
模型是算法应用在特定数据集上后得到的最终结果（学习到的具体函数或知识结构），就像按照菜谱做出来的那道具体的菜。

常见的模型

线性回归模型： 学习特征和目标值之间的线性关系（如预测房价）。
逻辑回归模型： 学习用于分类的概率（如预测邮件是否是垃圾邮件）。
决策树模型： 学习一系列基于特征的判断规则（如根据天气情况决定是否出门）。
随机森林模型： 由多个决策树组合而成的更强大的模型。
支持向量机模型： 寻找最佳边界来分隔不同类别的数据。
神经网络模型： 受人脑启发的复杂模型，由多层相互连接的“神经元”组成，特别擅长处理图像、语音、文本等复杂数据（深度学习的基础）。
K-Means聚类模型： 无监督学习模型，将数据点自动分组（聚类）。

DL

deep learning 深度学习是机器学习（ML）的一个特定且强大的子领域，其核心是使用称为深度神经网络的结构来学习数据中的复杂模式。
深度的含义
- 指的是神经网络具有多个（通常很多）“隐藏层”。
- 传统的神经网络可能只有1-3个隐藏层（称为“浅层网络”）。
- 深度神经网络（DNN） 则包含很多层（例如十几层、几十层甚至上百层、上千层）。
- 这些层是分层级联的，每一层从前一层接收输入，进行变换，并将输出传递给下一层

人工神经网络

深度学习的基础是人工神经网络，其灵感来源于人脑神经元的工作方式（但已高度数学化和工程化）。
一个神经网络由大量相互连接的“神经元”（或单元）组成，这些神经元分布在不同的层中：
- 输入层： 接收原始数据（如图像像素、单词向量、传感器读数）。
- 隐藏层： 位于输入层和输出层之间，可以有很多层（这就是“深度”的来源）。每一层都对数据进行特征提取和转换。前面的层学习简单特征（如图像中的边缘、颜色），后面的层组合这些简单特征形成更复杂、更抽象的特征（如图像中的物体部件、整个物体、甚至场景）。
- 输出层： 产生最终结果（如分类标签、预测值）。

自动特征学习

这是深度学习区别于许多传统机器学习方法的关键优势！
传统机器学习： 通常需要领域专家进行大量的特征工程。也就是需要人工设计、选择、转换输入数据中的哪些特征（属性）对模型预测最有用（例如，对于图像识别，可能需要手工设计描述纹理、形状的特征）。
深度学习： 能够自动从原始数据中学习多层次的、有意义的特征表示。你只需要给模型提供原始的或轻微预处理的数据（如图像像素、文本字符/单词），深度神经网络会通过其多层结构，在训练过程中自动发现哪些特征对于完成任务是最优的，无需大量人工干预特征设计。这使得DL在处理图像、语音、文本等复杂、高维、非结构化数据时表现极其出色。

深度学习的类型

卷积神经网络 CNN： 专门设计用于处理具有网格结构的数据（如图像）。通过卷积操作高效提取空间特征。是计算机视觉的基石。
循环神经网络 RNN： 设计用于处理序列数据（如文本、语音、时间序列）。具有“记忆”能力，能处理前后依赖关系。
Transformer： 一种革命性的架构，尤其擅长处理序列数据（特别是文本）。它使用注意力机制（让模型专注于输入序列中最重要的部分）替代了RNN的顺序处理，极大地提升了并行计算效率和效果。是目前NLP领域的主流架构（如GPT系列、BERT等大模型的基础）。
生成对抗网络： 由两个网络（生成器和判别器）相互对抗训练，能够生成非常逼真的新数据（如图像、音频、文本）。

生成式AI

是人工智能的一个前沿分支，其核心目标是创造全新的、原创的内容（如文本、图像、音频、视频、代码等），而不是仅对现有数据进行分类、预测或分析。它通过学习海量数据的底层规律和模式，“理解”内容的结构与含义，进而生成类似但全新的作品。
技术演进：传统机器学习 → 深度学习（DL）→ 生成式AI（如扩散模型/GPT）

关键原理

生成对抗网络（GANs）
- 由两个神经网络“对抗”训练：
  - 生成器（Generator）：伪造数据（如假图片）。
  - 判别器（Discriminator）：判断数据真伪。
- 两者不断博弈，直到生成器能骗过判别器（如生成逼真的人脸）。
- 典型应用：Deepfake换脸、艺术创作（如AI绘画早期模型）。
基于变换器的生成模型（Transformer-based）
- 核心架构：Transformer（2017年提出），擅长处理序列数据（文本、音频）。
- 核心训练方式：
  - 自回归生成（如GPT系列）：逐词预测下一个词，形成连贯文本。
  - 扩散模型（Diffusion Models）（如DALL·E 2、Stable Diffusion）：
    通过“加噪-去噪”过程生成图像（从随机噪声逐步还原成目标图像）。
- 典型应用：ChatGPT（文本生成）、Midjourney（图像生成）、Sora（视频生成）。

爆发的原因

三大支柱的成熟：
- 海量数据：互联网文本/图像/视频资源。
- 算法突破：Transformer架构、扩散模型。
- 算力飞跃：GPU/TPU等硬件支持大规模训练。
人机交互革命：
- 自然语言成为通用接口（用说话控制AI）。

多模态生成式AI

多模态生成式AI是生成式AI的一个高级子类，其核心区别在于处理的输入/输出数据类型复杂度和跨模态理解能力

维度	生成式AI (Generative AI)	多模态生成式AI (Multimodal GenAI)
定义	生成单一类型内容（纯文本、纯图像等）	同时处理并关联多种数据类型（文本+图像+音频等）
输入/输出	单模态输入 → 单模态输出（如：文本→文本）	多模态输入 → 多模态输出（如：文本+图像→视频）
核心技术	Transformer, GAN, 扩散模型（单模态专用架构）	跨模态对齐技术 + 多模态融合架构（如CLIP, Flamingo, 多模态Transformer）
能力关键点	在单一领域内创造新内容	理解跨模态语义关联 + 跨模态生成与转换
模型示例	GPT-4（文本生成）, DALL·E 2（文生图）	GPT-4V（图文理解）, Sora（文生视频）, Pika（文/图生视频）
技术挑战	模态内一致性、幻觉控制	跨模态对齐、时空同步、联合表示学习

多模态体现在哪里
- 输入多模态
  - 同时接收多种类型指令：
    - 文本+图像 → “根据设计草图写广告文案”（输入草图+文字描述）
    - 音频+文本 → “给这段会议录音生成图文摘要”（输入录音+关键词）
    - 视频+文本 → “修改视频中第三秒出现的路牌文字”（输入视频+修改指令）
- 输出多模态
  - 生成融合多种格式的内容：
    - 文本→视频：Sora输入“霓虹灯下的东京街头”，输出视频
    - 图像→3D模型：输入一张椅子照片，生成可旋转的3D网格
    - 文本→虚拟世界：生成带场景描述、物体属性、物理规则的交互空间
- 跨模态语义理解与推理
  - 核心突破：理解不同模态间的深层关联
    - 例1：看到“苹果”图片+文本“牛顿” → 联想到万有引力（而非水果）
    - 例2：听到玻璃破碎声+视频模糊画面 → 推断车祸事件
难点
- 跨模态对齐（Cross-modal Alignment）
  - 难题：如何让模型知道“犬吠”的音频片段 ≈ “狗”的文本标签 ≈ 狗的视频帧？
  - 解法：对比学习（CLIP）、跨模态自监督（如Masked Multimodal Modeling）
- 异构数据融合（Heterogeneous Fusion）
  - 难题：文本（离散符号）、图像（像素矩阵）、音频（时域信号）的数学表示差异巨大
  - 解法：神经编码器统一映射为向量 + 门控融合机制
- 生成一致性（Consistent Generation）
  - 难题：生成视频时，第5帧的“挥手”动作需与第3帧的“说你好”音频对齐
  - 解法：扩散模型+时空注意力（如Sora的Patch-based Diffusion）

LLMs

LLM 是一种基于海量文本数据训练的、参数规模巨大（通常数十亿至数万亿）的深度学习模型，其核心能力是理解和生成人类语言，并能执行广泛的语言相关任务
LLM 是一个基于Transformer架构、在海量文本上训练出来的超大规模深度学习模型。它的核心能力源于对“预测下一个词”这一任务的极致优化，并由此涌现出理解和生成人类语言、掌握知识、进行推理的惊人能力。它是当前人工智能革命，尤其是生成式AI浪潮的核心驱动力，但也面临着幻觉、偏见、成本等严峻挑战。理解LLM的工作原理和局限，是理解当今AI进展的关键。
“大”（Large）的核心含义：
- 巨大的参数规模： 这是“大”最直接的含义。参数是模型内部学习的“旋钮”或“权重”，决定了模型如何处理输入并产生输出。
  - 规模举例： GPT-3 (1750亿参数)， GPT-4 (具体未公开，估计万亿级)， Llama 3 (700亿/8万亿)， Claude 3 (未知，推测类似规模)。
  - 为何要大？ 更多的参数意味着模型能存储更复杂的语言知识、世界知识和推理模式，捕捉更细微的语义和语境。
- 庞大的训练数据： LLM 通常在几乎整个互联网的公开文本（网页、书籍、论文、代码、对话记录等）上进行训练，数据量可达PB级（1PB = 1024TB）。这为模型提供了极其丰富的语言模式、事实知识和表达方式。
- 巨大的计算需求： 训练一个顶级LLM需要数千甚至上万张高性能GPU/TPU芯片，耗费数周甚至数月时间，耗资数百万至数千万美元。推理（使用模型）也需要强大的算力支持。

Language Model本质：

核心任务：预测下一个词（Token）。 在最基础的层面上，LLM 是一个概率模型。给定一串词（或更小的单位 Token，如单词的一部分、单个字符），它的核心任务是预测在这串词后面，最可能出现的下一个词是什么。
- 例子： 输入 “猫坐在___”，模型会计算 “垫子上”、“沙发上”、“窗台上” 等词出现的概率，并选择概率最高的输出。
自回归生成： 当LLM用于生成文本（如写文章、对话）时，它采用自回归方式：每次预测并生成一个词，然后将这个词加到输入中，再预测下一个词，如此循环，形成连贯的文本流。
从预测到理解与创造： 虽然基础是预测下一个词，但得益于巨大的规模和数据，LLM 在训练过程中隐式地学习了：
- 语言的语法和结构。
- 词语的语义和上下文含义。
- 世界知识和常识。 （模型从训练数据中“记住”了大量事实，但要注意其知识可能过时或不准确）。
- 逻辑推理能力。 （在某种程度上，通过语言模式学习）。
- 不同风格和语气。
- 代码的语法和逻辑。
- 这使得LLM 远远超越了简单的“词语接龙”，能够进行复杂的对话、创作、翻译、总结、分析等。
核心架构基石：Transformer
- LLM 几乎都建立在 Transformer 架构（由 Google 在 2017 年提出）之上，尤其是其中的 Decoder 部分（如GPT系列）或 Encoder-Decoder 部分（如T5, BART）。
- Transformer 的核心创新：自注意力机制
  - 解决问题： 传统循环神经网络处理长文本时信息容易丢失或混淆。
  - 如何工作： 自注意力机制允许模型在处理序列（如句子）中的任何一个词时，动态地关注和权衡序列中所有其他词的重要性（包括位置很远的词）。
  - 效果： 模型能更好地理解词与词之间的长距离依赖关系，把握句子的整体语义和上下文。这对于理解复杂语言至关重要。
  - 并行计算： Transformer 结构天然适合并行计算，极大提升了训练和推理效率，是训练超大规模模型的关键。

LLM 是如何“学习”的？

预训练：
- 目标： 让模型学会语言的通用表示和基础知识。
- 方法： 在PB级的无标注文本数据上进行自监督学习。
- 主要任务：
  - 掩码语言建模： 随机遮盖输入文本中的一些词（Token），让模型预测被遮盖的词是什么。（如 BERT 系列）
  - 下一个词预测： 给定前面的词序列，预测下一个最可能的词。（如 GPT 系列）
- 结果： 得到一个拥有强大语言理解能力和丰富世界知识的基础模型。
精调：
- 目的： 让基础模型适应特定的任务或领域，或使其行为更符合人类期望（安全、有用、无害）。
- 方法：
  - 监督微调： 在特定任务（如问答、摘要、分类）的有标注数据集上进一步训练。
  - 指令精调： 使用大量“指令-期望输出”对进行训练，教会模型遵循人类指令。
  - 基于人类反馈的强化学习： 这是打造像ChatGPT这样模型的关键一步。
    - 让模型生成多个回答。
    - 人类标注员对这些回答进行排序（哪个更好）。
    - 训练一个“奖励模型”来学习人类的偏好。
    - 用这个奖励模型指导LLM优化其策略，使其输出更符合人类价值观（更相关、更无害、更诚实）。

核心概念

RLHF

RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习） 是一种用于微调大语言模型（LLM）或其他AI系统的关键技术，目标是让模型输出更符合人类价值观（如有用、诚实、无害）。它是ChatGPT、Claude、Gemini等对话模型实现“高情商”的核心手段。
它架起了“人类主观偏好”与“机器可优化目标”之间的桥梁，使AI从“能力强”走向“行为好”。如果说预训练赋予LLM“智商”，RLHF则赋予其“情商”和“价值观”——这是AI真正可用的关键一跃。
RLHF流程以chatgpt举例
- 监督微调（SFT - Supervised Fine-Tuning）
  - 目标：教会模型基础任务能力（如对话格式）。
  - 方法：
    - 人工编写高质量“指令-回答”对（例如：
    - 输入：“解释牛顿定律”，输出：“牛顿第一定律是…”），
    - 用这些数据微调预训练模型（类似“家教辅导”）。
  - 结果：得到SFT模型（能执行任务，但质量不稳定）。
- 奖励模型训练（RM - Reward Modeling）
  - 目标：创建一个能自动评判回答好坏的“AI裁判”。
  - 流程：
    1. 用SFT模型对同一问题生成4~9个不同回答。
      （例：输入：“如何做蛋糕？”，生成回答A、B、C、D）
    2. 人类标注员对这些回答排序（如：D > B > A > C）。
    3. 用排序数据训练奖励模型（RM）：
      - 输入：问题 + 回答
      - 输出：分数（反映人类偏好程度）
      - 技术核心：使用对比学习，让RM学会区分回答的优劣（如D的分数应显著高于C）。
  - 关键点：RM替代了昂贵的人工实时评估，实现自动化评分
- 强化学习微调（PPO - Proximal Policy Optimization）
  - 目标：用RM的评分驱动SFT模型自我提升。
  - 角色设定：
    - 演员：待优化的SFT模型（策略网络）
    - 裁判：奖励模型（RM）
    - 环境：用户的问题（Prompt）
  - 训练过程：
    1. 输入问题，SFT模型生成回答。
    2. RM对该回答打分。
    3. 使用强化学习算法（如PPO）调整SFT模型参数，使得生成的回答在未来获得更高RM分数。
    4. 为防止模型“作弊”（如生成极端长文骗取高分），需加入KL散度惩罚项，约束新模型输出偏离原始SFT模型的程度。
  - 结果：得到RLHF微调后的最终模型，其输出更贴近人类偏好。

解决了哪些问题

问题类型	RLHF 的作用	示例
有害内容	降低歧视、暴力等输出概率	拒绝回答“如何制造炸弹”
幻觉（胡编）	增强事实准确性	减少虚构历史事件
冗长/模糊	倾向简洁清晰表达	避免车轱辘话
价值观对齐	符合当地文化/伦理规范	中英文回答适应不同价值观
有用性	提升问题解决能力	给出可操作的步骤而非泛泛而谈

挑战和局限
- 标注成本高：
  - 依赖大量人工标注排序（OpenAI/ChatGPT训练中雇佣了数千名标注员）。
- 偏好不一致：
  - 不同文化、群体的人类偏好冲突（如幽默尺度）。
- 过度优化风险：
  - 模型可能过度迎合RM打分，产生“机械正确但刻板”的回答。
- RM的局限性：
  - 若RM未覆盖某些场景，模型可能在这些领域退化。
替代方案
- RLAIF：用AI（如另一个LLM）替代人类标注偏好，降低成本。
- DPO（Direct Preference Optimization）：直接优化偏好数据，跳过RM建模和PPO复杂训练（效果更好且更高效，成为新趋势）。

关键挑战与局限性

幻觉： LLM 可能会生成看似合理但完全错误或编造的信息。因为它本质上是预测词语序列的统计模式，而非访问真实数据库。
知识截止： 模型的知识仅限于其训练数据截止日期之前的内容。无法实时更新（除非重新训练或接入外部信息源）。
偏见与毒性： 模型会学习并放大训练数据中存在的社会偏见、刻板印象甚至有害内容。虽然RLHF等努力在缓解，但仍是重大挑战。
缺乏真正的理解与推理： LLM 表现出的“理解”和“推理”是基于统计模式匹配和模式生成的，与人类基于认知和意识的理解有本质区别。在处理复杂逻辑、数学或需要深度世界模型的任务时可能出错。
计算成本高昂： 训练和部署顶级LLM需要巨大的资源，限制了广泛使用和创新。
可解释性差： LLM 的决策过程像一个巨大的“黑箱”，难以理解其内部运作机制和做出特定预测的原因。

LLM 在生成式AI中的地位

LLM 是当前文本生成式AI的绝对主力。
它是构建多模态生成式AI（如文生图、文生视频）的核心文本理解组件。例如，DALL-E、Midjourney 等图像生成模型，通常先由类似LLM的组件解析用户输入的文本提示（Prompt），再指导图像生成。
LLM 是驱动AI智能体（能自主理解目标、规划步骤、使用工具完成任务）的核心大脑。

24AI

AI扫盲

https://x-leonidas.github.io/2025/10/26/24AI/AI扫盲/

作者

听风

发布于

2025年10月26日

更新于

2025年10月26日

许可协议

Git 上一篇

temp 下一篇