AI扫盲

AI

image-20250611221131917

ML

  • 机器学习模型(Machine Learning Model)
  • 是一个从数据中学习规律,并用于对新数据进行预测或决策的数学函数或程序
  • 模型的本质:一个数学函数, 接收输入数据,经过内部复杂计算,产出一个输出
  • 模型的作用:预测和决策
  • 一个ML模型就是一个封装了从历史数据中学到的知识(模式、关系、规则)的程序或数学函数。它的核心目的是利用这些学到的知识,对新的、未知的数据进行预测、分类、识别或做出决策

训练过程

  • 构建一个ML模型的过程称为训练
  • 你需要提供训练数据集。这个数据集通常包含:
    • 特征: 描述每个样本的属性或变量(例如:房子的面积、卧室数量、地段;图片的像素值;文本中的单词)。
    • 标签/目标值: 对于监督学习,这是每个样本对应的正确答案或期望输出(例如:房子的实际售价;图片中物体的真实类别;文本的真实情感)。对于无监督学习,则没有标签。
  • 你选择一个机器学习算法(例如:线性回归、决策树、支持向量机、神经网络)。
  • 算法使用训练数据来调整模型内部的参数(例如:函数中的系数、权重),目标是让模型在训练数据上能尽可能准确地从输入预测出输出(最小化预测错误)。
  • 这个过程就是模型“学习”数据中隐藏模式和关系的过程。

模型与算法的区别

  • 算法是学习的方法和过程(如何从数据中学习),就像烹饪的菜谱。
  • 模型是算法应用在特定数据集上后得到的最终结果(学习到的具体函数或知识结构),就像按照菜谱做出来的那道具体的菜。

常见的模型

  • 线性回归模型: 学习特征和目标值之间的线性关系(如预测房价)。
  • 逻辑回归模型: 学习用于分类的概率(如预测邮件是否是垃圾邮件)。
  • 决策树模型: 学习一系列基于特征的判断规则(如根据天气情况决定是否出门)。
  • 随机森林模型: 由多个决策树组合而成的更强大的模型。
  • 支持向量机模型: 寻找最佳边界来分隔不同类别的数据。
  • 神经网络模型: 受人脑启发的复杂模型,由多层相互连接的“神经元”组成,特别擅长处理图像、语音、文本等复杂数据(深度学习的基础)。
  • K-Means聚类模型: 无监督学习模型,将数据点自动分组(聚类)。

DL

  • deep learning 深度学习是机器学习(ML)的一个特定且强大的子领域,其核心是使用称为深度神经网络的结构来学习数据中的复杂模式。
  • 深度的含义
    • 指的是神经网络具有多个(通常很多)“隐藏层”
    • 传统的神经网络可能只有1-3个隐藏层(称为“浅层网络”)。
    • 深度神经网络(DNN) 则包含很多层(例如十几层、几十层甚至上百层、上千层)。
    • 这些层是分层级联的,每一层从前一层接收输入,进行变换,并将输出传递给下一层

人工神经网络

  • 深度学习的基础是人工神经网络,其灵感来源于人脑神经元的工作方式(但已高度数学化和工程化)。
  • 一个神经网络由大量相互连接的“神经元”(或单元)组成,这些神经元分布在不同的层中:
    • 输入层: 接收原始数据(如图像像素、单词向量、传感器读数)。
    • 隐藏层: 位于输入层和输出层之间,可以有很多层(这就是“深度”的来源)。每一层都对数据进行特征提取和转换。前面的层学习简单特征(如图像中的边缘、颜色),后面的层组合这些简单特征形成更复杂、更抽象的特征(如图像中的物体部件、整个物体、甚至场景)。
    • 输出层: 产生最终结果(如分类标签、预测值)。

自动特征学习

  • 这是深度学习区别于许多传统机器学习方法的关键优势!
  • 传统机器学习: 通常需要领域专家进行大量的特征工程。也就是需要人工设计、选择、转换输入数据中的哪些特征(属性)对模型预测最有用(例如,对于图像识别,可能需要手工设计描述纹理、形状的特征)。
  • 深度学习: 能够自动从原始数据中学习多层次的、有意义的特征表示。你只需要给模型提供原始的或轻微预处理的数据(如图像像素、文本字符/单词),深度神经网络会通过其多层结构,在训练过程中自动发现哪些特征对于完成任务是最优的,无需大量人工干预特征设计。这使得DL在处理图像、语音、文本等复杂、高维、非结构化数据时表现极其出色。

深度学习的类型

  • 卷积神经网络 CNN: 专门设计用于处理具有网格结构的数据(如图像)。通过卷积操作高效提取空间特征。是计算机视觉的基石。
  • 循环神经网络 RNN: 设计用于处理序列数据(如文本、语音、时间序列)。具有“记忆”能力,能处理前后依赖关系。
  • Transformer: 一种革命性的架构,尤其擅长处理序列数据(特别是文本)。它使用注意力机制(让模型专注于输入序列中最重要的部分)替代了RNN的顺序处理,极大地提升了并行计算效率和效果。是目前NLP领域的主流架构(如GPT系列、BERT等大模型的基础)。
  • 生成对抗网络: 由两个网络(生成器和判别器)相互对抗训练,能够生成非常逼真的新数据(如图像、音频、文本)。

生成式AI

  • 是人工智能的一个前沿分支,其核心目标是创造全新的、原创的内容(如文本、图像、音频、视频、代码等),而不是仅对现有数据进行分类、预测或分析。它通过学习海量数据的底层规律和模式,“理解”内容的结构与含义,进而生成类似但全新的作品。
  • 技术演进:传统机器学习 → 深度学习(DL)→ 生成式AI(如扩散模型/GPT)

关键原理

  • 生成对抗网络(GANs)
    • 由两个神经网络“对抗”训练:
      • 生成器(Generator):伪造数据(如假图片)。
      • 判别器(Discriminator):判断数据真伪。
    • 两者不断博弈,直到生成器能骗过判别器(如生成逼真的人脸)。
    • 典型应用:Deepfake换脸、艺术创作(如AI绘画早期模型)。
  • 基于变换器的生成模型(Transformer-based)
    • 核心架构:Transformer(2017年提出),擅长处理序列数据(文本、音频)。
    • 核心训练方式
      • 自回归生成(如GPT系列):逐词预测下一个词,形成连贯文本。
      • 扩散模型(Diffusion Models)(如DALL·E 2、Stable Diffusion):
        通过“加噪-去噪”过程生成图像(从随机噪声逐步还原成目标图像)。
    • 典型应用:ChatGPT(文本生成)、Midjourney(图像生成)、Sora(视频生成)。

爆发的原因

  • 三大支柱的成熟
    • 海量数据:互联网文本/图像/视频资源。
    • 算法突破:Transformer架构、扩散模型。
    • 算力飞跃:GPU/TPU等硬件支持大规模训练。
  • 人机交互革命
    • 自然语言成为通用接口(用说话控制AI)。

多模态生成式AI

  • 多模态生成式AI生成式AI的一个高级子类,其核心区别在于处理的输入/输出数据类型复杂度跨模态理解能力
  • 维度 生成式AI (Generative AI) 多模态生成式AI (Multimodal GenAI)
    定义 生成单一类型内容(纯文本、纯图像等) 同时处理并关联多种数据类型(文本+图像+音频等)
    输入/输出 单模态输入 → 单模态输出 (如:文本→文本) 多模态输入 → 多模态输出 (如:文本+图像→视频)
    核心技术 Transformer, GAN, 扩散模型(单模态专用架构) 跨模态对齐技术 + 多模态融合架构 (如CLIP, Flamingo, 多模态Transformer)
    能力关键点 在单一领域内创造新内容 理解跨模态语义关联 + 跨模态生成与转换
    模型示例 GPT-4(文本生成), DALL·E 2(文生图) GPT-4V(图文理解), Sora(文生视频), Pika(文/图生视频)
    技术挑战 模态内一致性、幻觉控制 跨模态对齐、时空同步、联合表示学习
  • 多模态体现在哪里
    • 输入多模态
      • 同时接收多种类型指令:
        • 文本+图像 → “根据设计草图写广告文案”(输入草图+文字描述)
        • 音频+文本 → “给这段会议录音生成图文摘要”(输入录音+关键词)
        • 视频+文本 → “修改视频中第三秒出现的路牌文字”(输入视频+修改指令)
    • 输出多模态
      • 生成融合多种格式的内容:
        • 文本→视频:Sora输入“霓虹灯下的东京街头”,输出视频
        • 图像→3D模型:输入一张椅子照片,生成可旋转的3D网格
        • 文本→虚拟世界:生成带场景描述、物体属性、物理规则的交互空间
    • 跨模态语义理解与推理
      • 核心突破:理解不同模态间的深层关联
        • 例1:看到“苹果”图片+文本“牛顿” → 联想到万有引力(而非水果)
        • 例2:听到玻璃破碎声+视频模糊画面 → 推断车祸事件
  • 难点
    • 跨模态对齐(Cross-modal Alignment)
      • 难题:如何让模型知道“犬吠”的音频片段 ≈ “狗”的文本标签 ≈ 狗的视频帧?
      • 解法:对比学习(CLIP)、跨模态自监督(如Masked Multimodal Modeling)
    • 异构数据融合(Heterogeneous Fusion)
      • 难题:文本(离散符号)、图像(像素矩阵)、音频(时域信号)的数学表示差异巨大
      • 解法:神经编码器统一映射为向量 + 门控融合机制
    • 生成一致性(Consistent Generation)
      • 难题:生成视频时,第5帧的“挥手”动作需与第3帧的“说你好”音频对齐
      • 解法:扩散模型+时空注意力(如Sora的Patch-based Diffusion)

LLMs

  • LLM 是一种基于海量文本数据训练的、参数规模巨大(通常数十亿至数万亿)的深度学习模型,其核心能力是理解和生成人类语言,并能执行广泛的语言相关任务
  • LLM 是一个基于Transformer架构、在海量文本上训练出来的超大规模深度学习模型。它的核心能力源于对“预测下一个词”这一任务的极致优化,并由此涌现出理解和生成人类语言、掌握知识、进行推理的惊人能力。它是当前人工智能革命,尤其是生成式AI浪潮的核心驱动力,但也面临着幻觉、偏见、成本等严峻挑战。理解LLM的工作原理和局限,是理解当今AI进展的关键。
  • “大”(Large)的核心含义:
    • 巨大的参数规模: 这是“大”最直接的含义。参数是模型内部学习的“旋钮”或“权重”,决定了模型如何处理输入并产生输出。
      • 规模举例: GPT-3 (1750亿参数), GPT-4 (具体未公开,估计万亿级), Llama 3 (700亿/8万亿), Claude 3 (未知,推测类似规模)。
      • 为何要大? 更多的参数意味着模型能存储更复杂的语言知识、世界知识和推理模式,捕捉更细微的语义和语境。
    • 庞大的训练数据: LLM 通常在几乎整个互联网的公开文本(网页、书籍、论文、代码、对话记录等)上进行训练,数据量可达PB级(1PB = 1024TB)。这为模型提供了极其丰富的语言模式、事实知识和表达方式。
    • 巨大的计算需求: 训练一个顶级LLM需要数千甚至上万张高性能GPU/TPU芯片,耗费数周甚至数月时间,耗资数百万至数千万美元。推理(使用模型)也需要强大的算力支持。

Language Model本质:

  • 核心任务:预测下一个词(Token)。 在最基础的层面上,LLM 是一个概率模型。给定一串词(或更小的单位 Token,如单词的一部分、单个字符),它的核心任务是预测在这串词后面,最可能出现的下一个词是什么
    • 例子: 输入 “猫坐在___”,模型会计算 “垫子上”、“沙发上”、“窗台上” 等词出现的概率,并选择概率最高的输出。
  • 自回归生成: 当LLM用于生成文本(如写文章、对话)时,它采用自回归方式:每次预测并生成一个词,然后将这个词加到输入中,再预测下一个词,如此循环,形成连贯的文本流。
  • 从预测到理解与创造: 虽然基础是预测下一个词,但得益于巨大的规模和数据,LLM 在训练过程中隐式地学习了:
    • 语言的语法和结构。
    • 词语的语义和上下文含义。
    • 世界知识和常识。 (模型从训练数据中“记住”了大量事实,但要注意其知识可能过时或不准确)。
    • 逻辑推理能力。 (在某种程度上,通过语言模式学习)。
    • 不同风格和语气。
    • 代码的语法和逻辑。
    • 这使得LLM 远远超越了简单的“词语接龙”,能够进行复杂的对话、创作、翻译、总结、分析等。
  • 核心架构基石:Transformer
    • LLM 几乎都建立在 Transformer 架构(由 Google 在 2017 年提出)之上,尤其是其中的 Decoder 部分(如GPT系列)或 Encoder-Decoder 部分(如T5, BART)。
    • Transformer 的核心创新:自注意力机制
      • 解决问题: 传统循环神经网络处理长文本时信息容易丢失或混淆。
      • 如何工作: 自注意力机制允许模型在处理序列(如句子)中的任何一个词时,动态地关注和权衡序列中所有其他词的重要性(包括位置很远的词)。
      • 效果: 模型能更好地理解词与词之间的长距离依赖关系,把握句子的整体语义和上下文。这对于理解复杂语言至关重要。
      • 并行计算: Transformer 结构天然适合并行计算,极大提升了训练和推理效率,是训练超大规模模型的关键。

LLM 是如何“学习”的?

  • 预训练:
    • 目标: 让模型学会语言的通用表示和基础知识。
    • 方法: 在PB级的无标注文本数据上进行自监督学习
    • 主要任务:
      • 掩码语言建模: 随机遮盖输入文本中的一些词(Token),让模型预测被遮盖的词是什么。(如 BERT 系列)
      • 下一个词预测: 给定前面的词序列,预测下一个最可能的词。(如 GPT 系列)
    • 结果: 得到一个拥有强大语言理解能力和丰富世界知识的基础模型
  • 精调:
    • 目的: 让基础模型适应特定的任务或领域,或使其行为更符合人类期望(安全、有用、无害)。
    • 方法:
      • 监督微调: 在特定任务(如问答、摘要、分类)的有标注数据集上进一步训练。
      • 指令精调: 使用大量“指令-期望输出”对进行训练,教会模型遵循人类指令。
      • 基于人类反馈的强化学习: 这是打造像ChatGPT这样模型的关键一步。
        • 让模型生成多个回答。
        • 人类标注员对这些回答进行排序(哪个更好)。
        • 训练一个“奖励模型”来学习人类的偏好。
        • 用这个奖励模型指导LLM优化其策略,使其输出更符合人类价值观(更相关、更无害、更诚实)。

核心概念

RLHF

  • RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习) 是一种用于微调大语言模型(LLM)或其他AI系统的关键技术,目标是让模型输出更符合人类价值观(如有用、诚实、无害)。它是ChatGPT、Claude、Gemini等对话模型实现“高情商”的核心手段。
  • 它架起了“人类主观偏好”与“机器可优化目标”之间的桥梁,使AI从“能力强”走向“行为好”。如果说预训练赋予LLM“智商”,RLHF则赋予其“情商”和“价值观”——这是AI真正可用的关键一跃。
  • RLHF流程 以chatgpt举例
    • 监督微调(SFT - Supervised Fine-Tuning)
      • 目标:教会模型基础任务能力(如对话格式)。
      • 方法
        • 人工编写高质量“指令-回答”对(例如:
        • 输入:“解释牛顿定律”,输出:“牛顿第一定律是…”),
        • 用这些数据微调预训练模型(类似“家教辅导”)。
      • 结果:得到SFT模型(能执行任务,但质量不稳定)。
    • 奖励模型训练(RM - Reward Modeling)
      • 目标:创建一个能自动评判回答好坏的“AI裁判”。
      • 流程
        1. 用SFT模型对同一问题生成4~9个不同回答
          (例:输入:“如何做蛋糕?”,生成回答A、B、C、D)
        2. 人类标注员对这些回答排序(如:D > B > A > C)。
        3. 用排序数据训练奖励模型(RM)
          • 输入:问题 + 回答
          • 输出:分数(反映人类偏好程度)
          • 技术核心:使用对比学习,让RM学会区分回答的优劣(如D的分数应显著高于C)。
      • 关键点:RM替代了昂贵的人工实时评估,实现自动化评分
    • 强化学习微调(PPO - Proximal Policy Optimization)
      • 目标:用RM的评分驱动SFT模型自我提升。
      • 角色设定
        • 演员:待优化的SFT模型(策略网络)
        • 裁判:奖励模型(RM)
        • 环境:用户的问题(Prompt)
      • 训练过程
        1. 输入问题,SFT模型生成回答。
        2. RM对该回答打分。
        3. 使用强化学习算法(如PPO)调整SFT模型参数,使得生成的回答在未来获得更高RM分数。
        4. 为防止模型“作弊”(如生成极端长文骗取高分),需加入KL散度惩罚项,约束新模型输出偏离原始SFT模型的程度。
      • 结果:得到RLHF微调后的最终模型,其输出更贴近人类偏好。
  • 解决了哪些问题
    • 问题类型 RLHF 的作用 示例
      有害内容 降低歧视、暴力等输出概率 拒绝回答“如何制造炸弹”
      幻觉(胡编) 增强事实准确性 减少虚构历史事件
      冗长/模糊 倾向简洁清晰表达 避免车轱辘话
      价值观对齐 符合当地文化/伦理规范 中英文回答适应不同价值观
      有用性 提升问题解决能力 给出可操作的步骤而非泛泛而谈
  • 挑战和局限
    • 标注成本高
      • 依赖大量人工标注排序(OpenAI/ChatGPT训练中雇佣了数千名标注员)。
    • 偏好不一致
      • 不同文化、群体的人类偏好冲突(如幽默尺度)。
    • 过度优化风险
      • 模型可能过度迎合RM打分,产生“机械正确但刻板”的回答。
    • RM的局限性
      • 若RM未覆盖某些场景,模型可能在这些领域退化。
  • 替代方案
    • RLAIF:用AI(如另一个LLM)替代人类标注偏好,降低成本。
    • DPO(Direct Preference Optimization):直接优化偏好数据,跳过RM建模和PPO复杂训练(效果更好且更高效,成为新趋势)。

关键挑战与局限性

  • 幻觉: LLM 可能会生成看似合理但完全错误或编造的信息。因为它本质上是预测词语序列的统计模式,而非访问真实数据库。
  • 知识截止: 模型的知识仅限于其训练数据截止日期之前的内容。无法实时更新(除非重新训练或接入外部信息源)。
  • 偏见与毒性: 模型会学习并放大训练数据中存在的社会偏见、刻板印象甚至有害内容。虽然RLHF等努力在缓解,但仍是重大挑战。
  • 缺乏真正的理解与推理: LLM 表现出的“理解”和“推理”是基于统计模式匹配和模式生成的,与人类基于认知和意识的理解有本质区别。在处理复杂逻辑、数学或需要深度世界模型的任务时可能出错。
  • 计算成本高昂: 训练和部署顶级LLM需要巨大的资源,限制了广泛使用和创新。
  • 可解释性差: LLM 的决策过程像一个巨大的“黑箱”,难以理解其内部运作机制和做出特定预测的原因。

LLM 在生成式AI中的地位

  • LLM 是当前文本生成式AI的绝对主力。
  • 它是构建多模态生成式AI(如文生图、文生视频)的核心文本理解组件。例如,DALL-E、Midjourney 等图像生成模型,通常先由类似LLM的组件解析用户输入的文本提示(Prompt),再指导图像生成。
  • LLM 是驱动AI智能体(能自主理解目标、规划步骤、使用工具完成任务)的核心大脑。

AI扫盲
https://x-leonidas.github.io/2025/10/26/24AI/AI扫盲/
作者
听风
发布于
2025年10月26日
更新于
2025年10月26日
许可协议