AI扫盲
AI
ML
- 机器学习模型(Machine Learning Model)
- 是一个从数据中学习规律,并用于对新数据进行预测或决策的数学函数或程序
- 模型的本质:一个数学函数, 接收输入数据,经过内部复杂计算,产出一个输出
- 模型的作用:预测和决策
- 一个ML模型就是一个封装了从历史数据中学到的知识(模式、关系、规则)的程序或数学函数。它的核心目的是利用这些学到的知识,对新的、未知的数据进行预测、分类、识别或做出决策
训练过程
- 构建一个ML模型的过程称为训练。
- 你需要提供训练数据集。这个数据集通常包含:
- 特征: 描述每个样本的属性或变量(例如:房子的面积、卧室数量、地段;图片的像素值;文本中的单词)。
- 标签/目标值: 对于监督学习,这是每个样本对应的正确答案或期望输出(例如:房子的实际售价;图片中物体的真实类别;文本的真实情感)。对于无监督学习,则没有标签。
- 你选择一个机器学习算法(例如:线性回归、决策树、支持向量机、神经网络)。
- 算法使用训练数据来调整模型内部的参数(例如:函数中的系数、权重),目标是让模型在训练数据上能尽可能准确地从输入预测出输出(最小化预测错误)。
- 这个过程就是模型“学习”数据中隐藏模式和关系的过程。
模型与算法的区别
- 算法是学习的方法和过程(如何从数据中学习),就像烹饪的菜谱。
- 模型是算法应用在特定数据集上后得到的最终结果(学习到的具体函数或知识结构),就像按照菜谱做出来的那道具体的菜。
常见的模型
- 线性回归模型: 学习特征和目标值之间的线性关系(如预测房价)。
- 逻辑回归模型: 学习用于分类的概率(如预测邮件是否是垃圾邮件)。
- 决策树模型: 学习一系列基于特征的判断规则(如根据天气情况决定是否出门)。
- 随机森林模型: 由多个决策树组合而成的更强大的模型。
- 支持向量机模型: 寻找最佳边界来分隔不同类别的数据。
- 神经网络模型: 受人脑启发的复杂模型,由多层相互连接的“神经元”组成,特别擅长处理图像、语音、文本等复杂数据(深度学习的基础)。
- K-Means聚类模型: 无监督学习模型,将数据点自动分组(聚类)。
DL
- deep learning 深度学习是机器学习(ML)的一个特定且强大的子领域,其核心是使用称为深度神经网络的结构来学习数据中的复杂模式。
- 深度的含义
- 指的是神经网络具有多个(通常很多)“隐藏层”。
- 传统的神经网络可能只有1-3个隐藏层(称为“浅层网络”)。
- 深度神经网络(DNN) 则包含很多层(例如十几层、几十层甚至上百层、上千层)。
- 这些层是分层级联的,每一层从前一层接收输入,进行变换,并将输出传递给下一层
人工神经网络
- 深度学习的基础是人工神经网络,其灵感来源于人脑神经元的工作方式(但已高度数学化和工程化)。
- 一个神经网络由大量相互连接的“神经元”(或单元)组成,这些神经元分布在不同的层中:
- 输入层: 接收原始数据(如图像像素、单词向量、传感器读数)。
- 隐藏层: 位于输入层和输出层之间,可以有很多层(这就是“深度”的来源)。每一层都对数据进行特征提取和转换。前面的层学习简单特征(如图像中的边缘、颜色),后面的层组合这些简单特征形成更复杂、更抽象的特征(如图像中的物体部件、整个物体、甚至场景)。
- 输出层: 产生最终结果(如分类标签、预测值)。
自动特征学习
- 这是深度学习区别于许多传统机器学习方法的关键优势!
- 传统机器学习: 通常需要领域专家进行大量的特征工程。也就是需要人工设计、选择、转换输入数据中的哪些特征(属性)对模型预测最有用(例如,对于图像识别,可能需要手工设计描述纹理、形状的特征)。
- 深度学习: 能够自动从原始数据中学习多层次的、有意义的特征表示。你只需要给模型提供原始的或轻微预处理的数据(如图像像素、文本字符/单词),深度神经网络会通过其多层结构,在训练过程中自动发现哪些特征对于完成任务是最优的,无需大量人工干预特征设计。这使得DL在处理图像、语音、文本等复杂、高维、非结构化数据时表现极其出色。
深度学习的类型
- 卷积神经网络 CNN: 专门设计用于处理具有网格结构的数据(如图像)。通过卷积操作高效提取空间特征。是计算机视觉的基石。
- 循环神经网络 RNN: 设计用于处理序列数据(如文本、语音、时间序列)。具有“记忆”能力,能处理前后依赖关系。
- Transformer: 一种革命性的架构,尤其擅长处理序列数据(特别是文本)。它使用注意力机制(让模型专注于输入序列中最重要的部分)替代了RNN的顺序处理,极大地提升了并行计算效率和效果。是目前NLP领域的主流架构(如GPT系列、BERT等大模型的基础)。
- 生成对抗网络: 由两个网络(生成器和判别器)相互对抗训练,能够生成非常逼真的新数据(如图像、音频、文本)。
生成式AI
- 是人工智能的一个前沿分支,其核心目标是创造全新的、原创的内容(如文本、图像、音频、视频、代码等),而不是仅对现有数据进行分类、预测或分析。它通过学习海量数据的底层规律和模式,“理解”内容的结构与含义,进而生成类似但全新的作品。
- 技术演进:传统机器学习 → 深度学习(DL)→ 生成式AI(如扩散模型/GPT)
关键原理
- 生成对抗网络(GANs)
- 由两个神经网络“对抗”训练:
- 生成器(Generator):伪造数据(如假图片)。
- 判别器(Discriminator):判断数据真伪。
- 两者不断博弈,直到生成器能骗过判别器(如生成逼真的人脸)。
- 典型应用:Deepfake换脸、艺术创作(如AI绘画早期模型)。
- 由两个神经网络“对抗”训练:
- 基于变换器的生成模型(Transformer-based)
- 核心架构:Transformer(2017年提出),擅长处理序列数据(文本、音频)。
- 核心训练方式:
- 自回归生成(如GPT系列):逐词预测下一个词,形成连贯文本。
- 扩散模型(Diffusion Models)(如DALL·E 2、Stable Diffusion):
通过“加噪-去噪”过程生成图像(从随机噪声逐步还原成目标图像)。
- 典型应用:ChatGPT(文本生成)、Midjourney(图像生成)、Sora(视频生成)。
爆发的原因
- 三大支柱的成熟:
- 海量数据:互联网文本/图像/视频资源。
- 算法突破:Transformer架构、扩散模型。
- 算力飞跃:GPU/TPU等硬件支持大规模训练。
- 人机交互革命:
- 自然语言成为通用接口(用说话控制AI)。
多模态生成式AI
- 多模态生成式AI是生成式AI的一个高级子类,其核心区别在于处理的输入/输出数据类型复杂度和跨模态理解能力
维度 生成式AI (Generative AI) 多模态生成式AI (Multimodal GenAI) 定义 生成单一类型内容(纯文本、纯图像等) 同时处理并关联多种数据类型(文本+图像+音频等) 输入/输出 单模态输入 → 单模态输出 (如:文本→文本) 多模态输入 → 多模态输出 (如:文本+图像→视频) 核心技术 Transformer, GAN, 扩散模型(单模态专用架构) 跨模态对齐技术 + 多模态融合架构 (如CLIP, Flamingo, 多模态Transformer) 能力关键点 在单一领域内创造新内容 理解跨模态语义关联 + 跨模态生成与转换 模型示例 GPT-4(文本生成), DALL·E 2(文生图) GPT-4V(图文理解), Sora(文生视频), Pika(文/图生视频) 技术挑战 模态内一致性、幻觉控制 跨模态对齐、时空同步、联合表示学习 - 多模态体现在哪里
- 输入多模态
- 同时接收多种类型指令:
- 文本+图像 → “根据设计草图写广告文案”(输入草图+文字描述)
- 音频+文本 → “给这段会议录音生成图文摘要”(输入录音+关键词)
- 视频+文本 → “修改视频中第三秒出现的路牌文字”(输入视频+修改指令)
- 同时接收多种类型指令:
- 输出多模态
- 生成融合多种格式的内容:
- 文本→视频:Sora输入“霓虹灯下的东京街头”,输出视频
- 图像→3D模型:输入一张椅子照片,生成可旋转的3D网格
- 文本→虚拟世界:生成带场景描述、物体属性、物理规则的交互空间
- 生成融合多种格式的内容:
- 跨模态语义理解与推理
- 核心突破:理解不同模态间的深层关联
- 例1:看到“苹果”图片+文本“牛顿” → 联想到万有引力(而非水果)
- 例2:听到玻璃破碎声+视频模糊画面 → 推断车祸事件
- 核心突破:理解不同模态间的深层关联
- 输入多模态
- 难点
- 跨模态对齐(Cross-modal Alignment)
- 难题:如何让模型知道“犬吠”的音频片段 ≈ “狗”的文本标签 ≈ 狗的视频帧?
- 解法:对比学习(CLIP)、跨模态自监督(如Masked Multimodal Modeling)
- 异构数据融合(Heterogeneous Fusion)
- 难题:文本(离散符号)、图像(像素矩阵)、音频(时域信号)的数学表示差异巨大
- 解法:神经编码器统一映射为向量 + 门控融合机制
- 生成一致性(Consistent Generation)
- 难题:生成视频时,第5帧的“挥手”动作需与第3帧的“说你好”音频对齐
- 解法:扩散模型+时空注意力(如Sora的Patch-based Diffusion)
- 跨模态对齐(Cross-modal Alignment)
LLMs
- LLM 是一种基于海量文本数据训练的、参数规模巨大(通常数十亿至数万亿)的深度学习模型,其核心能力是理解和生成人类语言,并能执行广泛的语言相关任务
- LLM 是一个基于Transformer架构、在海量文本上训练出来的超大规模深度学习模型。它的核心能力源于对“预测下一个词”这一任务的极致优化,并由此涌现出理解和生成人类语言、掌握知识、进行推理的惊人能力。它是当前人工智能革命,尤其是生成式AI浪潮的核心驱动力,但也面临着幻觉、偏见、成本等严峻挑战。理解LLM的工作原理和局限,是理解当今AI进展的关键。
- “大”(Large)的核心含义:
- 巨大的参数规模: 这是“大”最直接的含义。参数是模型内部学习的“旋钮”或“权重”,决定了模型如何处理输入并产生输出。
- 规模举例: GPT-3 (1750亿参数), GPT-4 (具体未公开,估计万亿级), Llama 3 (700亿/8万亿), Claude 3 (未知,推测类似规模)。
- 为何要大? 更多的参数意味着模型能存储更复杂的语言知识、世界知识和推理模式,捕捉更细微的语义和语境。
- 庞大的训练数据: LLM 通常在几乎整个互联网的公开文本(网页、书籍、论文、代码、对话记录等)上进行训练,数据量可达PB级(1PB = 1024TB)。这为模型提供了极其丰富的语言模式、事实知识和表达方式。
- 巨大的计算需求: 训练一个顶级LLM需要数千甚至上万张高性能GPU/TPU芯片,耗费数周甚至数月时间,耗资数百万至数千万美元。推理(使用模型)也需要强大的算力支持。
- 巨大的参数规模: 这是“大”最直接的含义。参数是模型内部学习的“旋钮”或“权重”,决定了模型如何处理输入并产生输出。
Language Model本质:
- 核心任务:预测下一个词(Token)。 在最基础的层面上,LLM 是一个概率模型。给定一串词(或更小的单位 Token,如单词的一部分、单个字符),它的核心任务是预测在这串词后面,最可能出现的下一个词是什么。
- 例子: 输入 “猫坐在___”,模型会计算 “垫子上”、“沙发上”、“窗台上” 等词出现的概率,并选择概率最高的输出。
- 自回归生成: 当LLM用于生成文本(如写文章、对话)时,它采用自回归方式:每次预测并生成一个词,然后将这个词加到输入中,再预测下一个词,如此循环,形成连贯的文本流。
- 从预测到理解与创造: 虽然基础是预测下一个词,但得益于巨大的规模和数据,LLM 在训练过程中隐式地学习了:
- 语言的语法和结构。
- 词语的语义和上下文含义。
- 世界知识和常识。 (模型从训练数据中“记住”了大量事实,但要注意其知识可能过时或不准确)。
- 逻辑推理能力。 (在某种程度上,通过语言模式学习)。
- 不同风格和语气。
- 代码的语法和逻辑。
- 这使得LLM 远远超越了简单的“词语接龙”,能够进行复杂的对话、创作、翻译、总结、分析等。
- 核心架构基石:Transformer
- LLM 几乎都建立在 Transformer 架构(由 Google 在 2017 年提出)之上,尤其是其中的 Decoder 部分(如GPT系列)或 Encoder-Decoder 部分(如T5, BART)。
- Transformer 的核心创新:自注意力机制
- 解决问题: 传统循环神经网络处理长文本时信息容易丢失或混淆。
- 如何工作: 自注意力机制允许模型在处理序列(如句子)中的任何一个词时,动态地关注和权衡序列中所有其他词的重要性(包括位置很远的词)。
- 效果: 模型能更好地理解词与词之间的长距离依赖关系,把握句子的整体语义和上下文。这对于理解复杂语言至关重要。
- 并行计算: Transformer 结构天然适合并行计算,极大提升了训练和推理效率,是训练超大规模模型的关键。
LLM 是如何“学习”的?
- 预训练:
- 目标: 让模型学会语言的通用表示和基础知识。
- 方法: 在PB级的无标注文本数据上进行自监督学习。
- 主要任务:
- 掩码语言建模: 随机遮盖输入文本中的一些词(Token),让模型预测被遮盖的词是什么。(如 BERT 系列)
- 下一个词预测: 给定前面的词序列,预测下一个最可能的词。(如 GPT 系列)
- 结果: 得到一个拥有强大语言理解能力和丰富世界知识的基础模型。
- 精调:
- 目的: 让基础模型适应特定的任务或领域,或使其行为更符合人类期望(安全、有用、无害)。
- 方法:
- 监督微调: 在特定任务(如问答、摘要、分类)的有标注数据集上进一步训练。
- 指令精调: 使用大量“指令-期望输出”对进行训练,教会模型遵循人类指令。
- 基于人类反馈的强化学习: 这是打造像ChatGPT这样模型的关键一步。
- 让模型生成多个回答。
- 人类标注员对这些回答进行排序(哪个更好)。
- 训练一个“奖励模型”来学习人类的偏好。
- 用这个奖励模型指导LLM优化其策略,使其输出更符合人类价值观(更相关、更无害、更诚实)。
核心概念
RLHF
- RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习) 是一种用于微调大语言模型(LLM)或其他AI系统的关键技术,目标是让模型输出更符合人类价值观(如有用、诚实、无害)。它是ChatGPT、Claude、Gemini等对话模型实现“高情商”的核心手段。
- 它架起了“人类主观偏好”与“机器可优化目标”之间的桥梁,使AI从“能力强”走向“行为好”。如果说预训练赋予LLM“智商”,RLHF则赋予其“情商”和“价值观”——这是AI真正可用的关键一跃。
- RLHF流程 以chatgpt举例
- 监督微调(SFT - Supervised Fine-Tuning)
- 目标:教会模型基础任务能力(如对话格式)。
- 方法:
- 人工编写高质量“指令-回答”对(例如:
- 输入:“解释牛顿定律”,输出:“牛顿第一定律是…”),
- 用这些数据微调预训练模型(类似“家教辅导”)。
- 结果:得到SFT模型(能执行任务,但质量不稳定)。
- 奖励模型训练(RM - Reward Modeling)
- 目标:创建一个能自动评判回答好坏的“AI裁判”。
- 流程:
- 用SFT模型对同一问题生成4~9个不同回答。
(例:输入:“如何做蛋糕?”,生成回答A、B、C、D) - 人类标注员对这些回答排序(如:D > B > A > C)。
- 用排序数据训练奖励模型(RM):
- 输入:问题 + 回答
- 输出:分数(反映人类偏好程度)
- 技术核心:使用对比学习,让RM学会区分回答的优劣(如D的分数应显著高于C)。
- 用SFT模型对同一问题生成4~9个不同回答。
- 关键点:RM替代了昂贵的人工实时评估,实现自动化评分
- 强化学习微调(PPO - Proximal Policy Optimization)
- 目标:用RM的评分驱动SFT模型自我提升。
- 角色设定:
- 演员:待优化的SFT模型(策略网络)
- 裁判:奖励模型(RM)
- 环境:用户的问题(Prompt)
- 训练过程:
- 输入问题,SFT模型生成回答。
- RM对该回答打分。
- 使用强化学习算法(如PPO)调整SFT模型参数,使得生成的回答在未来获得更高RM分数。
- 为防止模型“作弊”(如生成极端长文骗取高分),需加入KL散度惩罚项,约束新模型输出偏离原始SFT模型的程度。
- 结果:得到RLHF微调后的最终模型,其输出更贴近人类偏好。
- 监督微调(SFT - Supervised Fine-Tuning)
- 解决了哪些问题
问题类型 RLHF 的作用 示例 有害内容 降低歧视、暴力等输出概率 拒绝回答“如何制造炸弹” 幻觉(胡编) 增强事实准确性 减少虚构历史事件 冗长/模糊 倾向简洁清晰表达 避免车轱辘话 价值观对齐 符合当地文化/伦理规范 中英文回答适应不同价值观 有用性 提升问题解决能力 给出可操作的步骤而非泛泛而谈
- 挑战和局限
- 标注成本高:
- 依赖大量人工标注排序(OpenAI/ChatGPT训练中雇佣了数千名标注员)。
- 偏好不一致:
- 不同文化、群体的人类偏好冲突(如幽默尺度)。
- 过度优化风险:
- 模型可能过度迎合RM打分,产生“机械正确但刻板”的回答。
- RM的局限性:
- 若RM未覆盖某些场景,模型可能在这些领域退化。
- 标注成本高:
- 替代方案
- RLAIF:用AI(如另一个LLM)替代人类标注偏好,降低成本。
- DPO(Direct Preference Optimization):直接优化偏好数据,跳过RM建模和PPO复杂训练(效果更好且更高效,成为新趋势)。
关键挑战与局限性
- 幻觉: LLM 可能会生成看似合理但完全错误或编造的信息。因为它本质上是预测词语序列的统计模式,而非访问真实数据库。
- 知识截止: 模型的知识仅限于其训练数据截止日期之前的内容。无法实时更新(除非重新训练或接入外部信息源)。
- 偏见与毒性: 模型会学习并放大训练数据中存在的社会偏见、刻板印象甚至有害内容。虽然RLHF等努力在缓解,但仍是重大挑战。
- 缺乏真正的理解与推理: LLM 表现出的“理解”和“推理”是基于统计模式匹配和模式生成的,与人类基于认知和意识的理解有本质区别。在处理复杂逻辑、数学或需要深度世界模型的任务时可能出错。
- 计算成本高昂: 训练和部署顶级LLM需要巨大的资源,限制了广泛使用和创新。
- 可解释性差: LLM 的决策过程像一个巨大的“黑箱”,难以理解其内部运作机制和做出特定预测的原因。
LLM 在生成式AI中的地位
- LLM 是当前文本生成式AI的绝对主力。
- 它是构建多模态生成式AI(如文生图、文生视频)的核心文本理解组件。例如,DALL-E、Midjourney 等图像生成模型,通常先由类似LLM的组件解析用户输入的文本提示(Prompt),再指导图像生成。
- LLM 是驱动AI智能体(能自主理解目标、规划步骤、使用工具完成任务)的核心大脑。