100 个大模型学习入门核心关键词
按大模型学习过程分组,用简单语言解释,适合 AI 新手。每个词有“意思”和“用途”,部分附代码示例。
1. 基础概念(认识大模型)
- 大模型 (Large Model)
● 意思:超级大的 AI 系统,能干很多事。
● 用途:如 ChatGPT,聊天、写文章。 - 大语言模型 (LLM)
● 意思:超大的文字处理模型。
● 用途:翻译、回答问题。 - 神经网络 (Neural Network)
● 意思:像人脑的计算网,用来学习。
● 用途:大模型的基础。 - 深度学习 (Deep Learning)
● 意思:用多层网络学复杂东西。
● 用途:驱动大模型。 - 参数 (Parameters)
● 意思:模型的“知识点”,数量超多。
● 用途:决定模型能力。 - 预训练 (Pretraining)
● 意思:先用海量数据教基础知识。
● 用途:让模型懂语言。 - 微调 (Fine-tuning)
● 意思:用特定数据调模型干特定活。
● 用途:如调成作文生成器。 - 推理 (Inference)
● 意思:用训练好的模型回答问题。
● 用途:实际用模型。 - 上下文 (Context)
● 意思:模型记住的前文。
● 用途:让回答连贯。 - 生成 (Generation)
● 意思:模型自己造内容。
● 用途:写故事、对话。
2. 数据准备(准备数据)
- 数据集 (Dataset)
● 意思:训练用的文字或图片“课本”。
● 用途:模型学习材料。 - 语料库 (Corpus)
● 意思:一大堆文字,如书、网页。
● 用途:预训练的基础。 - 标记数据 (Labeled Data)
● 意思:带答案的数据。
● 用途:微调时教模型。 - 数据清洗 (Data Cleaning)
● 意思:去掉错字、垃圾数据。
● 用途:让模型学得干净。 - 分词 (Tokenization)
● 意思:把句子切成小块(词)。
● 用途:模型能懂文字。
● 代码: - python
- from transformers import BertTokenizer tokenizer = BertTokenizer.from_pretrained("bert-base-uncased") print(tokenizer.tokenize("I like to learn")) # ['i', 'like', 'to', 'learn']
- 词嵌入 (Word Embedding)
● 意思:把词变成数字。
● 用途:模型理解词。 - 批处理 (Batching)
● 意思:把数据分成小份喂模型。
● 用途:不卡电脑。 - 数据增强 (Data Augmentation)
● 意思:改写句子造更多数据。
● 用途:增加数据量。 - 训练集 (Training Set)
● 意思:教模型的主力数据。
● 用途:占大部分。 - 验证集 (Validation Set)
● 意思:调模型时测试的数据。
● 用途:检查效果。
3. 预训练阶段(预训练模型)
- Transformer
● 意思:大模型的主结构,像大脑。
● 用途:处理句子。 - 编码器 (Encoder)
● 意思:把输入变成数字。
● 用途:理解文字。 - 解码器 (Decoder)
● 意思:把数字变回文字。
● 用途:生成内容。 - 注意力机制 (Attention Mechanism)
● 意思:关注句子的重要词。
● 用途:提高理解力。 - 自注意力 (Self-Attention)
● 意思:词互相看彼此。
● 用途:找句子关系。 - 多头注意力 (Multi-Head Attention)
● 意思:多角度看句子。
● 用途:更全面理解。 - 位置编码 (Positional Encoding)
● 意思:告诉模型词的顺序。
● 用途:让句子有逻辑。 - 无监督学习 (Unsupervised Learning)
● 意思:不用答案,自己学。
● 用途:预训练方式。 - 掩码语言模型 (MLM)
● 意思:遮住词让模型猜。
● 用途:BERT 的训练法。 - 因果语言模型 (Causal LM)
● 意思:从头预测下一个词。
● 用途:GPT 的训练法。 - 损失函数 (Loss Function)
● 意思:算模型错多少。
● 用途:指导改进。 - 梯度下降 (Gradient Descent)
● 意思:一步步减少错误。
● 用途:优化模型。 - 优化器 (Optimizer)
● 意思:帮模型调整的工具。
● 用途:如 Adam。 - 学习率 (Learning Rate)
● 意思:调整步子大小。
● 用途:控制速度。 - 批量大小 (Batch Size)
● 意思:一次喂多少数据。
● 用途:影响效率。
4. 微调阶段(微调模型)
- 监督学习 (Supervised Learning)
● 意思:用带答案的数据教。
● 用途:微调方式。 - 任务特定数据集 (Task-Specific Dataset)
● 意思:为某任务准备的数据。
● 用途:如情感分析数据。 - 迁移学习 (Transfer Learning)
● 意思:用预训练模型再调整。
● 用途:省时间。 - 冻结层 (Freezing Layers)
● 意思:锁住部分不改。
● 用途:保留基础知识。 - 解冻层 (Unfreezing Layers)
● 意思:放开部分再调。
● 用途:适配新任务。 - 提示词 (Prompt)
● 意思:给模型的指令。
● 用途:引导回答。
● 例子:输入“写诗”,输出诗。 - 微调策略 (Fine-tuning Strategy)
● 意思:怎么调的计划。
● 用途:高效调整。 - 过拟合 (Overfitting)
● 意思:太记训练数据,新数据不行。
● 用途:要避免。 - 正则化 (Regularization)
● 意思:加限制防过拟合。
● 用途:如 Dropout。 - 早停 (Early Stopping)
● 意思:效果不好就停。
● 用途:防过训练。 - Epoch
● 意思:数据跑一遍。
● 用途:多跑学透。 - 权重更新 (Weight Update)
● 意思:调整模型知识。
● 用途:让模型变好。 - 验证损失 (Validation Loss)
● 意思:验证集上的错误。
● 用途:调参数。 - 超参数 (Hyperparameter)
● 意思:训练前设定的值。
● 用途:调效果。 - Dropout
● 意思:随机关节点。
● 用途:防过拟合。
5. 生成与推理(生成和使用)
- 生成模型 (Generative Model)
● 意思:能造新内容的模型。
● 用途:写文章。 - 自回归 (Autoregressive)
● 意思:一步步生成。
● 用途:GPT 的方式。 - 温度 (Temperature)
● 意思:控制随机性。
● 用途:高乱低稳。 - Top-k 采样 (Top-k Sampling)
● 意思:从前 k 个词挑。
● 用途:生成合理。 - Top-p 采样 (Top-p Sampling)
● 意思:按概率挑。
● 用途:灵活生成。 - Beam Search
● 意思:多选最佳输出。
● 用途:翻译准。 - 上下文窗口 (Context Window)
● 意思:模型看多长文字。
● 用途:影响理解。 - 推理延迟 (Inference Latency)
● 意思:回答时间。
● 用途:越快越好。 - 生成长度 (Generation Length)
● 意思:输出字数。
● 用途:控制长短。 - 对话模型 (Conversational Model)
● 意思:能聊天的模型。
● 用途:像我这样!
6. 评估模型(检查模型)
- 困惑度 (Perplexity)
● 意思:预测词的疑惑度。
● 用途:越低越准。 - BLEU 分数 (BLEU Score)
● 意思:生成和参考的相似度。
● 用途:评估翻译。 - ROUGE 分数 (ROUGE Score)
● 意思:生成和参考的重叠。
● 用途:评估摘要。 - 准确率 (Accuracy)
● 意思:预测对的占比。
● 用途:分类任务。 - F1 分数 (F1 Score)
● 意思:精确和召回平衡。
● 用途:综合评估。 - 测试集 (Test Set)
● 意思:最后测效果的数据。
● 用途:看真实能力。 - 交叉验证 (Cross-Validation)
● 意思:多轮测模型。
● 用途:结果稳定。 - 人类评估 (Human Evaluation)
● 意思:人看输出好不好。
● 用途:检查质量。 - 偏见 (Bias)
● 意思:模型的不公平。
● 用途:要减少。 - 可解释性 (Interpretability)
● 意思:懂模型为啥这样。
● 用途:增加信任。
7. 工具与技术(工具和技术)
- PyTorch
● 意思:建模型的工具箱。
● 用途:训练大模型。 - TensorFlow
● 意思:另一个建模型工具。
● 用途:工业化强。 - Hugging Face
● 意思:现成模型平台。
● 用途:快速试用。
● 代码: - python
- from transformers import pipeline model = pipeline("text-generation") print(model("Hi")) # 生成文本
- GPU
● 意思:显卡,加速计算。
● 用途:快训模型。 - Jupyter Notebook
● 意思:写代码的笔记本。
● 用途:边写边看。 - NumPy
● 意思:处理数字的库。
● 用途:数据基础。 - Pandas
● 意思:处理表格的库。
● 用途:准备数据。 - Spark
● 意思:大数据工具。
● 用途:处理语料。 - 张量 (Tensor)
● 意思:多维数字块。
● 用途:模型数据。 - 分布式训练 (Distributed Training)
● 意思:多机器一起训。
● 用途:大模型需要。
8. 优化与部署(优化和部署)
- 模型压缩 (Model Compression)
● 意思:让模型变小。
● 用途:跑得快。 - 剪枝 (Pruning)
● 意思:砍不重要部分。
● 用途:优化模型。 - 量化 (Quantization)
● 意思:降低精度。
● 用途:省资源。 - 蒸馏 (Distillation)
● 意思:大模型教小模型。
● 用途:高效用。 - 推理引擎 (Inference Engine)
● 意思:跑模型的工具。
● 用途:实际应用。 - API
● 意思:模型的服务接口。
● 用途:别人能用。 - 云计算 (Cloud Computing)
● 意思:云端跑模型。
● 用途:大算力。 - 边缘计算 (Edge Computing)
● 意思:本地跑模型。
● 用途:设备用。 - 实时推理 (Real-time Inference)
● 意思:立刻出结果。
● 用途:聊天用。 - 批量推理 (Batch Inference)
● 意思:一次处理多数据。
● 用途:分析用。
9. 常见问题与解决(问题和解决)
- 梯度爆炸 (Gradient Explosion)
● 意思:调整太大,乱了。
● 用途:要控制。 - 梯度消失 (Gradient Vanishing)
● 意思:调整太小,学不动。
● 用途:要解决。 - 计算图 (Computation Graph)
● 意思:运算的流程图。
● 用途:优化计算。 - 内存溢出 (Out of Memory)
● 意思:数据太多,电脑卡住。
● 用途:要优化。 - 过拟合 (Overfitting)
● 意思:太记训练数据。
● 用途:要防。 - 欠拟合 (Underfitting)
● 意思:学得太简单。
● 用途:要改进。 - 正则化 (Regularization)
● 意思:加限制防过拟合。
● 用途:模型稳定。 - Batch Normalization
● 意思:标准化数据。
● 用途:加速训练。 - 学习率衰减 (Learning Rate Decay)
● 意思:步子慢慢变小。
● 用途:后期更准。 - 并行计算 (Parallel Computing)
● 意思:同时干多活。
● 用途:加速训练。
学习建议
● 按阶段学:每天 3-5 个词,从“基础”到“部署”。
● 动手试:用 Hugging Face 或 PyTorch 跑代码。
● 记笔记:每个词记“意思+用途”。
这 100 个词是大模型学习的全流程“导航”!从认识它到训、调、用,每个阶段都清楚了。想深入某个词(比如 Transformer 或微调),随时告诉我,我再细讲!有问题就问哦!