100 个大模型学习入门核心关键词

100 个大模型学习入门核心关键词

解决方案goocz2025-04-08 12:13:0519A+A-

按大模型学习过程分组,用简单语言解释,适合 AI 新手。每个词有“意思”和“用途”,部分附代码示例。


1. 基础概念(认识大模型)

  1. 大模型 (Large Model)
    ● 意思:超级大的 AI 系统,能干很多事。
    ● 用途:如 ChatGPT,聊天、写文章。
  2. 大语言模型 (LLM)
    ● 意思:超大的文字处理模型。
    ● 用途:翻译、回答问题。
  3. 神经网络 (Neural Network)
    ● 意思:像人脑的计算网,用来学习。
    ● 用途:大模型的基础。
  4. 深度学习 (Deep Learning)
    ● 意思:用多层网络学复杂东西。
    ● 用途:驱动大模型。
  5. 参数 (Parameters)
    ● 意思:模型的“知识点”,数量超多。
    ● 用途:决定模型能力。
  6. 预训练 (Pretraining)
    ● 意思:先用海量数据教基础知识。
    ● 用途:让模型懂语言。
  7. 微调 (Fine-tuning)
    ● 意思:用特定数据调模型干特定活。
    ● 用途:如调成作文生成器。
  8. 推理 (Inference)
    ● 意思:用训练好的模型回答问题。
    ● 用途:实际用模型。
  9. 上下文 (Context)
    ● 意思:模型记住的前文。
    ● 用途:让回答连贯。
  10. 生成 (Generation)
    ● 意思:模型自己造内容。
    ● 用途:写故事、对话。

2. 数据准备(准备数据)

  1. 数据集 (Dataset)
    ● 意思:训练用的文字或图片“课本”。
    ● 用途:模型学习材料。
  2. 语料库 (Corpus)
    ● 意思:一大堆文字,如书、网页。
    ● 用途:预训练的基础。
  3. 标记数据 (Labeled Data)
    ● 意思:带答案的数据。
    ● 用途:微调时教模型。
  4. 数据清洗 (Data Cleaning)
    ● 意思:去掉错字、垃圾数据。
    ● 用途:让模型学得干净。
  5. 分词 (Tokenization)
    ● 意思:把句子切成小块(词)。
    ● 用途:模型能懂文字。
    ● 代码:
  6. python
  7. from transformers import BertTokenizer tokenizer = BertTokenizer.from_pretrained("bert-base-uncased") print(tokenizer.tokenize("I like to learn")) # ['i', 'like', 'to', 'learn']
  8. 词嵌入 (Word Embedding)
    ● 意思:把词变成数字。
    ● 用途:模型理解词。
  9. 批处理 (Batching)
    ● 意思:把数据分成小份喂模型。
    ● 用途:不卡电脑。
  10. 数据增强 (Data Augmentation)
    ● 意思:改写句子造更多数据。
    ● 用途:增加数据量。
  11. 训练集 (Training Set)
    ● 意思:教模型的主力数据。
    ● 用途:占大部分。
  12. 验证集 (Validation Set)
    ● 意思:调模型时测试的数据。
    ● 用途:检查效果。

3. 预训练阶段(预训练模型)

  1. Transformer
    ● 意思:大模型的主结构,像大脑。
    ● 用途:处理句子。
  2. 编码器 (Encoder)
    ● 意思:把输入变成数字。
    ● 用途:理解文字。
  3. 解码器 (Decoder)
    ● 意思:把数字变回文字。
    ● 用途:生成内容。
  4. 注意力机制 (Attention Mechanism)
    ● 意思:关注句子的重要词。
    ● 用途:提高理解力。
  5. 自注意力 (Self-Attention)
    ● 意思:词互相看彼此。
    ● 用途:找句子关系。
  6. 多头注意力 (Multi-Head Attention)
    ● 意思:多角度看句子。
    ● 用途:更全面理解。
  7. 位置编码 (Positional Encoding)
    ● 意思:告诉模型词的顺序。
    ● 用途:让句子有逻辑。
  8. 无监督学习 (Unsupervised Learning)
    ● 意思:不用答案,自己学。
    ● 用途:预训练方式。
  9. 掩码语言模型 (MLM)
    ● 意思:遮住词让模型猜。
    ● 用途:BERT 的训练法。
  10. 因果语言模型 (Causal LM)
    ● 意思:从头预测下一个词。
    ● 用途:GPT 的训练法。
  11. 损失函数 (Loss Function)
    ● 意思:算模型错多少。
    ● 用途:指导改进。
  12. 梯度下降 (Gradient Descent)
    ● 意思:一步步减少错误。
    ● 用途:优化模型。
  13. 优化器 (Optimizer)
    ● 意思:帮模型调整的工具。
    ● 用途:如 Adam。
  14. 学习率 (Learning Rate)
    ● 意思:调整步子大小。
    ● 用途:控制速度。
  15. 批量大小 (Batch Size)
    ● 意思:一次喂多少数据。
    ● 用途:影响效率。

4. 微调阶段(微调模型)

  1. 监督学习 (Supervised Learning)
    ● 意思:用带答案的数据教。
    ● 用途:微调方式。
  2. 任务特定数据集 (Task-Specific Dataset)
    ● 意思:为某任务准备的数据。
    ● 用途:如情感分析数据。
  3. 迁移学习 (Transfer Learning)
    ● 意思:用预训练模型再调整。
    ● 用途:省时间。
  4. 冻结层 (Freezing Layers)
    ● 意思:锁住部分不改。
    ● 用途:保留基础知识。
  5. 解冻层 (Unfreezing Layers)
    ● 意思:放开部分再调。
    ● 用途:适配新任务。
  6. 提示词 (Prompt)
    ● 意思:给模型的指令。
    ● 用途:引导回答。
    ● 例子:输入“写诗”,输出诗。
  7. 微调策略 (Fine-tuning Strategy)
    ● 意思:怎么调的计划。
    ● 用途:高效调整。
  8. 过拟合 (Overfitting)
    ● 意思:太记训练数据,新数据不行。
    ● 用途:要避免。
  9. 正则化 (Regularization)
    ● 意思:加限制防过拟合。
    ● 用途:如 Dropout。
  10. 早停 (Early Stopping)
    ● 意思:效果不好就停。
    ● 用途:防过训练。
  11. Epoch
    ● 意思:数据跑一遍。
    ● 用途:多跑学透。
  12. 权重更新 (Weight Update)
    ● 意思:调整模型知识。
    ● 用途:让模型变好。
  13. 验证损失 (Validation Loss)
    ● 意思:验证集上的错误。
    ● 用途:调参数。
  14. 超参数 (Hyperparameter)
    ● 意思:训练前设定的值。
    ● 用途:调效果。
  15. Dropout
    ● 意思:随机关节点。
    ● 用途:防过拟合。

5. 生成与推理(生成和使用)

  1. 生成模型 (Generative Model)
    ● 意思:能造新内容的模型。
    ● 用途:写文章。
  2. 自回归 (Autoregressive)
    ● 意思:一步步生成。
    ● 用途:GPT 的方式。
  3. 温度 (Temperature)
    ● 意思:控制随机性。
    ● 用途:高乱低稳。
  4. Top-k 采样 (Top-k Sampling)
    ● 意思:从前 k 个词挑。
    ● 用途:生成合理。
  5. Top-p 采样 (Top-p Sampling)
    ● 意思:按概率挑。
    ● 用途:灵活生成。
  6. Beam Search
    ● 意思:多选最佳输出。
    ● 用途:翻译准。
  7. 上下文窗口 (Context Window)
    ● 意思:模型看多长文字。
    ● 用途:影响理解。
  8. 推理延迟 (Inference Latency)
    ● 意思:回答时间。
    ● 用途:越快越好。
  9. 生成长度 (Generation Length)
    ● 意思:输出字数。
    ● 用途:控制长短。
  10. 对话模型 (Conversational Model)
    ● 意思:能聊天的模型。
    ● 用途:像我这样!

6. 评估模型(检查模型)

  1. 困惑度 (Perplexity)
    ● 意思:预测词的疑惑度。
    ● 用途:越低越准。
  2. BLEU 分数 (BLEU Score)
    ● 意思:生成和参考的相似度。
    ● 用途:评估翻译。
  3. ROUGE 分数 (ROUGE Score)
    ● 意思:生成和参考的重叠。
    ● 用途:评估摘要。
  4. 准确率 (Accuracy)
    ● 意思:预测对的占比。
    ● 用途:分类任务。
  5. F1 分数 (F1 Score)
    ● 意思:精确和召回平衡。
    ● 用途:综合评估。
  6. 测试集 (Test Set)
    ● 意思:最后测效果的数据。
    ● 用途:看真实能力。
  7. 交叉验证 (Cross-Validation)
    ● 意思:多轮测模型。
    ● 用途:结果稳定。
  8. 人类评估 (Human Evaluation)
    ● 意思:人看输出好不好。
    ● 用途:检查质量。
  9. 偏见 (Bias)
    ● 意思:模型的不公平。
    ● 用途:要减少。
  10. 可解释性 (Interpretability)
    ● 意思:懂模型为啥这样。
    ● 用途:增加信任。

7. 工具与技术(工具和技术)

  1. PyTorch
    ● 意思:建模型的工具箱。
    ● 用途:训练大模型。
  2. TensorFlow
    ● 意思:另一个建模型工具。
    ● 用途:工业化强。
  3. Hugging Face
    ● 意思:现成模型平台。
    ● 用途:快速试用。
    ● 代码:
  4. python
  5. from transformers import pipeline model = pipeline("text-generation") print(model("Hi")) # 生成文本
  6. GPU
    ● 意思:显卡,加速计算。
    ● 用途:快训模型。
  7. Jupyter Notebook
    ● 意思:写代码的笔记本。
    ● 用途:边写边看。
  8. NumPy
    ● 意思:处理数字的库。
    ● 用途:数据基础。
  9. Pandas
    ● 意思:处理表格的库。
    ● 用途:准备数据。
  10. Spark
    ● 意思:大数据工具。
    ● 用途:处理语料。
  11. 张量 (Tensor)
    ● 意思:多维数字块。
    ● 用途:模型数据。
  12. 分布式训练 (Distributed Training)
    ● 意思:多机器一起训。
    ● 用途:大模型需要。

8. 优化与部署(优化和部署)

  1. 模型压缩 (Model Compression)
    ● 意思:让模型变小。
    ● 用途:跑得快。
  2. 剪枝 (Pruning)
    ● 意思:砍不重要部分。
    ● 用途:优化模型。
  3. 量化 (Quantization)
    ● 意思:降低精度。
    ● 用途:省资源。
  4. 蒸馏 (Distillation)
    ● 意思:大模型教小模型。
    ● 用途:高效用。
  5. 推理引擎 (Inference Engine)
    ● 意思:跑模型的工具。
    ● 用途:实际应用。
  6. API
    ● 意思:模型的服务接口。
    ● 用途:别人能用。
  7. 云计算 (Cloud Computing)
    ● 意思:云端跑模型。
    ● 用途:大算力。
  8. 边缘计算 (Edge Computing)
    ● 意思:本地跑模型。
    ● 用途:设备用。
  9. 实时推理 (Real-time Inference)
    ● 意思:立刻出结果。
    ● 用途:聊天用。
  10. 批量推理 (Batch Inference)
    ● 意思:一次处理多数据。
    ● 用途:分析用。

9. 常见问题与解决(问题和解决)

  1. 梯度爆炸 (Gradient Explosion)
    ● 意思:调整太大,乱了。
    ● 用途:要控制。
  2. 梯度消失 (Gradient Vanishing)
    ● 意思:调整太小,学不动。
    ● 用途:要解决。
  3. 计算图 (Computation Graph)
    ● 意思:运算的流程图。
    ● 用途:优化计算。
  4. 内存溢出 (Out of Memory)
    ● 意思:数据太多,电脑卡住。
    ● 用途:要优化。
  5. 过拟合 (Overfitting)
    ● 意思:太记训练数据。
    ● 用途:要防。
  6. 欠拟合 (Underfitting)
    ● 意思:学得太简单。
    ● 用途:要改进。
  7. 正则化 (Regularization)
    ● 意思:加限制防过拟合。
    ● 用途:模型稳定。
  8. Batch Normalization
    ● 意思:标准化数据。
    ● 用途:加速训练。
  9. 学习率衰减 (Learning Rate Decay)
    ● 意思:步子慢慢变小。
    ● 用途:后期更准。
  10. 并行计算 (Parallel Computing)
    ● 意思:同时干多活。
    ● 用途:加速训练。

学习建议

按阶段学:每天 3-5 个词,从“基础”到“部署”。
动手试:用 Hugging Face 或 PyTorch 跑代码。
记笔记:每个词记“意思+用途”。

这 100 个词是大模型学习的全流程“导航”!从认识它到训、调、用,每个阶段都清楚了。想深入某个词(比如 Transformer 或微调),随时告诉我,我再细讲!有问题就问哦!

点击这里复制本文地址 以上内容由goocz整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!

果子教程网 © All Rights Reserved.  蜀ICP备2024111239号-5