100 个大模型学习入门核心关键词

解决方案goocz2025-04-08 12:13:0527A⁺A^-

按大模型学习过程分组，用简单语言解释，适合 AI 新手。每个词有“意思”和“用途”，部分附代码示例。

1. 基础概念（认识大模型）

大模型 (Large Model)
● 意思：超级大的 AI 系统，能干很多事。
● 用途：如 ChatGPT，聊天、写文章。
大语言模型 (LLM)
● 意思：超大的文字处理模型。
● 用途：翻译、回答问题。
神经网络 (Neural Network)
● 意思：像人脑的计算网，用来学习。
● 用途：大模型的基础。
深度学习 (Deep Learning)
● 意思：用多层网络学复杂东西。
● 用途：驱动大模型。
参数 (Parameters)
● 意思：模型的“知识点”，数量超多。
● 用途：决定模型能力。
预训练 (Pretraining)
● 意思：先用海量数据教基础知识。
● 用途：让模型懂语言。
微调 (Fine-tuning)
● 意思：用特定数据调模型干特定活。
● 用途：如调成作文生成器。
推理 (Inference)
● 意思：用训练好的模型回答问题。
● 用途：实际用模型。
上下文 (Context)
● 意思：模型记住的前文。
● 用途：让回答连贯。
生成 (Generation)
● 意思：模型自己造内容。
● 用途：写故事、对话。

2. 数据准备（准备数据）

数据集 (Dataset)
● 意思：训练用的文字或图片“课本”。
● 用途：模型学习材料。
语料库 (Corpus)
● 意思：一大堆文字，如书、网页。
● 用途：预训练的基础。
标记数据 (Labeled Data)
● 意思：带答案的数据。
● 用途：微调时教模型。
数据清洗 (Data Cleaning)
● 意思：去掉错字、垃圾数据。
● 用途：让模型学得干净。
分词 (Tokenization)
● 意思：把句子切成小块（词）。
● 用途：模型能懂文字。
● 代码：
python
from transformers import BertTokenizer tokenizer = BertTokenizer.from_pretrained("bert-base-uncased") print(tokenizer.tokenize("I like to learn")) # ['i', 'like', 'to', 'learn']
词嵌入 (Word Embedding)
● 意思：把词变成数字。
● 用途：模型理解词。
批处理 (Batching)
● 意思：把数据分成小份喂模型。
● 用途：不卡电脑。
数据增强 (Data Augmentation)
● 意思：改写句子造更多数据。
● 用途：增加数据量。
训练集 (Training Set)
● 意思：教模型的主力数据。
● 用途：占大部分。
验证集 (Validation Set)
● 意思：调模型时测试的数据。
● 用途：检查效果。

3. 预训练阶段（预训练模型）

Transformer
● 意思：大模型的主结构，像大脑。
● 用途：处理句子。
编码器 (Encoder)
● 意思：把输入变成数字。
● 用途：理解文字。
解码器 (Decoder)
● 意思：把数字变回文字。
● 用途：生成内容。
注意力机制 (Attention Mechanism)
● 意思：关注句子的重要词。
● 用途：提高理解力。
自注意力 (Self-Attention)
● 意思：词互相看彼此。
● 用途：找句子关系。
多头注意力 (Multi-Head Attention)
● 意思：多角度看句子。
● 用途：更全面理解。
位置编码 (Positional Encoding)
● 意思：告诉模型词的顺序。
● 用途：让句子有逻辑。
无监督学习 (Unsupervised Learning)
● 意思：不用答案，自己学。
● 用途：预训练方式。
掩码语言模型 (MLM)
● 意思：遮住词让模型猜。
● 用途：BERT 的训练法。
因果语言模型 (Causal LM)
● 意思：从头预测下一个词。
● 用途：GPT 的训练法。
损失函数 (Loss Function)
● 意思：算模型错多少。
● 用途：指导改进。
梯度下降 (Gradient Descent)
● 意思：一步步减少错误。
● 用途：优化模型。
优化器 (Optimizer)
● 意思：帮模型调整的工具。
● 用途：如 Adam。
学习率 (Learning Rate)
● 意思：调整步子大小。
● 用途：控制速度。
批量大小 (Batch Size)
● 意思：一次喂多少数据。
● 用途：影响效率。

4. 微调阶段（微调模型）

监督学习 (Supervised Learning)
● 意思：用带答案的数据教。
● 用途：微调方式。
任务特定数据集 (Task-Specific Dataset)
● 意思：为某任务准备的数据。
● 用途：如情感分析数据。
迁移学习 (Transfer Learning)
● 意思：用预训练模型再调整。
● 用途：省时间。
冻结层 (Freezing Layers)
● 意思：锁住部分不改。
● 用途：保留基础知识。
解冻层 (Unfreezing Layers)
● 意思：放开部分再调。
● 用途：适配新任务。
提示词 (Prompt)
● 意思：给模型的指令。
● 用途：引导回答。
● 例子：输入“写诗”，输出诗。
微调策略 (Fine-tuning Strategy)
● 意思：怎么调的计划。
● 用途：高效调整。
过拟合 (Overfitting)
● 意思：太记训练数据，新数据不行。
● 用途：要避免。
正则化 (Regularization)
● 意思：加限制防过拟合。
● 用途：如 Dropout。
早停 (Early Stopping)
● 意思：效果不好就停。
● 用途：防过训练。
Epoch
● 意思：数据跑一遍。
● 用途：多跑学透。
权重更新 (Weight Update)
● 意思：调整模型知识。
● 用途：让模型变好。
验证损失 (Validation Loss)
● 意思：验证集上的错误。
● 用途：调参数。
超参数 (Hyperparameter)
● 意思：训练前设定的值。
● 用途：调效果。
Dropout
● 意思：随机关节点。
● 用途：防过拟合。

5. 生成与推理（生成和使用）

生成模型 (Generative Model)
● 意思：能造新内容的模型。
● 用途：写文章。
自回归 (Autoregressive)
● 意思：一步步生成。
● 用途：GPT 的方式。
温度 (Temperature)
● 意思：控制随机性。
● 用途：高乱低稳。
Top-k 采样 (Top-k Sampling)
● 意思：从前 k 个词挑。
● 用途：生成合理。
Top-p 采样 (Top-p Sampling)
● 意思：按概率挑。
● 用途：灵活生成。
Beam Search
● 意思：多选最佳输出。
● 用途：翻译准。
上下文窗口 (Context Window)
● 意思：模型看多长文字。
● 用途：影响理解。
推理延迟 (Inference Latency)
● 意思：回答时间。
● 用途：越快越好。
生成长度 (Generation Length)
● 意思：输出字数。
● 用途：控制长短。
对话模型 (Conversational Model)
● 意思：能聊天的模型。
● 用途：像我这样！

6. 评估模型（检查模型）

困惑度 (Perplexity)
● 意思：预测词的疑惑度。
● 用途：越低越准。
BLEU 分数 (BLEU Score)
● 意思：生成和参考的相似度。
● 用途：评估翻译。
ROUGE 分数 (ROUGE Score)
● 意思：生成和参考的重叠。
● 用途：评估摘要。
准确率 (Accuracy)
● 意思：预测对的占比。
● 用途：分类任务。
F1 分数 (F1 Score)
● 意思：精确和召回平衡。
● 用途：综合评估。
测试集 (Test Set)
● 意思：最后测效果的数据。
● 用途：看真实能力。
交叉验证 (Cross-Validation)
● 意思：多轮测模型。
● 用途：结果稳定。
人类评估 (Human Evaluation)
● 意思：人看输出好不好。
● 用途：检查质量。
偏见 (Bias)
● 意思：模型的不公平。
● 用途：要减少。
可解释性 (Interpretability)
● 意思：懂模型为啥这样。
● 用途：增加信任。

7. 工具与技术（工具和技术）

PyTorch
● 意思：建模型的工具箱。
● 用途：训练大模型。
TensorFlow
● 意思：另一个建模型工具。
● 用途：工业化强。
Hugging Face
● 意思：现成模型平台。
● 用途：快速试用。
● 代码：
python
from transformers import pipeline model = pipeline("text-generation") print(model("Hi")) # 生成文本
GPU
● 意思：显卡，加速计算。
● 用途：快训模型。
Jupyter Notebook
● 意思：写代码的笔记本。
● 用途：边写边看。
NumPy
● 意思：处理数字的库。
● 用途：数据基础。
Pandas
● 意思：处理表格的库。
● 用途：准备数据。
Spark
● 意思：大数据工具。
● 用途：处理语料。
张量 (Tensor)
● 意思：多维数字块。
● 用途：模型数据。
分布式训练 (Distributed Training)
● 意思：多机器一起训。
● 用途：大模型需要。

8. 优化与部署（优化和部署）

模型压缩 (Model Compression)
● 意思：让模型变小。
● 用途：跑得快。
剪枝 (Pruning)
● 意思：砍不重要部分。
● 用途：优化模型。
量化 (Quantization)
● 意思：降低精度。
● 用途：省资源。
蒸馏 (Distillation)
● 意思：大模型教小模型。
● 用途：高效用。
推理引擎 (Inference Engine)
● 意思：跑模型的工具。
● 用途：实际应用。
API
● 意思：模型的服务接口。
● 用途：别人能用。
云计算 (Cloud Computing)
● 意思：云端跑模型。
● 用途：大算力。
边缘计算 (Edge Computing)
● 意思：本地跑模型。
● 用途：设备用。
实时推理 (Real-time Inference)
● 意思：立刻出结果。
● 用途：聊天用。
批量推理 (Batch Inference)
● 意思：一次处理多数据。
● 用途：分析用。

9. 常见问题与解决（问题和解决）

梯度爆炸 (Gradient Explosion)
● 意思：调整太大，乱了。
● 用途：要控制。
梯度消失 (Gradient Vanishing)
● 意思：调整太小，学不动。
● 用途：要解决。
计算图 (Computation Graph)
● 意思：运算的流程图。
● 用途：优化计算。
内存溢出 (Out of Memory)
● 意思：数据太多，电脑卡住。
● 用途：要优化。
过拟合 (Overfitting)
● 意思：太记训练数据。
● 用途：要防。
欠拟合 (Underfitting)
● 意思：学得太简单。
● 用途：要改进。
正则化 (Regularization)
● 意思：加限制防过拟合。
● 用途：模型稳定。
Batch Normalization
● 意思：标准化数据。
● 用途：加速训练。
学习率衰减 (Learning Rate Decay)
● 意思：步子慢慢变小。
● 用途：后期更准。
并行计算 (Parallel Computing)
● 意思：同时干多活。
● 用途：加速训练。

学习建议

● 按阶段学：每天 3-5 个词，从“基础”到“部署”。
● 动手试：用 Hugging Face 或 PyTorch 跑代码。
● 记笔记：每个词记“意思+用途”。

这 100 个词是大模型学习的全流程“导航”！从认识它到训、调、用，每个阶段都清楚了。想深入某个词（比如 Transformer 或微调），随时告诉我，我再细讲！有问题就问哦！

点击这里复制本文地址以上内容由goocz整理呈现，请务必在转载分享时注明本文地址！如对内容有疑问，请联系我们，谢谢！

edge computing

上一篇：三星电子与IBM签署合作伙伴关系，涉及“边缘计算”

下一篇：美国国防信息系统局公布“技术观察清单”

100 个大模型学习入门核心关键词

相关文章