admin 管理员组文章数量: 1184232
系列篇章:
| 1 | 1.大模型的发展与局限性 |
| 2 | 1.1 ollama本地快速部署deepseek |
| 3 | 1.2 linux本地部署deepseek千问蒸馏版+web对话聊天 |
| 4 | 1.3 linux本地部署通义万相2.1+deepseek视频生成 |
| 5 | 1.4 Qwen2.5-Omni全模态大模型部署 |
| 6 | 1.5 Stable Diffusion中文文生图模型部署 |
| 7 | 2.1 从零训练自己的大模型概述 |
| 8 | 2.2 分词器 |
| 9 | 2.3 预训练自己的模型 |
| 10 | 2.4 微调自己的模型 |
| 11 | 2.5 人类对齐训练自己的模型 |
| 12 | 3.1 微调训练详解 |
| 13 | 3.2 Llama-Factory微调训练deepseek-r1实践 |
| 14 | 3.3 transform+LoRA代码微调deepseek实践 |
| 15 | 4.1 文生图(Text-to-Image)模型发展史 |
| 16 | 4.2 文生图GUI训练实践-真人写实生成 |
| 17 | 4.3 文生图代码训练实践-真人写实生成 |
| 18 | 5.1 文生视频(Text-to-Video)模型发展史 |
| 19 | 5.2 文生视频(Text-to-Video)模型训练实践 |
目录
1.预训练原理
2.预训练范式
1.未标注数据
2.标注数据
3.有正确答案、也有错误答案
3.手撕transform模型
3.1.训练数据集
3.2.transform模型代码
3.3.预训练
3.4.推理
4.如何选择模型
5.如何确定模型需要哪种训练
大模型预训练(Large-scale Pre-training)是当前自然语言处理(NLP)和人工智能领域的核心技术,其核心思想是通过海量数据和大量计算资源,让模型从通用任务中学习通用的语言表示或世界知识,再通过微调(Fine-tuning)适配下游任务。2013年Word2Vec出来之后开启了NLP预训练时代,但真正确立大模型预训练方式的还是transform的出现。现在基本所有的大语言模型都是transform架构上演变而来,然后经过大量的数据训练出的模型权重,就能拿来做推理。OpenAI在2020发表的论文《Scaling Laws for Neural Language Models》中提出了 Scaling Laws,并且在2022 年 11 月用chatgpt向世人证明了经过大数据量训练的模型,大模型涌现出了惊人的能力。所以预训练是重中之重,我们必须了解它。
1.预训练原理
简单来说,深度学习领域所谓的“模型”,是一个复杂的数学公式构成的计算步骤。为了便于理解,我们以一元一次方程为例子解释:
y = wx + b
该方程意味着给出常数w、b后,可以通过给出的x求出具体的y。比如:
# w=1 b=1 x
版权声明:本文标题:AI大模型:(二)2.3 预训练自己的模型 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/b/1766105691a3437768.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论