文章目录
- 1 大模型的分类
- 1.1 按任务类型分类
- 1.1.1 生成式模型
- 1.1.2 判别式模型
- 1.1.3 混合模型
- 1.2 按数据模态分类
- 1.2.1 单模态模型
- 1.2.2 多模态模型
- 1.3 按训练方法分类
- 1.3.1 预训练模型
- 1.3.2 从零训练模型
- 1.3.3 迁移学习模型
- 1.4 按应用领域分类
- 1.4.1 自然语言处理模型
- 1.4.2 计算机视觉模型
- 1.4.3 语音处理模型
- 1.5 按模型架构分类
- 1.5.1 transformer架构
- 1.5.2 卷积神经网络
- 1.5.3 循环神经网络和长短期记忆网络
- 2 大模型的训练数据预处理
- 2.1 确定任务目标
- 2.2 数据收集
- 2.3 数据清洗
- 2.4 数据标注
- 2.5 数据增强
- 2.6 数据分割
- 2.7 数据处理与转换
- 2.8 数据存储与管理
- 2.9 数据隐私与合规性
- 2.10 数据加载和预处理
- 3 预训练和微调
- 3.1 预训练
- 3.1.1 无监督训练
- 3.1.2 有监督训练
- 3.2 微调
- 3.3 区别
- 4 参考附录
1 大模型的分类
现在市面上大模型如百花齐放,对很多人来说一堆大模型带来的不是简单方便,而是乱七八糟以及迷茫。
因为不知道不同的大模型之间有什么区别,也不知道自己需要什么样的大模型;就拿huggingface来说,上面的模型有几十万,有几个人能弄明白它们都是干什么的?
因此,我们首先需要学会的就是大模型的分类,对大模型分门别类之后就知道哪些大模型是做什么的,自己需要的是什么了。
事实上直接说大模型并不是特别准确,大模型指的是具有庞大参数的机器学习或者深度学习模型。
根据模型的参数量可以分为大/中/小三种类型,不同的模型对资源要求不同,应用的场景也不同;比如一些小模型可能会安装到移动设备之上。
1.1 按任务类型分类
根据任务类型,大模型可以分为生成式模型,判别式模型和混合模型。
1.1.1 生成式模型
生成式模型:这种模型主要用于生成内容,包括文本,图像,音视频等;