大模型 VS 大语言模型

最近很多朋友搞不懂大模型和大预言模型的区别,总是把大模型就认为是大语言模型。
今天就用这篇帖子做一个科普。

大模型

概念:大模型是指拥有超大规模参数(通常在十亿个以上)、复杂计算结构的机器学习模型。它通常能够处理海量数据,完成各种复杂任务,如自然语言处理、图像识别等。

大语言模型

概念:大语言模型(Large Language Model,简称LLM),指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的重要途径。

很明显两者是有明显区别的,大语言模型通常是指我们所用到的对话形式的模型,例如ChatGPT、文心一言之类的模型;而大模型是对超大规模参数的模型统称。

大模型的分类

模型的发展最初是伴随着自然语言处理技术的不断发展的,这是由于文本数据的数据量更大且更容易获取。所以目前大模型最大的分类还是大语言模型,近两年衍生出一些语言与其他形式融合的大模型,例如:

  • 文字生成音乐(MusicLM)
  • 文字生成图像(DALL-E2,Midjourney)
  • 文字图像生成机器人动作(RT-1)

大模型包括但不限于以下几类:

  • 大语言模型(LLM):专注于处理自然语言,能够理解、生成和处理大规模文本数据。大语言模型在机器翻译、文本生成、对话系统等任务上取得显著成果。OpenAI的GPT系列是其中的代表,包括最新的GPT-4、文心一言、通义千问。开源大模型中有meta 开源的 LLaMA、ChatGLM - 6B、Yi-34B-Chat。你可能会发现了国内的开源模型中,如果名字命名存在chat这个单词的,大概率是大语言模型。

  • 视觉大模型:专注于计算机视觉任务,例如图像分类、目标检测、图像生成等。它们能够从图像中提取有关对象、场景和结构的信息。例如Vision Transformer(ViT)就是一种基于自注意力机制的视觉大模型,用于图像分类任务。

  • 多模态大模型:能够处理多种不同类型的数据,如文本、图像、音频等,并在这些数据之间建立关联。多模态大模型在处理涉及多种感知输入的任务上表现出色,如文图融合、图像描述生成等。多模态是大模型接下来发展的一大趋势。国内的华为盘古大模型就是一个多模态大模型,能够同时理解文本和图像,用于任务如图像分类和自然语言推理,国外的谷歌Gemini也是一个多模态大模型。

  • 决策大模型:专注于进行决策和规划,通常应用于强化学习等领域。它们能够在面对不确定性和复杂环境时做出智能决策。深度强化学习中的模型,如AlphaGo和AlphaZero,是决策大模型的代表,能够在围棋等游戏中取得超人类水平的表现。

  • 行业垂直大模型:专门设计用于特定行业或领域的任务,如医学、环境、教育等。它们通常在处理特定领域的数据和问题时表现出色。在医疗领域有DoctorGPT、华佗GPT,大规模的医学图像处理模型用于诊断和分析。在金融领域,模型可能用于风险评估和交易策略。携程的问道是旅游行业的大模型等等。

由此可见,大语言模型只是大模型的一个分类,我们有时候简称大模型倒也没有什么问题。不过要注意提醒大家一点,大语言模型和行业垂直大模型是有非常明显的区别的,他们的训练数据侧重点不一样,大语言模型更多是理解我们的话里话外的意思,主要负责和人类沟通对话的能力,行业大模型更多是基于语言大模型的基础上再进一步对某些行业的专业知识进行更加深层级的训练。因此你会发现你在用chatGPT类似ai工具的时候,当问到一些专业知识的时候,经常会出现AI幻觉。

举个简单的例子是,开源的LLaMA大模型是一个大语言模型,很多行业大模型都是从这个大语言模型的基础性调教出来的,它就像一个正在读医的大学生。DoctorGPT这个产品就像是一个从业多年的医科教授。因此你问一些专业的医科问题的时候,肯定是医科教授回答更加精准,一些简单的问题可能大学生也能回答。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/20353.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

实验一 顺序结构程序设计

《大学计算机﹣C语言版》实验报告 实验名称 实验一 顺序结构程序设计 实验目的 (1)掌握C语言中常量和变量的概念。 (2)掌握C语言中常见的数据类型。 (3)掌握C语言中变量的定义和赋值方法。 …

在Linux上如何利用NTP使客户端和服务端的时间同步

对于服务端 一、先在服务端安装相关配置-----yum install chrony -y-----并启动 二、进入chrony的文件里----在第三行修改为阿里云时间服务地址 三、在服务端重启chrony 四、进行测试------chronyc sources -v 五、进入chrony的文件里添加客户端的ip地址---在第26行&#…

IDEA2023 SpringBoot整合Web开发(二)

一、SpringBoot介绍 由Pivotal团队提供的全新框架,其设计目的是用来简化Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置。SpringBoot提供了一种新的编程范式,可以更加快速便捷…

[C语言]第十三节 指针一基础知识到高级技巧的全景探索

目录 13.1. 内存和地址 13.1.1. 内存和地址 13.2. 指针变量和地址 13.2.1 取地址操作符(&) 13.1.2 指针变量和解引⽤操作符(*) 13.1.3 指针变量的⼤⼩ 13.3. 指针变量类型 13.3.1 指针的解引⽤ 13.3.2 指针-整数 13…

hhdb数据库介绍(9-24)

计算节点参数说明 failoverAutoresetslave 参数说明&#xff1a; PropertyValue参数值failoverAutoresetslave是否可见是参数说明故障切换时&#xff0c;是否自动重置主从复制关系默认值falseReload是否生效否 参数设置&#xff1a; <property name"failoverAutor…

基于Java Springboot网络相册系统

一、作品包含 源码数据库设计文档万字PPT全套环境和工具资源部署教程 二、项目技术 前端技术&#xff1a;Html、Css、Js、Vue、Element-ui 数据库&#xff1a;MySQL 后端技术&#xff1a;Java、Spring Boot、MyBatis 三、运行环境 开发工具&#xff1a;IDEA/eclipse 数据…

未来已来:少儿编程竞赛聚焦物联网,激发创新潜力

随着人工智能与物联网技术&#xff08;IoT&#xff09;的快速发展&#xff0c;少儿编程教育正在迎来新的变革浪潮。近年来&#xff0c;各类少儿编程竞赛纷纷增加了物联网相关主题&#xff0c;要求学生结合编程知识和硬件设备设计智能家居、智慧城市等创新项目。这一趋势不仅丰富…

什么是客户关系管理

客户关系管理&#xff08;CRM&#xff09;是一套用于管理企业与现有客户及潜在客户互动的策略和技术。提升客户满意度、优化销售流程、增强客户忠诚度是其核心目标。通过系统化的方法&#xff0c;CRM帮助企业收集、分析并利用客户数据&#xff0c;从而制定更有效的市场营销策略…

C# MethodTimer.Fody 使用详解

总目录 前言 NET开发过程中&#xff0c;经常会使用Stopwatch 来测量方法的执行所需时间&#xff0c;以便了解代码的执行效率。这里介绍一个开源库&#xff1a;MethodTimer.Fody。它可以辅助我们更为方便快速的完成方法执行效率的测量。 一、MethodTimer.Fody 是什么&#xff1…

sourceInsight常用设置和功能汇总(不断更新)(RGB、高亮、全路径、鼠标、宏、TODO高亮)

文章目录 必开配置设置背景颜色护眼的RGB值&#xff1f;sourceInsight4.0中如何设置选中某个单词以后自动高亮的功能&#xff1f;sourceinsight中输入设置显示全路径&#xff1f; 常用sourceInsight4.0中文乱码怎么解决&#xff0c;注意事项是什么&#xff1f;如何绑定鼠标中键…

东土科技孵化的“网联汽车高速通信技术”前沿产品亮相2024WICV大会

2024世界智能网联汽车大会&#xff08;WICV&#xff09;于近日在北京召开。本次大会发布了由中国汽车工程学会组织全球200余位专家&#xff0c;联合评审遴选出未来十年对于智能网联汽车发展具有重要影响的十大技术趋势&#xff0c;包括“面向高级别自动驾驶的超级人工智能”“网…

kvm-dmesg:从宿主机窥探虚拟机内核dmesg日志

在虚拟化环境中&#xff0c;实时获取虚拟机内核日志对于系统管理员和开发者来说至关重要。传统的 dmesg 工具可以方便地查看本地系统的内核日志&#xff0c;但在KVM&#xff08;基于内核的虚拟机&#xff09;环境下&#xff0c;获取虚拟机内部的内核日志则复杂得多。为了简化这…

如何在分布式环境中实现高可靠性分布式锁

目录 一、简单了解分布式锁 &#xff08;一&#xff09;分布式锁&#xff1a;应对分布式环境的同步挑战 &#xff08;二&#xff09;分布式锁的实现方式 &#xff08;三&#xff09;分布式锁的使用场景 &#xff08;四&#xff09;分布式锁需满足的特点 二、Redis 实现分…

编程之路,从0开始:联合和枚举

Hello大家好&#xff01;很高兴我们又见面啦&#xff01;给生活添点passion&#xff0c;开始今天的编程之路。 目录 1、自定义类型&#xff1a;联合体 1.1联合体的声明 1.2联合体变量的定义与赋值 1.3联合体的特点 1.4利用联合体判断大小端 2、自定义类型&#xff1a;枚举…

【从零开始的LeetCode-算法】3301. 高度互不相同的最大塔高和

给你一个数组 maximumHeight &#xff0c;其中 maximumHeight[i] 表示第 i 座塔可以达到的 最大 高度。 你的任务是给每一座塔分别设置一个高度&#xff0c;使得&#xff1a; 第 i 座塔的高度是一个正整数&#xff0c;且不超过 maximumHeight[i] 。所有塔的高度互不相同。 请…

POE接口

一、POE的概念 POE&#xff08;Power over Ethernet&#xff09;是一种以太网供电技术&#xff0c;它允许在现有的以太网电缆中传输电力和数据信号&#xff0c;从而无需额外的电源线。POE技术广泛应用于IP电话、无线接入点、网络摄像头、安全系统和其他需要网络连接和供电的设…

分层架构 IM 系统之架构演进

在电商业务日活几百万的情况下&#xff0c;IM 系统采用分层架构方式&#xff0c;如下图。 分层架构的 IM 系统&#xff0c;整体上包含了【终端层】、【入口层】、【业务逻辑层】、【路由层】、【数据访问层】和【存储层】&#xff0c;我们在上篇文章&#xff08;分层架构 IM 系…

基于Ruoyi的同一token跨系统访问,后端单点登录并且鉴权方案

基于Ruoyi的同一token跨系统访问,后端单点登录并且鉴权方案 需求场景以及先决条件默认方案改造思路改造代码,一共4个类需要变更完整需要修改的代码 需求场景以及先决条件 同一环境下的多个ruoyi项目,各自使用相同的一组用户(我这里用的是LDAP的登录,不影响本文),但是每个权限拥…

基于Lora通讯加STM32空气质量检测WIFI通讯-分享

目录 目录 前言 一、本设计主要实现哪些很“开门”功能&#xff1f; 二、电路设计原理图 1.电路图采用Altium Designer进行设计&#xff1a; 2.实物展示图片 三、程序源代码设计 四、获取资料内容 前言 随着环境污染问题的日益严重&#xff0c;空气质量的监测与管理已经…

How to paint colors to the assets cube through .urdf

1. Find your assets/cube.urdf Something looks like this <?xml version"1.0"?> <robot name"object"><link name"object"><visual><origin xyz"0 0 0"/><geometry><box size"0.05…