AI大模型基础概念

什么是人工智能？

人工智能 (AI) 是一种使计算机和机器能够模拟人类智能和解决问题能力的技术。

人工智能 (AI) 可以单独使用或与其他技术（例如，传感器、地理定位、机器人）相结合，执行原本需要人类智能或人工干预的任务。数字助理、GPS 制导、自动驾驶汽车和生成式 AI 工具（如 Open AI 的 Chat GPT）只是日常新闻和我们日常生活中 AI 的几个例子。

作为计算机科学的一个领域，人工智能包括（并经常一起提及）机器学习和深度学习。这些学科涉及以人脑决策过程为模型的 AI 算法的开发，这些算法可以从可用数据中“学习”，并随着时间的推移做出越来越准确的分类或预测。

人工智能已经历多次炒作周期，但即使对怀疑论者来说，ChatGPT 的发布似乎也标志着一个转折点。上一次生成式 AI 能让人如此忧心忡忡的时候，还是因为在计算机视觉方面取得突破，而现在的飞跃则是在自然语言处理 (NLP) 方面。如今，生成式 AI 不仅可以学习和合成语言，还可以学习和合成其他数据类型，包括图像、视频、软件代码甚至分子结构。

AI 的应用每天都在增长。但随着 AI 工具在商业中的使用大肆宣传，围绕 AI 伦理和负责任的 AI 的对话变得至关重要。

深度学习与机器学习的对比

机器学习和深度学习是 AI 的子学科，而深度学习是机器学习的子学科。

机器学习和深度学习算法都使用神经网络来从大量数据中“学习”。这些神经网络是以人脑决策过程为模型的编程结构。它们由相互连接的节点层组成，这些节点从数据中提取特征并预测数据所代表的内容。

机器学习和深度学习在所使用的神经网络类型以及涉及的人为干预程度上有所不同。经典机器学习算法使用具有输入层、一个或两个“隐藏”层和一个输出层的神经网络。通常，这些算法仅限于监督学习：数据需要由人类专家进行结构化或标记，以使算法能够从数据中提取特征。

深度学习算法使用深度神经网络 - 由一个输入层、三个或更多（但通常数百个）隐藏层和一个输出布局组成的网络。这些多层级结构可以实现无监督学习：它们可以自动从大型、未标记和非结构化数据集中提取特征。它不需要人工干预，所以深度学习本质上实现了大规模的机器学习。

深度神经网络示意图

人工智能应用

如今，AI 系统有许多实际应用。以下是一些最常见的用例：

语音识别

语音识别也称为自动语音识别 (ASR)、计算机语音识别或 Speech to Text，它使用 NLP 将人类语音处理成书面格式。许多移动设备将语音识别技术集成到其系统中，以进行语音搜索（比如 Siri），或者提供更多关于英语或许多广泛使用的语言中发送短信的可访问性。

客户服务

在线虚拟代理和聊天机器人正在客户旅程中取代人工代理。它们可以回答有关运输等主题的常见问题 (FAQ)，或者提供个性化建议、交叉销售产品或为用户建议规格等，从而改变了我们所设想的网站和社交媒体平台中的客户参与方式。示例包括：电子商务网站上带有虚拟代理的消息传递机器人；Slack 和 Facebook Messenger 等消息传递应用平台；以及通常由虚拟助手和语音助手完成的任务。

计算机视觉

这种 AI 技术使计算机和系统将能够从数字图像、视频和其他视觉输入中获取有意义的信息，并根据这些输入采取行动。这种提供建议的能力让它有别于图像识别任务。在卷积神经网络的支持下，计算机视觉可应用于社交媒体中的照片标记、医疗保健中的放射成像以及汽车行业中的自动驾驶汽车。

供应链

自适应机器人根据物联网 (IoT) 设备信息以及结构化和非结构化数据做出自主决策。NLP 工具可以理解人类的语音，并对他们听到的内容做出反应。预测分析应用于需求响应、库存和网络优化、预防性维护和数字化制造。搜索和模式识别算法（不再只是预测性的，而是分层的）分析实时数据，帮助供应链对机器生成的增强智能作出反应，同时提供即时可见性和透明度。

天气预报

广播公司依赖的天气模型由超级计算机上运行的复杂算法组成，用于进行准确预测。机器学习技术增强了这些模型，使其更具适用性和精确性。

异常检测

AI 模型可以梳理大量数据，并在数据集中发现非典型数据点。这些异常现象可以提高人们对设备故障、人为错误或网络安全漏洞的认识。

大模型落地应用案例集

国内公司的 AI 大模型研发虽然比国外公司晚，但是发展却异常地迅速，其内在逻辑便是：本土企业和学者对深度学习技术的深入理解与创新。在大模型的底层技术已经固定的时代，他们靠着持续的探索和努力才能构建出秀丽的“上层建筑”。

在OpenAI发布ChatGPT之前，国内的一些企业就已经押注AI大模型技术：例如2021 年 4 月，华为云联合循环智能发布盘古超大规模预训练语言模型，参数规模达 1 000 亿；2021 年 6 月，北京智源人工智能研究院发布了超大规模智能模型“悟道 2.0”，参数规模达到 1.75 万亿；2021 年 12 月，百度推出 ERNIE 3.0 Titan 模型，参数规模达 2 600 亿，同期，阿里巴巴达摩院的 M6 模型参数达到 10 万亿，将大模型参数直接提升了一个量级。

到2023年，大模型继续火热，国内的AI大模型团队已逐渐拓展到视觉、决策领域，甚至用于解决蛋白质预测、航天等领域的重大科学问题，阿里、京东、oppo等大厂都有相应的成果。

大模型应用拐点已至

图灵奖获得者Yann LeCun说过：AI大模型的技术都是公开的，算不上底层技术上的创新，如果你愿意一探究竟的话，可以发现它背后没有任何秘密可言。

但借着这些“过时”的技术，在中国拥有庞大的人才基数和数据集的情况下，可以发展出更适合本土环境和语境的大模型。

那么如何形象理解大模型？前科技部长王志刚从高维度表示，大模型，就是大数据、大算力、强算法。形象一些：大模型事实上就是算法、数据、算力上的有效结合。传统巨头在大模型领域的技术投入普遍都是在积极防御，而中国企业在非常积极地推动向应用中的落地。

目前，业界除了把AI大模型商业落地模式统分为 toB 和 toC之外，在市场划分上则遵循通用与垂直两大路径，两者在参数级别、应用场景等方面差异正在显性化。

通用大模型往往是指具备处理多种不同类型任务的AI模型，这些模型通常是通过大规模的数据训练而成，能够在多个领域和应用中表现出良好的效能。大家耳熟能详的几个通用大模型均来财力雄厚的企业：

1.书生浦语开源大模型：由上海人工智能实验室研发，涵盖 70 亿参数的轻量级版本 InternLM-7B，以及 200 亿参数的中量级版本和 InternLM-20B，以及完整的开源工具链体系。InternLM-7B 在包含 40 个评测集的全维度评测中展现出卓越且平衡的性能，它在两个被广泛采用的基准 MMLU 和 CEval 上分别取得了 50.8 和 52.8 的高分，开源一度刷新了 7B 量级模型的纪录。

2.昆仑万维天工大模型：“天工”是一个 AI 搜索引擎，一个对话式 AI 助手。“天工”拥有强大的自然语言处理和智能交互能力，能够实现个性化 AI 搜索、智能问答、聊天互动、文本生成、编写代码、语言翻译等多种应用场景并且具有丰富的知识储备，涵盖科学、技术、文化、艺术、历史等领域。

3.通义千问 2.0：由阿里云研发的超大规模的语言模型，具备多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等功能。通义千问 2.0 在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均比上代有显著提升。

4.MiniMax-abab：由科技创业公司MiniMax研发。据悉，“Max-abab”是文本、语音、视觉三模态的千亿参数大语言模型，在中、英文服务领域均已超过GPT-3.5 的水平。今年8月份，“MiniMax-abab”大模型通过了国家首批大模型服务备案，面向社会公众提供服务。

5.言犀基础大模型：由京东科技研发，该模型融合了70%的通用数据和30%的数智供应链原生数据，具有更高的产业属性。

6.百灵语言大模型：由蚂蚁集团基于Transfromer架构研发。该模型基于万亿级Token语料训练而成，支持窗口长度达32K，在主流推理类榜单中排名前列。据悉，蚂蚁百灵大模型已完成备案，基于百灵大模型的多款产品已陆续完成内测，正陆续向公众开放。

通用大模型示例，数据来自：《2023大模型落地应用案例集》

这些通用大模型包含千亿甚至万亿参数，覆盖自然语言处理、图像识别、语音识别等方面的任务，已在知识问答、医疗咨询、娱乐领域、视频生成等数十个行业场景领域，展现出广阔的落地应用潜力。

与通用大模型相比，垂类大模型参数量相对较小。但是因为有一些行业的核心数据和业务系统的生产数据参与，所以在相应行业解决问题更为高效、直接。

从《案例集》来看，在金融、教育、医疗等领域，已经有不少公司发布了相应产品。

垂类大模型示例，数据来自：《2023大模型落地应用案例集》

根据《案例集》入选案例的应用场景，垂类大模型更针对于企业级应用场景的垂直性和专业性要求，而在模型部署层面，更少的模型参数、训练数据意味着更少的成本，因此垂直应用领域有望实现“万模齐发”。

《案例集》公布的名单，也恰恰验证了目前垂类大模型发展的一些趋势：

1. 加注端侧、边缘侧应用。轻量化参数能让手机助手接入AI大模型能力。目前已有案例包括OPPO的小布助手、华为的智能助手小艺等等。

2. 更倾向于“解决方案”式的交付方式。由于垂类大模型接受了大量特定领域的数据和知识，因此可以基于领域知识生成更具深度的解决方案。例如ChatDD 新一代对话式药物研发助手，面向游戏行业的图像内容生成式大模型等等。

3. 大模型开始向多模态领域发展。多模态意味着丰富的数据形式，包含视觉、听觉和时序信息。对于大模型模型来说，这意味着可以从多模态中提取和学习更多维度的信息。类似于《案例集》中的单晶炉自动化工艺识别多模态模型，相信未来将会出现更多。

4. “通用+垂直”模型互相融通的态势。随着AI技术的发展，不同类型的模型之间的界限变得越来越模糊。例如，一些通用模型开始整合垂直领域的知识，而一些垂直模型也开始利用通用模型的技术来增强其功能。例如百川大模型在娱乐领域的应用。

抢滩大模型未来：构建生态

对于AI大模型这种划时代的超级机遇而言，胜负不在于做出一个爆款应用，赚到几亿盈利，而在于，是否抓到了大时代的方向。

换句话说，当下的大模型竞争早已超过了技术的范畴，更多是一种生态层面的比拼，具体表现在有多少应用、有多少插件、有多少开发者以及用户等。谁能够率先围绕大模型构建生态，或者说谁率先融入生态，谁就能成为领先者。

大模型要想像电力一样输送给千行百业和千家万户，必然需要一个体系化的产业生态，构建这个生态需要一系列相互关联的因素，包括技术发展、应用场景、数据管理、伦理与法律问题、以及社会影响等。

在生态建构的路径上，目前企业可分为两派。一派将大模型接入原有的产品线，做升级和优化；另一派试图以大模型产品为中心，建构新一代的“超级应用”。而有些企业试图跳过这两种路径，多方面融入AI大模型生态。从《案例集》公布的大模型服务类案例，我们可以看到有些中国企业做了以下尝试：

服务大模型示例，数据来自：《2023大模型落地应用案例集》

例如蚂蚁集团实现了一个大模型数据高效高质量供给平台，不仅可降低数据获取和使用成本，且保证来源合规，并能够有效提升数据质量、过滤风险数据保障训练安全；优刻得开发的AGI云上模型服务平台，能提供数据标准化整合、安全合规、提供算力等服务；上海道客研发的云原生大模型知识库平台能够帮助解决信息孤岛，以及定制个性化的私人语料库；泡泡玛特的AI 整合平台集成多个知名AI大模型，为用户提供一站式 AI服务……

这些大模型服务工具，在一定程度上能有效地解决“幻觉”、“道德”、“性能”、“数据合规”等当前AI大模型遇到的问题。更重要的是借助这些服务，可以建设规范可控的自主工具链，帮助AI企业探索“大而强”的通用模型，助力公司研发“小而美”的垂直行业模型，从而构建基础大模型和专业小模型交互共生、迭代进化的良好生态。

参考：

什么是人工智能 (AI)？| IBM

中国大模型图鉴：深度解读《2023大模型落地应用案例集》-科工力量