字节跳动冯佳时:大语言模型在计算机视觉领域的应用、问题和我们的解法

演讲嘉宾|冯佳时

编辑 |蔡芳芳  

近年来,大语言模型 (LLMs) 在文本理解与生成领域取得了显著进展。然而,LLMs 在理解和生成自然信号(例如图像,视频)等,还处在比较早期的探索阶段。为了深入探讨这一主题,AICon 全球人工智能开发与应用大会邀请了字节跳动研究科学家、豆包大模型视觉基础研究团队负责人冯佳时做主题演讲《大语言模型在计算机视觉领域的应用》。本次演讲将介绍字节跳动视觉基础研究团队在这个方向的探索与进展,包括 LLMs 在图像理解与视频生成上的阶段性结果。

以下为演讲实录:

在过去三年中,大语言模型取得了显著的进展,已经发展成为一种功能强大的通用模型。这些模型已经阅读了互联网上的海量文本数据,其阅读量远远超过了我们人类一生中能够阅读的文本数据总量,因此积累了丰富的知识储备。然而,这些知识目前还局限于文本领域。如何将这些知识有效解码,并支持 AI 模型在物理世界和视觉世界中完成更复杂的任务,是我们在计算机视觉领域应用大语言模型时所面临的核心问题。

我目前就职于豆包大模型视觉基础研究团队,团队的主要职责是进行前沿技术的研究探索,同时在视觉多模态大模型的未来发展方向上进行尝试和探索。今天的分享,我将首先为大家提供一些背景知识,包括计算机视觉的定义以及我们目前关注的问题。随后,我将重点介绍豆包大模型视觉基础研究团队正在进行的两个研究项目,第一个项目是利用大语言模型帮助 AI 模型更好地理解视觉内容;第二个项目是关于 AIGC 的研究。最后会进行一个简单的总结,并对未来的研究方向进行展望。

背景介绍

计算机视觉的基本问题

计算机视觉是一个历史悠久的学科,也是人工智能研究领域中极为重要的一个分支。自 1950 年马尔出版《Vision》一书以来,视觉研究者们一直致力于解决视觉领域的核心问题。视觉问题由于其应用场景的多样性,可以抽象出多种不同的问题形式。如果我们对这些问题进行简化和抽象,可以将其归纳为三个基本能力:理解(识别)、检测和分割

识别是最基本的能力,即给定一张图像或一段视频,要求模型能够识别并告知内容是什么。检测则在识别的基础上更进一步,要求模型能在复杂环境中定位出感兴趣的物体所在的位置。而分割则是在识别和检测的基础上的进一步深化,它要求模型不仅对图像内容进行全局理解,还要对图像中每个像素的细节进行理解,明确每个像素属于哪个物体,代表什么含义,这是视觉理解的终极问题。

除了理解能力之外,随着 AIGC 技术的发展,生成问题——即从文字描述到视觉内容的转换——也受到了广泛关注。自 2021 年以来,已经陆续有优秀的视觉 AIGC 模型发布,例如 Google 和 OpenAI 都推出了出色的图像生成模型。OpenAI 最近展示的 Sora 模型在视觉生成方面表现出色。此外,3D 生成模型也引起了人们的极大兴趣,尽管目前还处于早期阶段,但其在游戏、增强现实(AR)、虚拟现实(VR)以及构建完全虚拟的数字世界等方面具有巨大的应用潜力和想象空间。

LLM 统一模型

过去,在解决不同的视觉问题时,我们通常会开发或训练不同的专有模型,比如用于理解、分割、视频生成或 3D 生成等。然而,这种针对不同问题开发不同模型的方法已经落后于自然语言处理领域的研究进展。在自然语言理解方面,随着 GPT 等大语言模型的推出,我们已经进入了统一模型的时代。这种统一模型通过处理海量数据,理解文本数据背后的语法结构和包含的物理世界知识,能够根据用户询问和任务指定来完成各种任务。

例如,ChatGPT 和其他一些 AI 聊天软件已经能够处理各种文本工作。我们可以利用它们来修改邮件,或者撰写文章,甚至总结一本书的关键知识。这些软件的关键在于它们背后使用的是一个统一的模型,这个模型可以接受提示词,根据用户提供的不同提示词来定位任务解决方案,并给出相应的输出。

视觉基础模型 :生成与理解的统一

作为计算机视觉领域的研究人员,我们认识到虽然历史上视觉领域的发展曾领先于语言领域,但过去两三年自然语言处理的发展实际上已经为视觉研究提供了很好的示范,并走在了前面。这给我们带来了两个重要的启示。首先,我们需要消耗和吸收海量的数据,这是大语言模型已经做到的,它们通过阅读大量文本数据,积累了丰富的知识。其次,我们应该追求一个统一的模型范式,即构建一个能够通过提示(prompt)来解决各种问题的模型。

如果从头开始搭建这样的视觉模型,我们面临许多挑战。例如,视觉的自监督学习问题尚未解决,同时视觉的多任务统一也还没有实现。这让我们思考是否可以采取一种中间形态的方法,充分利用已经包含丰富知识的大语言模型来解决一些视觉领域的关键核心问题,如图像理解或图像生成。

基于 LLM 的图像理解

LLM 在图像理解中的应用与问题

大语言模型在图像理解领域的应用是一个值得关注的研究方向。尽管目前存在许多优秀的多模态大模型,如 OpenAI 的 GPT-4v 或 GPT-4o,但这些模型在图像内容的理解上仍处于初级阶段。它们能够提供图像的全局描述或识别图像中的文字,但尚未达到像素级别的细节理解。人类在观察场景时,能够提出不同粒度的问题,从全局的场景描述到具体的细节问题,如场景中有多少人、他们的着装或表情等。这种多尺度的理解能力是当前多模态大模型尚未完全实现的,在这方面还有很大的发展空间。

现有的多模态模型架构存在一些局限性,主要体现在基本的架构设计上。这些模型通常以大语言模型作为基础,需要适应大语言模型的处理方式。大语言模型主要处理文本数据,因此,要让它们理解图像,就需要将图像通过编码器提取特征,然后通过映射层将视觉特征转换为语言模型能理解的文本特征。这样,当用户提出问题时,语言模型能够根据转换后的特征和问题提供文本输出。

例如,如果询问上面图片中的内容,模型可能会回答说图片中有两只动物,一只是羊驼,另一只是美洲驼。这种基本架构存在一些问题,尤其是缺少对细节的理解。在图像特征提取阶段,大量信息已经丢失,而这些信息的丢失是无法通过后续的海量数据训练、有监督的精细调整或与人类偏好对齐的强化学习来恢复的。

经过训练的模型在回答关于图像全局信息的问题时可能表现得相当不错,但当被问及更具体的细节信息时,它可能就无法给出准确的答案。这是模型面临的第一个问题。

第二个问题是幻觉现象,这在多模态大模型中尤为常见。由于这些模型以语言模型为核心,它们已经接触过大量的文本数据。虽然我们不清楚具体的内容,但模型通过分析文本数据之间的分布和涌现模式,能够根据前面的词汇推断出后续可能出现的词汇。但这种推断完全在文本空间内进行,缺乏对参考图像的实际联系或基础,因此模型可能会产生一些多余的或错误的描述,这些描述可能与图像实际展示的细节完全不符。例如,如果将同一张图片多次输入到多模态模型中,模型可能会错误地描述图像中的某些细节,如描述上图中的美洲鸵为红色,即使实际上并非如此。

带定位能力的 LLM 及相关工作

为了解决这些细节理解和幻觉问题,并进一步扩展大语言模型的能力,使其能够与物理世界进行可靠和准确的交互,我们需要让大语言模型具备一定的定位能力。这种定位能力可以是对图像上特定区域的定位,也可以是对周围 3D 环境的定位。例如,在自动驾驶或具身智能领域,我们通常将大模型视为机器人的"大脑"。在进行推理时,我们希望这个"大脑"能够参考周围实际的物理环境信息。比如,如果问它下图中水龙头或放水果的托盘在哪里,我们希望模型不仅能告诉我们具体位置,还能指导机器人去拿取或进行相应的操作。这就要求大语言模型扩展出一定的定位能力,以便更好地与物理世界互动。

在计算机视觉的研究领域,自去年以来,许多研究人员已经开始关注如何拓展大语言模型的能力,使其不再局限于文本空间,而是能够与物理世界进行可靠交互。在这一领域,有许多杰出的工作,我这里举 LISA 团队的研究为例。他们开发的方法赋予了语言模型推理和定位的能力,能够识别图像中的关键区域和物体。例如,在询问图像中哪种食物的维生素含量最高时,模型不仅能回答出是橙子,还能指出橙子在图像中的具体位置。这种定位能力不仅提高了语言模型的准确性,还有助于减少对某些问题的幻觉。

LISA 团队的基本思想是通过让大语言模型的输出不仅限于文本 token,还能输出代表图像中物体位置的特殊 token。为了实现这一目标,他们采用了图像预处理技术,通过不同尺度的分割来识别图像中的物体。他们使用的是 Meta 公司的“segment anything”模型,简称 SAM 模型。SAM 模型虽然功能强大,但处理一张图片可能需要十几到二十几秒的时间,这显著增加了模型理解图像内容的推理延迟。此外,该模型架构还存在一些限制。目前,它每次只能定位图像中的一个物体。如果需要定位图像中的多个物体,当前的模型架构就无法满足。这些挑战表明,在将大语言模型与物理世界交互的能力拓展方面,还有许多工作要做。

我们的方案:PixelLM

针对目前学术界在大语言模型与物理世界交互方面的一些方案,我们发现它们存在效率不高、实用性有限,以及能力上的缺陷,比如只能定位单个物体而无法同时定位多个物体。为了解决这些问题,我们提出了 PixelLM 模型架构,这是一个像素级别的大语言模型,它不仅高效,而且具备多物体定位的能力,能够进行推理和分割,减少幻觉回答的发生。

PixelLM 的基础模型架构关键在于物体分割码本的设计和轻量级解码器的引入。在不改变原有大语言模型架构的基础上,我们增加了这两个设计,使得模型能够实时高效地对分割结果进行解码,并在图像上提供定位和分割的结果。大语言模型的输出也经过了改造,不仅包括文本 token,还包含代表物体分割结果的特殊 token。

我们首先使用一个强大的图像编码器来解决图像特征提取时的信息损失问题,并进行多尺度特征提取,而不仅仅是全局特征。这里我们使用了 OpenAI 的 CLIP 模型来提取图像的全局特征。但为了同时识别不同尺度的物体,我们对图像进行了缩放和切分,然后通过同样的特征提取模型来提取不同尺度的特征。

接下来是分割词表的设计。为了克服之前工作只能定位单个物体的限制,我们设计了多组分割词表或分割 token,每组 token 代表不同的尺寸,组内每个 token 代表不同的物体。通过预测结果的融合,我们能够成功地定位图像中的多个物体和不同尺寸的物体,例如同时定位下图右侧日轨的托和指针。

我们提出了一个轻量化的解码器设计,这个设计特别注重效率和简洁性。在这个设计中,我们采用了一个结构简单但功能强大的自回归解码器它内置了注意力机制(attention)。这个解码器的工作流程是逐步进行的:首先,它解码出图像中一个物体的分割结果,然后利用这个结果作为指导,继续解码下一个物体的分割。这个过程会持续进行,直到图像中所有关键物体都被成功定位和分割出来。

在训练方法上,我们采取了一种综合策略,旨在保持原有语言模型能力的同时,增强模型在分割定位方面的性能。为此,我们在训练过程中加入了一些专门针对分割定位任务的损失函数。这样的设计确保了模型在经过训练后,不仅能够准确地定位和分割出图像中的关键物体,而且还能保持大语言模型的核心能力,包括对语言的深入理解、逻辑推理能力,以及丰富的常识。

大语言模型或 AI 大模型的发展离不开算力和海量数据的支持,数据的构建对于提升模型能力至关重要。为了训练具备推理、定位和分割能力的像素级大语言模型,我们需要相应的训练数据来指导模型学习和执行这些操作。然而,目前并没有现成的数据集可以直接使用,因此我们需要探索如何构建这样的数据。

在计算机视觉领域,图像分割是一个长期研究的方向,学术界已经积累了大量的相关数据,每张图像中都包含了多个物体及其对应的分割标注。我们考虑是否可以利用这些带有分割标注的图像作为种子数据,进一步构造出针对图像内容的问答数据。这些问答数据的答案中应包含物体信息及其分割结果。

我们的具体做法是,将已有分割标注的图像输入到大语言模型中,让模型针对图像提出问题,并结合关键类别信息,如图像中包含的物体类型和场景。例如,如果图像中有一只猫、一台电脑和一张床,我们可以询问大语言模型:“这张图像里有一只猫、一台电脑和一张床,你能想到什么问题?能构造出什么样的问答?”大语言模型会根据图像中的物体信息生成问答对。

通过这种方式,我们收集并构造了一个新的数据集,称为 MUSE。我们希望 MUSE 数据集能作为一个初始数据集,帮助研究人员开展更多关于大语言模型或多模态大模型的研究,从而提升模型在物理世界中的定位能力。这样的数据集将为模型提供丰富的学习和推理材料,使其能够更好地理解和与物理世界交互。

在进行模型性能评测时,尽管涉及的数字众多,但我们可以重点关注两组关键数据:TFLOPs 和分割定位的准确率。TFLOPs 是衡量模型算力的一个指标,它反映了模型的延时和效率。在我们的模型与 LISA 模型的比较中,我们模型的能力更强,但运算量却减少了一半,显示出更高的效率。此外,我们的模型在分割定位的准确率上也有显著提升,从 LISA 模型的 9.6 提升到了 37.7。我们的模型现在已经达到了一个初步可用的状态,目前团队仍在不断地迭代数据构造和模型能力,以期进一步提升模型的表现和应用范围。

一个具备定位能力和对物理世界参考能力的大语言模型在应用层面拥有非常广阔的前景。它不仅可以进行多物体分割,还能进行推理、问答,甚至与用户进行交流和聊天。这样的模型可以应用于多种场景,具有极高的灵活性和实用性。

我们的模型和数据集已经开源,可以在网上下载并试用。用户可以利用我们的数据集进行模型的迭代和进一步的研究开发。

如果一个模型已经具备了基本的定位能力,那么我们接下来期待的是它能在物理世界中进行更深层次的交互,从物理世界中学习知识。这意味着模型将能够将其从互联网文本数据中学到的知识与现实世界的物理情况相对应,并通过不断的反馈来提升自身的能力,这也是我们下一步研究的重点方向。

基于 LLM 的图像视频生成

大语言模型(LLM)在图像和视频生成方面的应用,尤其是视频生成,已经成为一个备受关注的研究领域。许多研究团队已经发布了他们的视频生成模型,这些模型在模拟物理世界、动作和物理规律方面已经达到了非常逼真的水平,在光影效果和三维世界结构的构建上也取得了显著的成果。

视频生成模型面临的挑战

但视频生成模型目前还面临一些挑战。

首先是视频的一致性问题。尽管生成四五秒的视频看起来效果不错,但当生成更长的视频,比如一分钟时,就会出现人物和环境的一致性问题。人物的长相或环境可能会随着视频的进行而发生不自然的变化或扭曲,这是需要解决的关键问题。

其次,是用户友好程度的问题。目前的创作界面通常需要用户输入一段文字来生成视频,但如果用户希望得到一段复杂且表现力强的视频,就需要提供非常详细的文字描述。但长篇幅的描述可能会超出模型的理解能力,导致生成的视频内容与描述不匹配。此外,文字描述难以对视频进行精细控制,比如精确控制人物的姿势变化。

视频生成的另一个挑战是视频的表现力或演技。我们希望生成的视频不仅在视觉上逼真,还要具有一定的表现力,人物动作要富有变化,避免单一和刻板。

目前的视频生成方案流程可能并不完全合理。用户需要设计一段复杂的文字描述,然后依赖模型生成视频,结果往往像“抽奖”一样不确定。相比之下,专业视频制作人员在创作视频时,会首先定义角色,构思故事情节,编写剧本和分镜,然后拍摄不同场景的片段,并最终进行剪辑。这种创作过程与目前视频生成模型的工作方式存在明显差异,我们在视频生成技术的发展中,需要更多地考虑如何模拟这种专业的创作流程,以提高生成视频的质量和可用性。

如果我们根据专业视频制作的流程重新设计视频生成的范式,AI 模型是否能够胜任这一任务呢?

在角色定义阶段,我们可以利用大语言模型来定义角色的性格和形象,然后使用图像生成模型根据语言模型的描述来创建具体的形象。目前,AI 模型在这方面的能力是足够的。接下来是剧本和分镜的创作,大语言模型同样可以完成这项工作。这里关键在于如何生成角色一致的关键片段,并确保这些片段能够合成具有高表现力的长视频。这正是我们需要解决的重点问题。为了应对这一挑战,我们正在研究一个名为 StoryDiffusion 的模型。我们希望这个生成模型能够创作出具有表现力和吸引力的故事,而不是仅仅模拟一些刻板的模式,生成缺乏锐利度的视频。

我们的探索:StoryDiffusion

StoryDiffusion 模型解决了两个问题:提供了更友好的交互方式,允许用户通过定义角色、创作剧本来进行视频内容创作;同时引入了两项关键技术,一是提高角色的一致性,二是增强表现力。

以 StoryDiffusion 的效果为例,我们可以使用角色定义模型,比如图像生成模型,输入一个角色,比如 AI 领域的著名研究科学家 Yan LeCun。我们可以得到他的形象,然后定义一个主题,比如 Yan LeCun 去月球探险。将这个主题交给大语言模型,它将生成一段剧本。这个剧本和角色形象再输入到 StoryDiffusion 中,它就能生成连续的画面,进而合成视频。在这些画面中,角色的长相保持严格一致,同时表情也很丰富,从而完整地描述了剧本和故事。

StoryDiffusion 模型的设计包含两个关键点:一致性注意力和表现力。

首先,一致性注意力的设计基于一个简单的理念,即在单独生成每张图片时,随机性可能导致角色形象的变化。如果同时生成多张图像,并使用同一个随机种子,这种随机性就会减少。在多张图像同时生成的过程中,通过互相参考,可以确保生成的人物形象保持一致,包括长相和衣着,即使动作和表情有所不同。这种一致性注意力机制确保了人物形象的连贯性。

其次,表现力的提升关键在于运动的丰富性。传统视频生成模型通常在像素空间进行插帧来生成运动,但这往往导致运动幅度小和模式单一。StoryDiffusion 模型通过将关键帧送入语义空间进行插帧,然后再映射回像素空间,利用语义空间包含的丰富信息来增强运动的幅度和表现力。这样,生成的人物不仅表情丰富,动作幅度和多样性也得到提升,同时保持人物形象的严格一致性。

通过这种运动生成模式,StoryDiffusion 能够将多个短视频进行插帧和拼接,生成更长的视频,如网站上展示的一分钟或两分钟的视频。定量评估表明,StoryDiffusion 在角色一致性和视频生成质量方面,相比同期的其他模型和方法都具有更好的效果。

StoryDiffusion 背后的理念是先定义故事的角色,然后生成相应的故事。这一理念已经在即梦 AI 的故事模式中得到体现,用户可以通过图像生成模型或上传自己的图像来定义角色,再利用故事生成模型来创作连续的故事。

总结展望

在演讲前面的部分,我提到了我们在提升模型视觉理解能力和增强与物理世界交互方面的一些初步研究和探索。这些探索包括像素级别理解的大语言模型,以及利用大语言模型改造视频生成创作流程的尝试。虽然这些研究目前还处于初级阶段,但我们将继续迭代和优化模型。

我们接下来关注的问题之一是构建一个统一的理解和生成模型,模仿语言模型的统一架构。在理解方面,我们已经取得了一定的进展,生成方面也是如此。但如何将理解和生成统一起来,尤其是在不同粒度和语义级别的特征融合与模型复用方面,仍是一个重要问题。

完成这些研究后,我们的目标是实现语言模型和视觉理解或生成模型的充分融合,创建一个真正具备原生多模态能力的模型。这样的模型将能够与物理世界进行交互,并通过与环境的互动不断学习和迭代自身能力。

目前,语言模型在语言能力上可能已超过普通人,因为它们的阅读量远超人类。但在物理世界的学习效率上,例如识别物体或学习某些操作,这些模型仍然依赖于大量训练数据,而不是像人类那样学习。因此,开发更高效、更类似人类的智能学习方法,充分利用大语言模型已经从文本中学到的物理世界知识,提高对现实世界任务的学习效率,并增强交互的可靠性,将是未来计算机视觉领域研究的重点,也是我们特别关注的研究方向。

演讲嘉宾介绍

冯佳时,字节跳动研究科学家,现任字节跳动豆包大模型视觉基础研究团队负责人。曾任新加坡国立大学电子与计算机工程系助理教授,机器学习与视觉实验室负责人。研究方向包括深度学习与计算机视觉。目前主要研究多模态基础模型、生成模型、3D 建模。曾获得麻省理工科技评论 35 岁以下创新者(亚洲),ACM MM 最佳学生论文奖,ICCV TASK-CV 讨论会最佳论文奖,CVPR2021 最佳论文奖提名。曾担任 CVPR、ICML、ICLR、NeurIPS 等会议的领域主席。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/142996.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

单例模式(饿汉式-懒汉式)

我给面试官讲解了单例模式后,他对我竖起了大拇指!https://blog.csdn.net/weixin_41949328/article/details/107296517?ops_request_misc%257B%2522request%255Fid%2522%253A%2522FAEE9ABD-432D-416C-98C6-9DD939138DEB%2522%252C%2522scm%2522%253A%252…

HTML中的文字/分区标记/特殊符号

1.font标记&#xff1a;用来设置文字的字体&#xff0c;大小&#xff0c;颜色&#xff0c;等属性 <!--font:font标记用来设置字体大小颜色属性size:设置字号&#xff0c;默认是3号&#xff0c;1表示4号&#xff0c;-1表示2号&#xff0c;取值范围是[1,7]或[-7,-1]color:设置…

【Manim】用manim描述二次曲面——上

二次曲面是可以化为一般形式的任意方程的图形 这里面A,...,J是常数。我们不可能把它们都列出来&#xff0c;但是有一些标准方程所以这里是一些更常见的二次曲面的列表。 1. 椭球体 这是椭球体的一般方程。。 这是一个典型椭球体的草图。 接下来我们用Manim实现该椭球体的绘制…

【CanMV K230 AI视觉】 人脸识别

【CanMV K230 AI视觉】 人脸识别 人脸识别 动态测试效果可以去下面网站自己看。&#xff09; B站视频链接&#xff1a;已做成合集 抖音链接&#xff1a;已做成合集 人脸识别 前面学习过的人脸检测&#xff0c;只检测出人脸&#xff0c;而本实验要做的人脸识别&#xff0c;会学…

嵌入式人工智能项目及人工智能应用项目——大合集列表查阅

本文的项目合集列表可能更新不及时&#xff08;会及时更新&#xff09;&#xff0c;可查阅实时更新的链接如下。 嵌入式人工智能及人工智能应用项目合集实时更新链接如下&#xff1a; 阿齐嵌入式人工智能及人工智能应用项目合集 (kdocs.cn)https://www.kdocs.cn/l/cc97tuieys4…

Python urllib

Python urllib 库用于操作网页 URL&#xff0c;并对网页的内容进行抓取处理。 本文主要介绍 Python3 的 urllib。 urllib 包 包含以下几个模块&#xff1a; urllib.request - 打开和读取 URL。urllib.error - 包含 urllib.request 抛出的异常。urllib.parse - 解析 URL。url…

心觉:不能成事的根本原因

很多人一直都很努力&#xff0c;每天都很忙 每天都学习很多东西&#xff0c;学习各种道&#xff0c;各种方法论 但是许多年过去了依然一事无成 自己的目标没有达成&#xff0c;梦想没有实现 为什么呢 关键是没有开悟 那么什么是开悟呢 现在很多人都在讲开悟 貌似开悟很…

回收站永久删除的文件还能恢复吗?教你恢复技巧

在数字时代&#xff0c;电脑是我们工作、学习和娱乐的重要工具。然而&#xff0c;随着我们对电脑的频繁使用&#xff0c;误删文件的情况也时有发生。当我们在回收站中不小心永久删除了某个重要文件时&#xff0c;内心可能会充满焦虑和疑惑&#xff1a;这些文件还能恢复吗&#…

基于springboot+vue实现的智能垃圾分类系统 (源码+L文+ppt)4-063

摘 要 本论文主要完成不同用户的权限划分&#xff0c;不同用户具有不同权限的操作功能&#xff0c;系统包括用户、物业和管理员模块&#xff0c;主要功能有用户、物业、垃圾站点、垃圾投放、验收信息、积分商城、积分充值、通知物业等管理操作。 关键词&#xff1a;智能垃圾…

【LLM】中国在 GPT/LLM 大模型上是否已经实现了弯道超车?

还是谈一下现状吧。中国的大模型公司与美国的大模型公司其实在数量上可能中国更多一些吧。 美国的 OpenAI&#xff1a;No.1&#xff0c;毫无疑问&#xff01;Google&#xff1a;尽管落了&#xff0c;但是依然是全球第二的实力吧&#xff1f;Meta&#xff1a;开源全靠它家的Ll…

【代码随想录训练营第42期 Day60打卡 - 图论Part10 - Bellman_ford算法系列运用

目录 一、Bellman_ford算法的应用 二、题目与题解 题目一&#xff1a;卡码网 94. 城市间货物运输 I 题目链接 题解&#xff1a;队列优化Bellman-Ford算法&#xff08;SPFA&#xff09; 题目二&#xff1a;卡码网 95. 城市间货物运输 II 题目链接 题解&#xff1a; 队列优…

Untangle电脑上网行为管理软件有哪些?(一口气看完,第一款建议收藏!)

控制上网的软件通常被称为上网行为管理软件或上网行为监控软件。 这类软件主要用于管理网络用户的上网行为&#xff0c;帮助企业或组织提升网络使用效率和工作效率&#xff0c;同时最大限度地避免不当上网行为带来的潜在风险和损失。 以下是一些值得推荐的电脑上网行为管理软件…

【C++】——继承与虚继承

文章目录 继承继承的概念继承的定义继承类模版基类与派生类的赋值转换继承的作用域派生类的默认成员函数构造函数与析构函数拷贝构造 不能被继承的类继承与友元继承与静态成员多继承与菱形继承 虚继承继承与组合 继承 什么是继承&#xff1f; 继承其实就是胆码复用的一种手段&…

江科大笔记—OLED显示屏

OLED显示屏 OLED的GND接到负极&#xff0c;OLED的VCC接正极&#xff0c;同时也会接到stm32上的PB6和PB7 SCL接PB8 SDA接PB9 在Hardware文件夹里面放3个文件&#xff1a;OLED.c、OLED.h、OLED_Font.h OLED_Font.h:存的是OLED的字库数据&#xff0c;因OLED是不带字库的&#xf…

APP测试--含【学车不】项目实战

本文参考黑马程序员以下课程; 1-002-App应用架构_哔哩哔哩_bilibili 1. APP环境 1.1 app应用系统架构 json是一种轻量级的数据交换格式&#xff0c;采用完全独立于编程语言的文本格式来储存和表示数据 1.2 app 后台开发测试环境 预发布环境&#xff1a; 使用后端的测试代码&a…

Meta-Learning数学原理

文章目录 什么是元学习元学习的目标元学习的类型数学推导1. 传统机器学习的数学表述2. 元学习的基本思想3. MAML 算法推导3.1 元任务设置3.2 内层优化&#xff1a;任务级别学习3.3 外层优化&#xff1a;元级别学习3.4 元梯度计算3.5 最终更新规则 4. 算法合并5. 理解 MAML 的优…

钢索缺陷检测系统源码分享

钢索缺陷检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vis…

在线制作PPT组织架构图!这个AI工具简单又好用!

ppt组织架构图如何制作&#xff0c;用哪个软件好&#xff1f; 在现代商业世界中&#xff0c;组织架构图是展示公司结构和层级关系的重要工具&#xff0c;譬如内部沟通或者对外展示等场合下&#xff0c;一个精美且清晰的组织架构图都能有效传达信息&#xff0c;提升企业形象。 …

高精度加法和减法

高精度加法 在C/C中&#xff0c;我们经常会碰到限定数据范围的情况&#xff0c;我们先来看看常用的int和long long两种数据类型的范围吧。 C标准规定&#xff1a;int占一个机器字长。在32位系统中int占32位&#xff0c;即4个字节&#xff0c;所以int的范围是[-2的31次方&#…

独立站技能树之建站33项自检清单 1.0丨出海笔记

很多时候大家建好站之后很嗨&#xff0c;但过一会就开始担忧各种纠结我是不是还有什么点没做好&#xff0c;或者我的站漏了什么东西&#xff0c;那么接下来以下这个独立站自检清单能很好的帮到你。其实对于新手我还是建议大家直接用一些模板&#xff0c;因为模板上面基本该有的…