多模态PaliGemma——Google推出的基于SigLIP和Gemma的视觉语言模型

前言

本文怎么来的呢?其实很简单,源于上一篇文章《π0——用于通用机器人控制的流匹配VLA模型:一套框架控制7种机械臂(改造了PaliGemma和ACT的3B模型)》中的π0用到了PaliGemma

故本文便来解读下这个PaliGemma

第一部分 PaliGemma

1.1 PaliGemma:基于 SigLIP--So400m 和 Gemma-2B

1.1.1 PaliGemma的发展历史

PaliGemma 是一个开放的视觉语言模型(VLM),基于 SigLIP--So400m 视觉编码器和 Gemma-2B 语言模型

其结合了PaLI视觉语言模型和Gemma语言模型家族的特点

  1. PaLI是一系列最先进的视觉-语言模型,最初的PaLI [23-PaLI:A jointly-scaled multilingual languageimage model]展示了有前景的扩展结果,规模达到了170亿,使用了分类预训练的ViT [131]和mT5 [126]语言模型

    随后,PaLI-X [24-PaLI-X: On scaling up a multilingual vision and language model]和PaLM-E [36- PaLM-E: An embodied multimodal language model]进一步推进了这一点,分别结合了ViT-22 B [29],和32 BUL2 [104]语言模型或540 B PaLM [28]语言模型,并在视觉-语言任务上获得了更高的性能,尽管在标准图像分类和检索任务上的性能趋于饱和

    最后,PaLI-3 [25- PaLI-3 vision language models: Smaller, faster, stronger]证明,通过使用SigLIP [133- Sigmoid loss for language image pre-training]进行更好的预训练和更仔细的多模态数据策划,一个2B视觉和3B语言模型(即一个5B视觉-语言模型)可以在大多数基准测试中,与规模大10倍的55B PaLI-X(22B视觉 + 32B语言)、和规模大100倍的562B PaLM-E(22B视觉 + 540B语言)相匹敌
  2. PaliGemma 延续了这一趋势,将 400M SigLIP 和 2B Gemma 模型 [82] 结合成一个小于 3 B 的 VLM,同时仍然保持与 PaLI-X、PaLM-E 和 PaLI-3 相当的性能

    至于Gemma [82],则是一个自回归解码器专用的开放大型语言模型家族,基于用于创建Gemini [7] 模型的相同研究和技术构建。这些模型有不同的大小(2B、7B),都经过预训练和指令微调,而PaliGemma使用了2B预训练版本「关于gemma的介绍,请见此文:一文速览Gemma1和2及其微调(第5.2版):通过我司七月的早期paper-7方面review数据集微调Gemma2

1.1.2 PaliGemma的三个组件:SigLIP、gemma-2B、线性层

 总之,PaliGemma由三个组件组成

  1. 一个图像编码器,使用SigLIP,其shape optimized ViT-So400m图像编码器,该模型通过sigmoid损失在大规模上进行了对比预训练,且其在小尺寸上也表现出色
  2. 一个仅解码器的语言模型,使用gemma-2B v1.0,该模型可以匹配或超越使用相对更大些的语言模型的VLMs的性能,包括之前的PaLIs
  3. 一个线性层,将SigLIP的输出投影到与gemma-2B的词汇token相同的维度,以便它们可以被连接「其实PaliGemma的作者也不是没考虑别的选择,而是在他们的早期实验中,他们发现更复杂的替代方案——MLPs,并没有提供明显的优势,因此决定使用最简单的选项

具体训练时

  •  图像通过图像编码器传递,将其转换为一系列N_{\mathrm{img}} token,且图像token通过(零初始化的)线性投影进行投影
    文本使用Gemma的SentencePiece [58] 分词器转换为N_{\mathrm{txt}} token,并嵌入到Gemma的词汇嵌入层中
  • 然后,解码器的输入token序列按如下方式创建,如下图图2所示「一般而言,输入为一张或多张图像,以及任务的文本描述(提示或问题,通常称之为 prefix),PaliGemma 然后以文本字符串的形式自回归生成预测(答案,通常称之为 suffix)」,其在图像和前缀中进行块注意,在后缀上进行自回归注意,每个方块表示该行是否可以关注该列

    ​即有

      \begin{aligned} \text { tokens }= & \text { [image tokens..., } \\ & \text { BOS, prefix tokens..., SEP, } \\ & \text { suffix tokens..., EOS, PAD...] } \end{aligned}

    可以发现,过程中,一般始终将图像调整为固定的正方形大小(224、4488或896像素)。这导致每个模型变体的图像token数量固定(分别为256、1024或4096个token),且将其放在前面,使图像token易于解释,无需特殊位置token

    然后BOS标记标记文本token的开始。作者使用 \n作为SEP标记,它不会出现在任何前缀中。且还将SEP单独标记,以避免它与前缀的结尾或后缀的开头合并(由标记器)

    另为了最大化这样一个小模型的模型容量,对整个输入有完整的(未mask的)注意力,包括图像和前缀token「In order to maximize model capacity for such a small model, we have full (unmasked) attention on the whole input, i.e. the image and prefix tokens.说白了,就是图像token可以看到整个输入:图像token和前缀token,而前缀token也可以看到整个输入:图像token和前缀token
    \rightarrow  通过这种方式,图像token也可以“前瞻”手头的任务(前缀),以更新其表示
    \rightarrow  后缀是输出,必须由自回归掩码覆盖,包括PAD token
    当提到序列长度(N_{\mathrm{txt}})时,通常指的是前缀和后缀的组合,忽略图像token

1.2 预训练:先后进行单模态预训练、多模态预训练、分辨率增加、迁移

PaliGemma的训练遵循与之前的PaLI模型相同的步骤,仅进行了小的修改。训练包括以下几个阶段

1.2.1 阶段0: 单模态预训练

首先,模型的单模态组件单独进行预训练,以便从其经过充分研究和扩展的训练方案中受益。对于PaliGemma,没有进行任何自定义的单模态预训练,而是依赖于现有的公开可用的检查点

根据PaLI-3的强实验结果,Google使用SigLIP图像编码器。虽然PaLI-3(和其他[6,26])使用大
型图像模型如ViT-G,但PaliGemma使用了更小但同样强大的“形状优化”ViT-So400m模型

至于语言模型上,则使用gemma-2B

1.2.2 阶段1:多模态预训练

一般而言,也是之前的PaLI版本所遵循的,是在第一个多模态预训练阶段保持图像编码器冻结。这部分是由于LiT [132]中的研究发现,多模态调优预训练图像编码器会降低其表示能力

  1. 然而,最近的研究如CapPa [110]和LocCa [115]表明,字幕生成和其他难以学习的任务可以为图像编码器提供有价值的信号,使其能够学习空间和关系理解能力,而对比模型如CLIP或SigLIP通常缺乏这些能力
    因此,为了在预训练期间学习更多技能,作者打破常规,不冻结图像编码器。然而,LiT中概述的挑战依然存在
  2. 且为了避免来自最初未对齐的语言模型的破坏性监督信号,作者对图像编码器的学习率采用缓慢的线性预热(如下图图3所示),以确保图像编码器的质量不因最初未对齐的梯度通过LLM而恶化

  3. 总之,在分辨率224px下训练Stage1(因此,img = 256个图像标记)和序列长度25txt = 128,总共训练10亿个样本。虽然作者提供了一个消融实验,显示即使Stage1缩短10到30倍,仍然在流行的基准测试中提供了良好的结果,但作者希望尽可能多地将视觉知识灌输到基础模型中,并涵盖广泛的概念、文化和语言 [17 37 68, 85,92 93 136]

1.2.3 阶段2:分辨率增加

阶段1产生的模型已经是许多任务的有用基础模型(参见附录B中的示例图像)。然而,它只能理解224 × 224像素分辨率的图像,这对于某些任务来说太小了

  1. 例如,较小物体的检测和分割,以及与阅读较小文本相关的任务,如图表、信息图或文档,都非常受益于更高的分辨率(参见表1)
  2. 因此,作者训练了两个进一步的模型检查点以提高分辨率,首先是448 × 448,然后是896 × 896像素分辨率
    由于阶段1已经为模型提供了广泛的知识和技能,阶段2可以专注于扩展模型解析高分辨率图像的能力
    因此,作者在阶段2中使用较少的总示例,同时增加每个示例的成本和信息密度
    对于448分辨率,额外训练了5000万示例
    而对于896分辨率,又增加了1000万示例
  3. 为简单起见,阶段2由与阶段1完全相同的任务和数据集组成,但显著增加了对需要高分辨率的任务的采样。此外,这些加权任务都可以被修改以提供更长的后缀序列长度

    例如,对于CR任务,可以简单地请求模型以从左到右、从上到下的顺序读取图像上的所有文本
    对于检测和分割任务,可以请求模型检测或分割所有提供了注释的对象
    因此,我们还将文本序列长度增加到N_{\mathrm{txt}}=512个token

虽然PaLI一直有这个分辨率增加阶段,并且对于图像分类,分辨率的重要性早已为人所知[55, 109],但最近的几项工作[81,114,121]也提高了分辨率在VLMs中的重要性

1.2.4 阶段3:迁移(本质是微调)

阶段1和阶段2的结果是一系列三个PaliGemma检查点,分辨率为224px、448px和896px,预先配备了广泛的视觉知识

然而,这些检查点并不是“用户(或基准)友好”的,因为它们的预训练仅专注于学习信号的密度,而不是可用的界面

这些基础模型需要被迁移以实现其预期的最终目的。这可能采取在特定、专业化任务上进行微调的形式,例如COCO Captions、遥感VQA、视频字幕或InfographicQA,以适应新的输入,例如多张图像(NLVR2)或在图像中绘制的边界框(WidgetCap)。或者,它可以采取指令[70]甚至聊天[46]调优的形式

  • 为了展示基础模型的有效性,作者将它们迁移到广泛的单个学术基准上,使用一个简单统一的迁移方案,只有少量的超参数
  • 为了展示超越学术任务的多功能性,作者还提供了一个“混合”迁移检查点,同时迁移到这些任务的一个子集,并附有详细的字幕和长问答数据。虽然这不是指令微调,但这是朝着这个方向迈出的一步
  • 作者还将PaliGemma迁移到需要多张图像作为输入的任务中。NLVR2就是这样一个任务,它要求对两张图像提出一个问题,并需要查看两者以给出正确答案。其他此类任务是标准的短视频理解任务,抽样到16帧

在所有上面这些情况下,作者遵循PaLI-3的做法,分别编码每张图像,然后连接图像token,而不使用任何特殊分隔符或嵌入token

因此,224px分辨率下的16帧导致N_{\text {img }}=4096个图像token,与986px分辨率下的单个图像数量相同

对于所有迁移,作者对所有模型参数进行微调,且作者根据任务修改的超参数如下,按重要递减排序

  • 分辨率(即.检查点): 224,448, 896
  • 周期:1,3,10,30,100
  • 学习率:3e-5, 1e-5, 3e-6
  • 标签平滑:0.0,0.1,0.3
  • LLM中的丢奔:0.0,0.1,0.3
  • 权重衰减:0.0或 0.1x学习率
  • 冻结ViT: false, true
  • Beam-search可能有利于字幕生成

1.2.5 预训练任务组合

就像之前的PaLI模型一样,预训练(阶段1和阶段2)的设计目的是为了得到一个迁移效果好的模型,而不一定是一个可以直接使用的模型(“0 shot”)

这里的直觉是作者希望任务的混合能迫使模型获得广泛的“技能”范围。故为每个任务加上其
独特的前缀,以避免跨技能的学习信号冲突 [14]

在迁移阶段(阶段3),模型只需识别出对任务有用的技能,并重新调整自身以使用该技能,同时遵循任务的输出语法和词汇。根据作者的经验,这些都可以相对快速地完成,并且基于少量示例(原论文第6.3节)

至于在预训练期间不使用任何迁移数据集,并且从预训练数据集中,进一步移除所有与其图像近似重复的内容「We do not use any of our transfer datasets during pretraining, and furthermore remove all near-duplicates of their images from the pretraining datasets [55]

大体上遵循之前的PaLI工作,这些是预训练
任务:

  1. caption {lang}
    作者在各种数据集上包括简单的字幕目标,包括超过100种语言的WebII和CC3M-3510 之前的PaLI使用带有Split-Cap目标的编码器-解码器语言模型
    然而对于PaliGemma,使用仅解码器语言模型,简单的字幕是一个更具信息性和更简单的目标
  2. ocr
    通过公共OCR系统转录的图像上所有文本的(按光栅顺序)连接。可能会跳过OCR的随机片段,以便在不偏向光栅顺序开头的情况下适应序列长度
  3. 回答en {question}
    在CC3M-35L上生成的VQA,遵循[19],问题使用35种语言,但答案为英语
    此外,在OpenImages上生成的仅限英语的以对象为中心的问题,遵循[91]:
    listing: What objects are in the image?,
    presence: Is {thing} in the image?,
    multi-object presence: Which of {thing},{thing}... are in the image?,
    and newly, counting: How many {thing}?.
  4. 问题 {lang] {English answer}
    在CC3M-35L上生成的VQG,遵循[19],为给定的英语答案生成35种语言的问题
  5. 检测 {thing} ; {thing} ; ...
    类似于 Pix2Seq [22] 的多目标检测,通过伪标签在生成的开放世界数据上进行,如OWI-ViTv2[83] 中所述
  6. 分割 {thing} ; {thing} ; ...
    在生成的开放世界数据上进行多目标实例分割,类似于 OWL-ViTv2 [83] 和 SAM [54]
  7. 描述 <ymin><xmin><ymax><xmax>
    根据 LocCa [115],对框内内容进行定位描述。框由检测和分割中使用的相同位置标记指示:
    归一化的图像坐标被分为1024个token

以下是其他的预训练细节

  1. 在整个预训练过程中,我们使用“无限”学习率计划,遵循(131],这提供了一种简单的方法来连接多个阶段,而不在它们之间衰减学习率。
    图3显示了完整的计划:预训练是一个连续的rsqrt曲线,适用于所有阶
    段。然后,迁移可以作为冷却期,完全退火学习率。作者建议使用简单的设置进行迁移,采用余弦学习率调度,短线性预热并衰减至零,调整整个模型。
    由于持续时间相对较短,图3未能很好地表示这一点
  2. 该模型完全在开源 big_vision代码库[12]上的 Cloud TPUv5e [38] 中训练。然而,一些预训练数据集仍然是私有的。在训练过程中,作者使用 JAX [16] 和 GSPMD [125],以 zero-DP风格[96] 在所有可用设备上划分数据、模型参数和优化器状态

    这种完全分片的数据并行 (FSDP [137]) 分片策略是通过构建全局数组并相应地注释分片来实现的,XLA编译器[97] 负责计算的具体实现以及设备之间的通信

    且他们测量了模型的FLOPS利用率(MFU)为55%,每秒每个设备处理5189个tokens。模型参数和优化器状态保持在float 32,以保证训练的稳定性,但还验证了推理在bfloat11模型参数下同样有效
  3. 使用TPUv5e-255进行最终PaliGemma模型的一次训练运行,Stage1耗时略少于3天,每个Stage1耗时15小时。Stage1处理略少于350 B个tokens,两个Stage合计约90 B个tokens。在TPUv3-32上,迁移根据任务不同耗时在20分钟到10小时之间

    为了避免模型对不同框架中不同图像处理细节的脆弱性,作者随机化图像预处理细节,如调整大小方法、JPEG编码,并应用非常轻微的inception_crop

第二部分 关于PaliGemma的一系列消融实验

2.1 多模态预训练时长

对于PaliGemma这个多模态预训练 (Stage1)而言, 其到10亿个示例,属于较长的一类,类似于BLIP-2 [62]、InterVL [26]、QwenvL. [10]、Idefics2 [59〕 (都在10亿左右),但不同于ShareGPT4-v [21]、Mini-Gemini [65]、LLava [70]及其衍生物(约100万)

且作者进行了各种较短的预训练持续时间,甚至完全跳过Stage1,并在下图图4中显示影响,在附录K.1中对各个任务进行了完整的细分

对于跳过Stage1的情况,作者在为每个任务扫过三个学习率时使用最佳迁移结果

结果表明,较短的训练通常会带来不利影响,而完全跳过Stage1是最糟糕的设置。一些任
务受到显著影响,而其他任务仅略有恶化,这突显了需要一套广泛而多样的评估任务

100M的预训练持续时间似乎是消融实验的一个良好折衷:它缩短了10倍,同时没有显著损害任何任务

2.2 因果遮蔽和学习目标

作者在下图图5中对预训练学习目标的几个关键选择进行了消融,原论文附录K.2中有完整的每任务细分

  1. 首先,研究了自回归遮蔽的设计选择。PaliGemma 使用了一种前缀-LM策略,该策略允许对数据的“输入”部分进行完整(双向)注意,即图像前缀token,另见图2

    其动机是,它允许更多的token从一开始就积极参与“思考”过程,因为图像token现在可以关注代表查询的前缀token

    这在图5(左)中得到实证确认,其中绿色条还包括对前缀token的自回归掩码where the
    green bars also include the auto-regressive masking on the prefix tokens,

    橙色条进一步将自回归掩码扩展到图像token。两组条形图都有效,但表现明显不如由蓝色条表示的 PaliGemma 的前缀-LM 设置

    其次,作者仅对后缀(输出)应用下一个token预测损失。原则上,一旦前缀token被自回归地掩盖,它也可以应用于这些标记。这可以通过要求模型“猜测问题”来提供更多的学习信号。再次,图5显示,虽然这样做有效,但显然降低了平均性能

2.3 冻结还是不冻结?答案是不冻结更好

当前在VLMs中的普遍观点[23-25,45,52,60,62,66,70]是保持图像编码器,有时在多模态预训练(比如Stage1)期间保持LLM冻结

然而,受到GapPa[1101和LocCa[115]的积极结果的启发,这些结果表明使用字幕目标预训练图像编码器基本上解決了对比的盲点[43〕,即关系和定位,作者在预训练PaliGemma时没有冻结任何部分

作者现在在下图图7中消融冻结或调整模型各部分在Stage1期问的效果,完整的每任务细分在附录K.3中。与同时进行的工作类似[81,107],发现不冻结任何部分模型的确是有利的

  1. 首先,迁移后,保持图像编码器冻结(左,TT和TF)没有区别。然而,要求空间理解的任务的验证困惑度(因此,可预测性)(右,绿色)显著提高
  2. 此外,实验显示,所有其他包括冻结语言模型的选项 [111] 都显著更差
  3. 最后,重置(和训练,R)模型的任何部分会严重损害性能,证实了阶段0(即利用预训练组件)对于获得良好结果确实至关重要

2.4 PaliGemma三大组件中连接器的设计

在上文1.1.2节中,我们已经知道,PaliGemma最终使用线性连接器将SigLiP输出嵌入映射到Gemma的输入

而为何选择线性连接器,有没有考虑过其他的连接器呢?

作者还真考虑过,比如对MLP连接器 [69] 便是VLM文献中的热门选择,作者特此对此选择进行了消融

  1. 他们考虑了两种连接器选择:线性连接器和MLP(1个隐藏层,带有GeLU非线性)
  2. 且还考虑了两种Stage1预训练设置:调整所有权重(TT),或冻结除连接器之外的所有内容(FF)
  3. 在调整所有权重时,线性与MLP的平均迁移分数几乎相同,分别达到77.2和77.1分
    在“全冻结”场景中,线性与MLP分别达到70.7和69.7
    令人惊讶的是,作者观察到MLP连接器的性能略有下降

总体而言,他们得出结论,在他们的案例中,线性连接器似乎比MLP连接器更可取

2.5 图像编码器:有或没有?

大多数VLM遵循的设置是拥有一个图像编码器,例如CLIP SigLI(大多数工作)或VOCAN
Chameleon系列工作[2,3,105, 1291),以便在将图像传递给IIM之前将其转换为软标记

作者在论文中说,他们只知道两个工作尝试通过完全移除图像编码器并将原始图像补丁传递给仅解码器的LLM来简化这一整体设置,即Fuyu [11]和EVE [34]

不幸的是,前者没有提供训练细节或消融实验。后者是一个同时进行的工作,提供了一些关于训
练和各种消融实验的细节,但结果好坏参半。

在PaliGemma中移除SigLIP编码器会导致模型成为相同的统一解码器架构,既然想到了,那就试一下呗?故移除下SigLIP编码器之后运行Stage1和迁移

由于架构发生了显著变化,作者还重新调整了Stage1的学习率

下图图8(每个任务的细分见附录K.4) 显示,虽然这种架构仍然显著落后,但随着预训练时间的增加,扩展性似乎具有潜在的前景

且特别值得注意的是,PaliGemma的SigLIP编码器在其Stage 0预训练期间已经看到了400亿对图像-文本对,而Fuyu风格模型在这里展示的Stage1预训练中首次看到图像,并且在作者的实验中最多只看到10亿对

这种消融研究证实,这种仅解码器的VLM可能是朝向更简单的多模态模型的一个有前途的末来方向,尽管由于无法重用视觉组件,它们目前在训练效率上仍然存在问题

// 待更

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/4017.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

微服务day03

导入黑马商城项目 创建Mysql服务 由于已有相关项目则要关闭DockerComponent中的已开启的项目 [rootserver02 ~]# docker compose down WARN[0000] /root/docker-compose.yml: version is obsolete [] Running 4/4✔ Container nginx Removed …

IAPP仿源码大师主界面UI

仿源码大师首页主界面的布局 首页&#xff0c;分类&#xff0c;需求&#xff0c;我的 就只有这几个界面内容而已 资源静态 没有任何动画和功能 纯UI布局 纯UI布局 https://pan.baidu.com/s/1Hc5nWQCZ_ckQlXXV82OYpA?pwd7826 https://caiyun.139.com/m/i?2i2MoYbkdze41 来源…

mmpretrainmmdetection环境配置

mmpretrain&mmdetection环境配置 适用于cuda11.3torch12.1的mmpretrain&mmdetection环境配置&#xff1a; 第一步&#xff1a;根据官网说明&#xff0c;找到对应cuda版本的torch&#xff0c;安装好torch&#xff1a; pip install torch1.12.1cu113 torchvision0.13.…

【数据湖及大数据方案】数据湖建设方案|数据源|数据流|元数据|数据仓库|指标池|数据清洗

建设大数据湖一体化平台旨在应对数据分散、管理混乱及利用低效等挑战。通过集中存储与管理跨平台数据&#xff0c;打破信息孤岛&#xff0c;实现数据资产的高效整合与利用。该平台强化数据标准、质量控制、开发运维及安全保障&#xff0c;提升数据治理成熟度。此外&#xff0c;…

搭建企业私有云 只需一台设备 融合计算、存储与K8s

Infortrend老牌存储厂商推出 KS 企业私有云产品&#xff0c;将计算节点、存储与Kubernetes整合在一套系统中&#xff0c;为企业提供高效稳定的专属本地私有云平台。 KS 同时内置 Kubernetes 平台和虚拟机管理程序&#xff0c;既能运行云原生容器化应用程序&#xff0c;例如大数…

[Redis] Redis主从复制模式

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏: &#x1f9ca; Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 &#x1f355; Collection与…

计算机毕业设计Hadoop+PySpark深度学习游戏推荐系统 游戏可视化 游戏数据分析 游戏爬虫 Scrapy 机器学习 人工智能 大数据毕设

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 作者简介&#xff1a;Java领…

iOS SmartCodable 替换 HandyJSON 适配记录

前言 HandyJSON群里说建议不要再使用HandyJSON&#xff0c;我最终选择了SmartCodable 来替换&#xff0c;原因如下&#xff1a; 首先按照 SmartCodable 官方教程替换 大概要替换的内容如图&#xff1a; 详细的替换教程请前往&#xff1a;使用SmartCodable 平替 HandyJSON …

16、论文阅读:Mamba YOLO:用于目标检测的基于 SSM 的 YOLO

Mamba YOLO: SSMs-Based YOLO For Object Detection 总结前言感受野为什么Transformer 的结构被引入&#xff0c;显著扩展了模型的感受野&#xff1f;状态空间模型SSM 介绍相关工作实时目标检测端到端目标检测器视觉状态空间模型 方法预处理整体架构ODSS BlockLocalSpatial Blo…

微信小程序 uniapp+vue老年人身体监测系统 acyux

文章目录 项目介绍具体实现截图技术介绍mvc设计模式小程序框架以及目录结构介绍错误处理和异常处理java类核心代码部分展示详细视频演示源码获取 项目介绍 过此方式促进老年人辅助程序信息流动和数据传输效率&#xff0c;提供一个内容丰富、功能多样、易于操作的老年人辅助程序…

Intellij IDE报错:[Information:java:javacTask:源发行版8需要目标发行版1.8]

Intellij IDE报错:[Information:java:javacTask:源发行版8需要目标发行版1.8] 处理方法 File->Settings->Build,execution,Deployment->Compiler->Java Compiler 进入该目录下&#xff0c;修改Per-module bytecode version&#xff0c;将该项目修改为8 合理的创…

Pr 沉浸式视频 - 自动 VR 属性

自动 VR 属性 Auto VR Properties是所有 VR 视频效果和视频过渡效果的通用选项。 默认勾选。此选项使效果自动适应 VR 素材的属性&#xff0c;确保在 360 全景环境中无缝显示。 当处理 VR/360 素材时&#xff0c;保持勾选以避免接缝。 当处理非 VR 素材或需要手动设置 VR 属性时…

[项目] C++基于多设计模式下的同步异步日志系统

[项目] C基于多设计模式下的同步&异步日志系统 文章目录 [项目] C基于多设计模式下的同步&异步日志系统日志系统1、项目介绍2、开发环境3、核心技术4、日志系统介绍4.1 日志系统的价值4.2 日志系统技术实现4.2.1 同步写日志4.2.2 异步写日志 5、相关技术知识5.1 不定参…

ubuntu下使用pocketsphinx进行语音识别

文章目录 前言一、pocketsphinx的介绍二、ubuntu下编译三、使用示例1.模型选择2.代码示例3.自定义字典 四、交叉编译总结 前言 由于工作需要语音识别的功能&#xff0c;环境是在linux arm版上&#xff0c;所以想先在ubuntu上跑起来看一看&#xff0c;就找了一下语音识别的开源…

C语言原码、反码和补码的详解

C语言原码、反码和补码的详解 放在最前面的1、前言正数的原码、反码和补码负数的原码、反码和补码 2、整数的原码&#xff08;2.1&#xff09;原码的定义&#xff08;2.2&#xff09;计算原码 3、整数的反码&#xff08;3.1&#xff09;反码的定义&#xff08;3.2&#xff09;计…

知识课堂——高匿ip在不同业务中的重要作用

大家好&#xff01;今天我们来看看高匿ip在不同业务中都能起到什么样的重要作用。第一个会用到的地方就是网络数据采集&#xff0c;也被称为网络爬虫&#xff0c;在是许多企业和机构获取大量数据的重要手段。例如市场调研公司帮助企业制定市场策略就需要收集各个行业的产品价格…

【青牛科技】GC8548替代LV8548/ONSEMI在摇头机、舞台灯、打印机和白色家电等产品上的应用分析

引言 在现代电子设备中&#xff0c;控制芯片的选择对产品的性能和可靠性至关重要。摇头机、舞台灯、打印机和白色家电等领域对芯片的要求日益增加&#xff0c;传统上多采用LV8548/ONSEMI等国际品牌的芯片。然而&#xff0c;随着国内半导体技术的不断进步&#xff0c;芯麦GC854…

【C/C++】字符/字符串函数(0)——由ctype.h提供

零.导言 众所周知&#xff0c;C语言的字符有许多不同的类型&#xff0c;如&#xff1a;数字&#xff0c;字母&#xff0c;标点符号等等等等。 今天&#xff0c;我就给大家讲解一下用于实现字符分类的函数——字符分类函数。 一.什么是字符分类函数&#xff1f; 即实现字符分类的…

专业网页设计服务重要是什么

当在搜索引擎中键入“网页设计”&#xff0c;您将获得超过2000万个相关结果。在如此众多的网站制作公司中&#xff0c;应该如何做出明智的选择呢&#xff1f;首先&#xff0c;让我们深入探讨一下网页设计的重要性。网站设计需要综合各种不同领域的专业知识&#xff0c;它是一个…

【CanMV K230】windows部署AICube,训练模型

【CanMV K230】windows部署AICube&#xff0c;训练模型 dotnet sdk的下载链接配置环境 AI_Cube安装训练AI_Cube安装模型训练 在开发板上运行模型 B站视频链接&#xff1a;《K230 实战》windows系统下使用AI_Cube,训练模型 AI Cube 是由嘉楠科技开发的一款通用视觉 AI 计算平台&…