Llama 3.1 技术研究报告-4

五、结果

我们对Llama 3进⾏了⼴泛的系列评估,研究了以下⽅⾯的性能:(1) 预训练语⾔模型,(2) 后训练语⾔模型,以及 (3) Llama 3的安全特性。我们在下⾯的各个⼩节中分别呈现这些评估的结果。

5.1 预训练语⾔模型

在本节中,我们报告了我们预训练的Llama 3(第3节)的评估结果,并将其与各种其他类似规模的模型进⾏了⽐较。我们尽可能地复制了竞争对⼿模型的结果。对于⾮Llama模型,我们报告了公开报告的最佳分数,或者(在可能的情况下)我们⾃⼰复制的结果。这些评估的具体情况,包括配置(如样本数量、指标)以及其他相关的超参数和设置,可以在我们这⾥的Github仓库中访问。此外,我们正在发布作为评估⼀部分⽣成的数据,并与公开可⽤的基准进⾏⽐较,这些可以在Huggingface这⾥找到。我们根据标准基准评估我们的模型质量:

(5.1.1) 标准基准,(5.1.2) 对多项选择题设置变化的鲁棒性,以及 (5.1.3) 对抗性评估。我们还进⾏了污染分析,以估计我们的评估在多⼤程度上受到训练数据污染的影响(第5.1.4节)

5.1.1 标准基准

为了将我们的模型与当前的最先进技术进⾏⽐较,我们在表8中显⽰的⼤量标准基准评估上评估了Llama 3。这些评估涵盖了⼋个顶级类别:(1) 常识推理;(2) 知识;(3) 阅读理解;(4) 数学、推理和问
题解决;(5) ⻓⽂本环境;(6) 代码;(7) 对抗性评估;以及 (8) 综合评估。
在这里插入图片描述

实验设置。对于每个基准,我们计算了Llama 3以及其他各种类似规模的预训练模型的分数。在可能的情况下,我们使⽤我们⾃⼰的流程重新计算其他模型的数字。为了确保公平⽐较,我们选择我们计算的分数和该模型的报告数字之间的最佳分数,该模型具有可⽐或更保守的设置。你可以在这⾥找到我们评估设置的更多细节。对于⼀些模型,不可能(重新)计算基准值,例如,因为预训练模型未发布,或者API不提供对对数概率的访问。特别是,这对于所有与Llama 3 405B相当的模型都是如此。因此,我们不报告Llama 3 405B的类别平均值,这需要所有基准的所有数字都可⽤。

显著性值。在计算基准分数时,有⼏个来源的变异性会导致对模型在基准意图测量上的性能估计不精确,例如少量样本演⽰、随机种⼦和批量⼤⼩。这使得理解⼀个模型是否在统计上显著优于另⼀个模型变得具有挑战性。为此,我们报告了我们的分数以及来⾃基准数据选择的变异性的95%置信区间(CIs)。我们使⽤公式(Madaan等⼈,2024b)分析计算95%
在这里插入图片描述

其中S是⾸选基准分数,N是基准的样本量。我们注意到,因为基准数据的变异性不是唯⼀的变异性来源,这些95% CI是能⼒估计中实际变异性的下限。对于不是简单平均值的指标,省略了CIs。

8B和70B模型的结果。图12报告了Llama 3 8B和70B在常识推理、知识、阅读理解、数学和推理以及代码基准上的平均表现。结果显⽰,Llama 3 8B在⼏乎所有类别中都优于竞争模型,⽆论是按类别获胜率还是按类别平均表现来看。我们还发现,Llama 3 70B在⼤多数基准上⼤幅度优于其前⾝Llama 2 70B,例外的是可能已经饱和的常识基准。Llama 3 70B也优于Mixtral 8x22B。

所有模型的详细结果。表9、10、11、12、13和14展⽰了预训练的Llama 3 8B、70B和405B模型在阅读理解任务、编码任务、常识理解任务、数学推理任务和⼀般任务上的基准表现。这些表格将Llama 3的表现与类似规模的模型进⾏了⽐较。结果显⽰,Llama 3 405B在其类别中与其他模型表现相当。特别是,Llama 3 405B在很⼤程度上优于以前的开源模型。对于⻓⽂本环境,我们在第5.2节中展⽰了更全⾯的结果(包括像针堆中找针这样的探测任务)。
在这里插入图片描述

5.1.2 模型鲁棒性

除了在基准测试中的表现,鲁棒性是预训练语⾔模型质量的重要因素。我们研究了我们的预训练语⾔模型对多项选择题(MCQ)设置中设计选择的鲁棒性。先前的⼯作报告称,模型表现可能对这些设置中看似随意的设计选择敏感,例如,模型分数甚⾄排名可能会随着上下⽂⽰例的顺序和标签(Lu等⼈,2022;Zhao等⼈,2021;Robinson和Wingate,2023;Liang等⼈,2022;Gupta等⼈,2024)的变化⽽变化,提⽰的确切格式(Weber等⼈,2023b;Mishra等⼈,2022),或答案选择格式和顺序(Alzahrani等⼈,2024;Wang等⼈,2024a;Zheng等⼈,2023)。受此⼯作的启发,我们使⽤MMLU基准来评估我们的预训练模型对以下⽅⾯的鲁棒性:(1) 少量样本标签偏⻅,(2) 标签变体,(3) 答案顺序,和 (4) 提⽰格式:

少量样本标签偏⻅。按照Zheng等⼈(2023)和Weber等⼈(2023a)的⽅法,我们研究了四样本⽰例中标签分布的影响。具体来说,我们考虑以下设置:

  1. 所有少量样本⽰例具有相同的标签(A A A A);
  2. 所有⽰例具有不同的标签(A B C D);
  3. 只有两个标签存在(A A B B 和 C C D D)。

标签变体。我们还研究了模型对不同选择标记集的反应。我们考虑了Alzahrani等⼈(2024)提出的两组标记:即⼀组常⻅的语⾔独⽴标记($ & # @)和⼀组没有隐含相对顺序的稀有标记(œ § з ü)。我们还考虑了规标签的两个版本(A. B. C. D. 和 A) B) C) D))以及⼀个数字列表(1. 2. 3. 4.)。

答案顺序。按照Wang等⼈(2024a)的⽅法,我们计算了不同答案顺序下结果的稳定性。为此,我们根据固定的排列重新映射数据集中的所有答案。例如,对于排列A B C D,所有标签为A和B的答案选项保留其标签,所有标签为C的答案选项得到标签D,反之亦然。

提⽰格式。我们评估了五个任务提⽰中表现的差异,这些提⽰在提供的信息量上有所不同:⼀个提⽰简单地要求模型回答问题,⽽其他提⽰则断⾔模型的专业知识或应选择最佳答案。

图13展⽰了我们关于模型对标签变体(左侧)和少量样本标签偏⻅(右侧)的鲁棒性实验结果。结果显⽰,我们的预训练语⾔模型对多项选择题标签的变化和少量样本提⽰标签的结构⾮常鲁棒。特别是对于405B参数模型,这种鲁棒性尤为显著。

图14展⽰了我们对答案顺序和提⽰格式鲁棒性研究的结果。图中的结果进⼀步强调了我们预训练语⾔模型的性能鲁棒性,特别是Llama 3 405B模型。
在这里插入图片描述

5.1.3 对抗性基准

除了上述基准测试外,我们还在三个领域中的⼏个对抗性基准上进⾏评估:问答、数学推理和释义检测。这种测试探测了模型在特别创建的具有挑战性的任务上的能⼒,并且可能也会指出对基准测试的过度拟合。对于问答,我们使⽤对抗性SQuAD(Jia和Liang,2017)和Dynabench SQuAD(Kiela等⼈,2021)。对于数学推理,我们使⽤GSM-Plus(Li等⼈,2024c)。对于释义检测,我们使⽤PAWS(Zhang等⼈,2019)。
此处为图表(Figure 15)

我们使⽤的⾮对抗性基准测试是SQuAD(Rajpurkar等⼈,2016)⽤于问答,GSM8K⽤于数学推理,QQP(Wang等⼈,2017)⽤于释义检测。每个数据点代表⼀对对抗性和⾮对抗性数据集(例如QQP与PAWS配对),我们显⽰了类别内所有可能的配对。对⻆线⿊线代表了对抗性和⾮对抗性数据集之间的平等⸺位于线上将表明模型⽆论对抗性如何都有相似的表现。

在释义检测⽅⾯,⽆论是预训练还是后训练模型,似乎都没有受到PAWS构建时所考虑的那种对抗性的影响,这与前⼀代模型相⽐是⼀个实质性的进步。这⼀结果证实了Weber等⼈(2023a)的发现,他们也发现⼤型语⾔模型对⼏种对抗性数据集中发现的那种虚假相关性不太敏感。然⽽,对于数学推理和问答,对抗性表现显著低于⾮对抗性表现。这种模式对于预训练和后训练模型都是相似的。

5.1.4 污染分析

我们进⾏了污染分析,以估计基准测试分数在多⼤程度上可能受到预训练语料库中评估数据污染的影响。在以前的⼯作中,使⽤了⼏种不同的污染⽅法,具有各种不同的超参数⸺我们参考Singh等⼈(2024)的概述。这些⽅法中的任何⼀种都可能存在误报和漏报,如何最好地进⾏污染分析⽬前仍是⼀个开放的研究领域。在这⾥,我们主要遵循Singh等⼈(2024)的建议。

方法。具体来说,Singh等⼈(2024)建议基于哪种⽅法在“⼲净”数据集部分和整个数据集之间产⽣最⼤的差异来选择污染检测⽅法,他们称之为估计的性能提升。对于我们所有的评估数据集,我们基于8-gram重叠对⽰例进⾏评分,这种⽅法被Singh等⼈(2024)发现对许多数据集是准确的。我们认为如果数据集D的⼀个⽰例的令牌⽐例TD是⾄少在预训练语料库中出现⼀次的8-gram的⼀部分,则该⽰例被污染。我们为每个数据集单独选择TD,基于哪个值在三种模型⼤⼩上显⽰出最⼤的显著估计性能提升。

结果。在表15中,我们报告了所有关键基准测试中被认为是污染的评估数据的百分⽐,如上所述,以实现最⼤的估计性能提升。从表中,我们排除了结果不显著的基准测试的数字,例如,因为⼲净或污染的集合中⽰例太少,或者因为观察到的性能提升估计显⽰出极其不稳定的⾏为。在表15中,我们观察到对于⼀些数据集,污染有很⼤的影响,⽽对于其他数据集则没有。例如,对于PiQA和HellaSwag,污染的估计和性能提升的估计都很⾼。另⼀⽅⾯,对于Natural Questions,估计的52%污染似乎对性能⼏乎没有影响。对于SQuAD和MATH,低阈值产⽣⾼⽔平的污染,但没有性能提升。这表明污染对这些数据集要么没有帮助,要么需要更⼤的n来获得更好的估计。最后,对于MBPP、HumanEval、MMLU和MMLU-Pro,可能需要其他污染检测⽅法:即使使⽤更⾼的阈值,8-gram重叠也给出了如此⾼的污染分数,以⾄于⽆法获得良好的性能提升估计。
在这里插入图片描述

5.2 后训练语⾔模型

我们展⽰了我们的Llama 3后训练模型在不同能⼒基准测试中的结果。与预训练类似,我们正在发布作为评估⼀部分⽣成的数据,并与公开可⽤的基准进⾏⽐较,这些可以在Huggingface这⾥找到。我们评估设置的更多细节可以在这⾥找到。

基准测试和指标。表16包含了按能⼒组织的所有必要基准测试的概述。我们通过运⾏每个基准测试提⽰的精确匹配来对后训练数据进⾏去污染处理。除了标准的学术基准测试,我们还对不同能⼒进⾏了⼴泛的⼈类评估。详细信息在第5.3节中提供。

实验设置。我们采⽤了与预训练阶段类似的实验设置,并对Llama 3与其他相似规模和能⼒的模型进⾏⽐较分析。尽可能地,我们⾃⼰评估其他模型的性能,并与报告的数字进⾏⽐较,选择最佳分数。你可以在这⾥找到我们评估设置的更多细节。
在这里插入图片描述

5.2.1 ⼀般知识和指令遵循基准测试

我们在表2中对Llama 3在⼀般知识和指令遵循的基准测试中进⾏评估。

⼀般知识。我们利⽤MMLU(Hendrycks等⼈,2021a)和MMLU-Pro(Wang等⼈,2024b)来评估Llama 3在基于知识的问题回答⽅⾯的能⼒。对于MMLU,我们在没有CoT的5次射击标准设置下报告⼦任务准确性的宏观平均值。MMLU-Pro是MMLU的扩展,包含了更具挑战性、以推理为重点的问题,消除了嘈杂的问题,并将选项集从四个扩展到⼗个。鉴于其对复杂推理的专注,我们为MMLU-Pro报告5次射击CoT。所有任务都格式化为⽣成任务,类似于simple-evals(OpenAI,2024)。 如表2所⽰,我们的8B和70B Llama 3变体在两项⼀般知识任务上都优于其他类似⼤⼩的模型。我们的405B模型优于GPT-4和Nemotron 4 340B,Claude 3.5 Sonnet在更⼤的模型中领先。

指令遵循。我们通过IFEval(Zhou等⼈,2023)评估Llama 3和其他模型遵循⾃然语⾔指令的能⼒。IFEval包括⼤约500条“可验证指令”,如“⽤超过400字写”,可以通过启发式⽅法验证。我们在表2中报告在严格和宽松约束下提⽰级和指令级准确性的平均值。注意,所有Llama 3变体在IFEval中都优于可⽐模型。

5.2.2 熟练度考试

接下来,我们对模型进⾏了⼴泛的熟练度考试评估,这些考试最初是为测试⼈类⽽设计的。我们从公开可⽤的官⽅来源获取这些考试;对于⼀些考试,我们报告每个熟练度考试的不同考试集的平均分数。具体来说,我们平均:

  • GRE:官⽅GRE练习测试1和2(来⾃教育测试服务);
  • LSAT:官⽅预测试71、73、80和93;
  • SAT:2018年版官⽅SAT学习指南中的8次考试;
  • AP:每个科⽬的⼀次官⽅练习考试;
  • GMAT官⽅GMAT在线考试。

这些考试中的问题包含多项选择题样式和⽣成问题。我们排除了附有图像的问题。对于包含多个正确选项的GRE考试,我们只有在模型选择了所有正确选项时才将输出视为正确。我们在每个考试有超过1个考试集的情况下使⽤少量射击提⽰进⾏评估。我们将分数按130-170的范围进⾏缩放,⽤于GRE,并报告所有其他考试的准确性。
在这里插入图片描述

我们的结果可以在表17中找到。我们观察到,我们的Llama 3 405B模型的表现与Claude 3.5 Sonnet和GPT-4 4o⾮常相似。我们的70B模型的表现更为令⼈印象深刻。它明显优于GPT-3.5 Turbo,在许多测试中击败了Nemotron 4 340B。

5.2.3 编码基准测试

我们评估Llama 3在多个流⾏的Python和多编程语⾔基准测试中的代码⽣成能⼒。为了衡量我们的模型在⽣成功能正确代码⽅⾯的有效性,我们使⽤pass@N指标,该指标评估在N次⽣成中⼀组单元测试的通过率。我们报告pass@1的结果。

Python代码⽣成。HumanEval(Chen等⼈,2021)和MBPP(Austin等⼈,2021)是Python代码⽣成的流⾏基准测试,专注于相对简单、⾃包含的函数。HumanEval+(Liu等⼈,2024a)是HumanEval的增强版本,其中⽣成了更多测试以避免误报。MBPP EvalPlus基础版本(v0.2.0)是从原始MBPP(训练和测试)数据集中的974个初始问题中精选出的378个结构良好问题的集合(Liu等⼈,2024a)。这些基准测试的结果在表18中报告。在这些基准测试的Python变体中,Llama 3 8B和70B优于类似⼤⼩的模型。对于最⼤的模型,Llama 3 405B、Claude 3.5 Sonnet和GPT-4o表现相似,GPT-4o显⽰出最强的结果。
在这里插入图片描述

多编程语⾔代码⽣成。为了评估Python之外的代码⽣成能⼒,我们报告了MultiPL-E(Cassano等⼈,2023)基准测试的结果,该基准测试基于从HumanEval和MBPP翻译的问题。表19中报告了⼀些流⾏编程语⾔的⼦集的结果。请注意,与表18中的Python对应项相⽐,性能有显著下降。

5.2.4 多语⾔基准测试

Llama 3⽀持8种语⾔⸺英语、德语、法语、意⼤利语、葡萄⽛语、印地语、西班⽛语和泰语,尽管底层的基础模型已经在更⼴泛的语⾔集合上进⾏了训练。在表20中,我们展⽰了在多语⾔MMLU(Hendrycks等⼈,2021a)和多语⾔⼩学数学(MGSM)(Shi等⼈,2022)基准测试中评估Llama 3的结果。

多语⾔MMLU。我们使⽤⾕歌翻译翻译MMLU问题、少量样本⽰例和答案。我们保留任务说明为英语,并在5次射击设置中进⾏评估。在表20中,我们报告了德语、法语、意⼤利语、葡萄⽛语、印地语、西班⽛语和泰语的平均结果。

MGSM(Shi等⼈,2022)。我们使⽤simple-evals(OpenAI,2024)中相同的⺟语提⽰,在0次射击CoT设置中测试我们的模型。在表20中,我们报告了MGSM基准测试涵盖的语⾔的平均结果。
在这里插入图片描述

我们发现Llama 3 405B在MGSM上优于⼤多数其他模型,平均达到了91.6%。在MMLU上,与上⾯显⽰的英语MMLU结果⼀致,Llama 3 405B落后GPT-4o 2%。另⼀⽅⾯,Llama 3 70B和8B模型在两项任务中都表现出⾊,以较⼤的差距领先于竞争对⼿。

5.2.5 数学与推理基准测试

我们的数学和推理基准测试结果如表2所⽰。Llama 3 8B模型在GSM8K、MATH和GPQA上的表现优于其他类似⼤⼩的模型。我们的70B模型在其所有基准测试中的表现显著优于同类别中的其他模型。最后,Llama 3 405B模型在GSM8K和ARC-C中是其类别中最好的,⽽在MATH中则是第⼆好的模型。在GPQA上,它与GPT-4 4o表现相当,⽽Claude 3.5 Sonnet则以显著的优势成为最好的模型。

5.2.6 ⻓⽂本环境基准测试

我们考虑了⼀系列涵盖各个领域和⽂本类型的任务。在下⾯列出的基准测试中,我们专注于使⽤⽆偏评估协议的⼦任务,即基于准确性的指标⽽⾮n-gram重叠指标。我们还优先考虑我们发现变异性较低的任务。

  • Needle-in-a-Haystack(Kamradt,2023)衡量模型检索隐藏在⻓⽂档随机部分中的信息的能⼒。我们的Llama 3模型展⽰了完美的针头检索性能,成功检索到所有⽂档深度和上下⽂⻓度中的100%针头。我们还测量了Multi-needle(表21)的性能,这是Needle-in-a-Haystack的⼀个变体,我们在上下⽂中插⼊四个针头并测试模型是否能够检索到其中的两个。我们的Llama 3模型实现了接近完美的检索结果。
  • ZeroSCROLLS(Shaham等⼈,2023)是⼀个针对⻓⽂本的零样本⾃然语⾔理解基准测试。我们报告验证集上的数字,因为真实答案并未公开可⽤。我们的Llama 3 405B和70B模型在这项基准测试的多个任务中要么匹配要么超越了其他模型。
  • InfiniteBench(Zhang等⼈,2024)要求模型理解上下⽂窗⼝中的⻓依赖关系。我们在En.QA(⼩说上的QA)和En.MC(⼩说上的多项选择QA)上评估Llama 3,其中我们的405B模型超越了所有其他模型。特别是在En.QA上,提升尤为显著。
5.2.7 工具使用性能

我们在⼀系列零样本⼯具使⽤(即函数调⽤)基准测试中评估我们的模型:Nexus(Srinivasan等⼈,2023)、API-Bank(Li等⼈,2023b)、Gorilla API-Bench(Patil等⼈,2023)和伯克利函数调⽤排⾏榜(BFCL)(Yan等⼈,2024)。结果在表22中显⽰。 在Nexus上,我们的Llama 3变体与其对应模型相⽐表现最佳。在API-Bank上,我们的Llama 3 8B和70B模型在其所处类别中显著超越其他模型。405B模型仅落后Claude 3.5 Sonnet 0.6%。最后,我们的405B和70B模型在BFCL上表现具有竞争⼒,在其各⾃的尺⼨类别中接近第⼆名。Llama 3 8B在其类别中表现最佳。
在这里插入图片描述

⼈类评估。我们还进⾏⼈类评估以测试模型的⼯具使⽤能⼒,重点关注代码执⾏任务。我们收集了2000个与代码执⾏(不包括绘图或⽂件上传)、图表⽣成和⽂件上传相关的⽤⼾提⽰。这些提⽰收集⾃LMSys数据集(Chiang等⼈,2024)、GAIA基准测试(Mialon等⼈,2023b)、⼈类注释者和合成⽣成。

我们使⽤OpenAI的Assistants API将Llama 3 405B与GPT-4o进⾏⽐较。结果在图16中提供。在仅限⽂本的代码执⾏任务和图表⽣成上,Llama 3 405B显著超越了GPT-4o。然⽽,它在⽂件上传⽤例上落后。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1548012.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

在双十一必买的好物有哪些?2024年双十一好物清单分享

一年一度的双十一购物狂欢节再次悄然临近,它不仅是一场购物的盛宴,更是我们提前规划生活、享受优惠的绝佳时机,在这个全民狂欢的日子里,各大品牌纷纷亮出杀手锏,推出年度最给力的优惠和新品,让人目不暇接&a…

STM32F407-ESP8266

手机开启热点 ssid jiang,password 1234567890; 2)让电脑连接手机热点,则电脑会自动分配一个ip地址,如下所示: 3)需要在程序更改,如下图所示: 4)打开网络调试助手,会自动识别IP和端…

Thingsboard规则链:Related Entity Data节点详解

引言 在复杂的物联网(IoT)生态系统中,数据的集成与分析是实现高效管理和智能决策的基础。Thingsboard作为一个强大的开源物联网平台,其规则链(Rule Chains)机制允许用户构建自定义的数据处理流程。其中&am…

LDRA Testbed(TBrun)软件集成测试(部件测试)_操作指南

系列文章目录 LDRA Testbed软件静态分析_操作指南 LDRA Testbed软件静态分析_自动提取静态分析数据生成文档 LDRA Testbed软件静态分析_Jenkins持续集成(自动静态分析并用邮件自动发送分析结果) LDRA Testbed软件静态分析_软件质量度量 LDRA Testbed软件…

新品 | Teledyne FLIR IIS 推出Forge 1GigE SWIR 短波红外工业相机系列

近日,51camera的合作伙伴Teledyne FLIR IIS推出了新品Forge 1GigE SWIR 130万像素的红外相机。 Forge 1GigE SWIR系列的首款相机配备宽频带、高灵敏度的Sony SenSWIR™️ 130万像素IMX990 InGaAs传感器。这款先进的传感器采用5um像素捕捉可见光和SWIR光谱&#xff…

高输出型CCS圆顶光源--HPD2系列

光源在视觉系统中比较重要的一部分,可以清晰成像。选择什么样的光源,直接影响到成像效果,今天我们来看看CCS圆顶光源--HPD系列,有以下特点: HPD2系列 适用于广泛行业的用途 光源亮度高,即使改变与被测物的…

一文读懂常见的几种 LangChain 替代品,看到就是赚到!!

前言 在 LLM (大规模语言模型)应用开发领域,开源框架扮演着至关重要的角色,为广大开发者提供了强大的工具支持。作为这一领域的领军者,LangChain 凭借其创新设计和全面功能赢得了广泛赞誉。但与此同时,一些…

安装软件及apt install -f修复均报错

UOS统信安装软件过程及修复依赖过程,可排查deepin-installer和dpkg问题 文章目录 一、问题现象二、问题原因三、解决方案 一、问题现象 执行apt install -f 都会出现该报错,如图所示: 二、问题原因 造成这种情况的原因在于/var/lib/dpkg/…

2024年【上海市安全员B证】最新解析及上海市安全员B证新版试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年上海市安全员B证最新解析为正在备考上海市安全员B证操作证的学员准备的理论考试专题,每个月更新的上海市安全员B证新版试题祝您顺利通过上海市安全员B证考试。 1、【多选题】《上海市建筑市场信用信…

Python无监督生成模型:深入探索与实现

目录 引言 一、无监督生成模型概述 1.1 生成模型的定义 1.2 无监督学习的特点 二、常见的无监督生成模型 2.1 自编码器(Autoencoders) 2.2 变分自编码器(Variational Autoencoders, VAEs) 2.3 生成对抗网络(Generative Adversarial Networks, GANs) 三、Python实…

三维扫描 | 解锁低成本、高效率的工作秘籍

以下文章来源于天宝Trimble Field Systems ,作者小甜宝 项目背景 Layton测量公司刚刚完成了该公司迄今为止规模最大、最复杂的项目——扫描盐湖城市中心一处横跨两个街区的房产。在这个项目中,客户需要的是美国土地产权协会(ALTA)的测量报告&#xff0…

录音文件怎么转mp3格式?超详细的6个转换方法!

录音文件是我们记录生活、保存灵感、甚至进行创作的重要工具。然而,不同设备和软件产生的录音文件往往有着不同的格式,这给我们在不同平台间分享和使用这些录音文件带来了一定的困扰。尤其是当面对兼容性较强的MP3格式时,如何将自己手中的录音…

探索Python新境界:funboost库揭秘

文章目录 探索Python新境界:funboost库揭秘背景:为什么选择funboost?funboost是什么?如何安装funboost?简单的库函数使用方法场景应用常见Bug及解决方案总结 探索Python新境界:funboost库揭秘 背景&#x…

大模型部署实战 之 部署 Llama3.1-部署与使用

大模型(LLM)狭义上指基于深度学习算法进行训练的自然语言处理(NLP)模型,主要应用于自然语言理解和生成等领域,广义上还包括机器视觉(CV)大模型、多模态大模型和科学计算大模型等。 …

【智能算法应用】樽海鞘群算法求解二维路径规划问题

摘要 路径规划是机器人导航和自主无人机领域中的关键问题。本文提出了一种基于智能优化算法——樽海鞘群算法(Salp Swarm Algorithm, SSA)的二维路径规划方法。该算法模拟樽海鞘的链式运动行为,旨在寻找障碍物环境中的最优路径。通过仿真实验…

java项目之健身房管理系统源码(springboot)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的健身房管理系统。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 健身房管理系统的主要使用…

2024年【茶艺师(高级)】考试资料及茶艺师(高级)考试总结

题库来源:安全生产模拟考试一点通公众号小程序 茶艺师(高级)考试资料考前必练!安全生产模拟考试一点通每个月更新茶艺师(高级)考试总结题目及答案!多做几遍,其实通过茶艺师&#xf…

带摄像头的挖耳勺好用吗?5款好用的可视挖耳勺!

生活水平的提高带动人们越来越关注自己的个人健康护理,耳道清洁也是其中的一项。市面上出现一种带摄像头的挖耳勺,很多小伙伴不知道它的功能是什么,这一篇小编就跟大家说清楚可视挖耳勺到底好不好用!并给大家推荐5款超好用的可视挖…

【程序员必读】近年来编程提效工具大合集。小白必看!

在快节奏的工作环境中,开发者们常常面临着时间紧迫、任务繁重的挑战。选择合适的编程工具,能够显著提升工作效率,帮助你在代码编写、调试和团队协作中事半功倍。那么,究竟哪些编程工具能让你的工作效率翻倍呢?&#x1…

liunx系统虚拟机

https://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/ 下载地址 DVD版本 安装vm软件12通过vm软件来创建一个虚拟机空间通过vm软件在创建好的虚拟机空间上,安装我们的centos操作系统使用centos你得需要将鼠标点击进入界面中,但是鼠标会消失&#xf…