论文解读 P2《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》

论文解读系列文章目录


文章目录

  • 论文解读系列文章目录
  • 一、图中公式什么意思?
  • 二、“早期的基于匹配和密集嵌入相似性的方法,逐步发展到可学习的检索技术和预训练语言模型(PLM)生成技术”什么意思?
  • 三、在从问题(Q)和图像(I)中提取初始概念后,建立两个关键映射:第一个映射将Q中解析出的对象与I中的视觉对应物关联,第二个映射将这些概念与知识库(KBs)中的相关条目关联。 什么意思?
  • 四、随后,通过这些识别出的概念节点获取一阶子知识图谱(sub-KG)中的三元组(在某些情境下如角色知识图谱为三跳路径【93】),或通过识别I和Q中的实体之间的简短知识路径来收集事实三元组。这句话什么意思,举例解释一下
  • 五、密集检索【141】方法通常用于为给定的Q-I对检索最相关的前k条事实。此技术利用嵌入相似性将问题和视觉概念与预先简化的简洁事实句匹配,简化了检索过程,避免了复杂规则。这句话什么意思,举例解释一下?
  • 六、检索结构通常为对称或孪生结构,以支持共享嵌入空间,而跨模态检索场景(如基于CLIP的检索)则采用非对称设计。 什么意思,举例说明一下。


一、图中公式什么意思?

在这里插入图片描述
图中的公式描述了一个基于知识图谱的视觉问答(VQA)任务的概率模型:

p ( A ∣ Q , I , G , Θ ) = p ( G r e t ∣ Q , I , G ; Φ ) ⋅ p ( A ∣ Q , I , G r e t ; Θ ) p(A|Q, I, G, \Theta) = p(G_{ret}|Q, I, G; \Phi) \cdot p(A|Q, I, G_{ret}; \Theta) p(AQ,I,G,Θ)=p(GretQ,I,G;Φ)p(AQ,I,Gret;Θ)

其中:

  • A A A 表示答案。
  • Q Q Q 表示问题(通常是文本问题)。
  • I I I 表示图像。
  • G G G 表示整体的背景知识图谱。
  • G r e t G_{ret} Gret 表示从背景知识图谱中检索到的相关子知识图谱。
  • Φ \Phi Φ 是用于知识检索的模型参数。
  • Θ \Theta Θ 表示隐式知识参数,通常在大规模数据集上通过自监督学习预训练得到。

公式分为两个部分:

  1. Retriever(知识检索) p ( G r e t ∣ Q , I , G ; Φ ) p(G_{ret}|Q, I, G; \Phi) p(GretQ,I,G;Φ) 表示在给定问题 Q Q Q、图像 I I I、背景知识图谱 G G G 以及模型参数 Φ \Phi Φ 的条件下,检索到相关子图 G r e t G_{ret} Gret 的概率。这一步是可选的(“if have”),但有助于在知识图谱中找到与问题和图像更相关的信息。

  2. Reader(答案生成) p ( A ∣ Q , I , G r e t ; Θ ) p(A|Q, I, G_{ret}; \Theta) p(AQ,I,Gret;Θ) 表示在给定问题 Q Q Q、图像 I I I、检索到的子图 G r e t G_{ret} Gret 和隐式知识参数 Θ \Theta Θ 的条件下,生成答案 A A A 的概率。

整体公式说明了通过结合知识检索(如果需要)和答案生成来实现基于知识图谱的答案推理。这种分阶段的设计使得模型能够在有外部知识的支持下更准确地回答问题。

二、“早期的基于匹配和密集嵌入相似性的方法,逐步发展到可学习的检索技术和预训练语言模型(PLM)生成技术”什么意思?

这段话中的“早期的基于匹配和密集嵌入相似性的方法,逐步发展到可学习的检索技术和预训练语言模型(PLM)生成技术”描述的是知识检索技术的演变过程,具体含义如下:

  1. 早期的基于匹配和密集嵌入相似性的方法
    这指的是早期的知识检索技术,通常基于某种相似性度量(如余弦相似性、欧几里得距离等)来匹配查询与知识库中的条目。这种方法依赖于“密集嵌入”技术,即将词或文档表示为密集的向量(通常是高维的实数向量),并通过计算这些向量之间的相似性来检索相关知识。早期的方法主要通过这种方式来查找与查询相关的信息。

  2. 逐步发展到可学习的检索技术
    随着技术的进步,知识检索逐渐转向更复杂的“可学习的检索技术”。这些技术利用机器学习方法,特别是深度学习来训练模型,使得检索过程可以自动优化。例如,使用神经网络对查询和知识库条目进行编码,从而更智能地检索相关信息,而不仅仅依赖于静态的相似性度量。

  3. 预训练语言模型(PLM)生成技术
    进一步的进展是使用“预训练语言模型”(PLM),如BERT、GPT等,通过大量的文本数据进行预训练,使得这些模型能够更好地理解语言和语境。这些预训练模型不仅能进行知识检索,还能生成与查询相关的文本或答案,从而大大提高了知识整合的效率和准确性。

总结:这段话描述了知识检索技术的演变:从早期简单的基于相似性的匹配方法,发展到使用深度学习模型进行更复杂的、可学习的检索,再到采用先进的预训练语言模型,进一步提高了知识整合的范围和效率。

三、在从问题(Q)和图像(I)中提取初始概念后,建立两个关键映射:第一个映射将Q中解析出的对象与I中的视觉对应物关联,第二个映射将这些概念与知识库(KBs)中的相关条目关联。 什么意思?

这句话的意思是在多模态推理任务中,首先从问题(Q)和图像(I)中提取出初始的概念(例如,问题中提到的对象和图像中的相关元素)。然后,建立两个重要的映射关系来处理这些信息:

  1. 第一个映射
    这个映射的作用是将问题(Q)中解析出的对象图像(I)中的视觉对应物进行关联。简而言之,就是将问题中的描述性词汇(如“狗”或“汽车”)与图像中的实际视觉对象(即图像中的“狗”或“汽车”)对应起来。这一步的目标是通过视觉信息理解问题所涉及的具体对象。

  2. 第二个映射
    这个映射则是将上一步中提取出的概念(这些概念可能是问题中的对象或者图像中的视觉元素)与知识库(KBs)中的相关条目进行关联。知识库(如Wikipedia、ConceptNet等)包含了大量的结构化知识,可以为图像和问题提供更深的语义背景。例如,如果问题涉及到“猫”这一对象,第二个映射会将“猫”这个概念与知识库中的关于“猫”的定义、属性和关系等信息进行关联,从而提供额外的语义支持。

总结
这句话描述的是一个多阶段的推理过程:首先从问题和图像中提取基本概念,然后通过两个映射来分别将问题中的对象与图像中的对应物进行匹配,同时将这些概念与外部知识库中的相关条目进行关联。这种方法有助于增强模型对问题和图像的理解,并利用外部知识库提供的语义信息来提高推理的准确性和深度。

四、随后,通过这些识别出的概念节点获取一阶子知识图谱(sub-KG)中的三元组(在某些情境下如角色知识图谱为三跳路径【93】),或通过识别I和Q中的实体之间的简短知识路径来收集事实三元组。这句话什么意思,举例解释一下

这句话的意思是在提取出问题(Q)和图像(I)中的概念节点后,系统会进一步通过这些节点来获取与它们相关的三元组(triple)。这些三元组属于一阶子知识图谱(sub-KG),或者是通过识别问题和图像中的实体之间的知识路径来收集相关的事实信息。这里提到的三元组通常是由主体(subject)、**谓词(predicate)客体(object)**组成的知识结构。

解释:

  1. 一阶子知识图谱(sub-KG)
    一阶子知识图谱是指从知识库中提取的一个子集,包含与当前任务相关的知识。该知识图谱可以通过识别概念节点来获取,节点之间的关系通过三元组形式表示。三元组通常包含:

    • 主体(subject):实体或概念。
    • 谓词(predicate):描述实体之间关系的动词或动作。
    • 客体(object):与主体相关的其他实体或概念。
  2. 三元组的获取
    通过识别出的问题和图像中的概念节点(如“狗”,“跑”,“草地”),可以从知识图谱中提取出相关的三元组。例如,如果识别到“狗”是问题中的主体,可以通过图谱查找相关的关系(如“狗”与“跑”之间的关系),然后形成三元组(“狗”,“跑”,“草地”)。

  3. 三跳路径(如角色知识图谱中的三跳路径)
    在某些情境下,尤其是像角色知识图谱这样的复杂图谱中,关系不止是直接的三元组,而是通过多个中间节点(例如三跳路径)来关联。例如,角色知识图谱中可能有三条跳跃路径来表示一个复杂的关系,如:

    • “角色” → “动作” → “地点” → “时间”。
      这意味着,角色执行动作,动作发生在特定地点,并且与特定时间相关。这是一个通过多个步骤(跳跃)来获取的知识路径。
  4. 简短的知识路径
    通过识别**图像(I)问题(Q)**中的实体之间的简短知识路径,系统可以获取一些简单的事实三元组。这些路径通常很短,只涉及两个或三个实体之间的关系。例如,识别到图像中的“猫”与“椅子”之间的关系(如“猫”坐在“椅子”上),则可以生成三元组(“猫”,“坐在”,“椅子”)。

举例:
假设给定一个图像和问题:

  • 问题(Q)“狗在什么地方跑?”
  • 图像(I):显示一只狗在草地上奔跑。
  1. 提取概念节点
    从问题中提取出“狗”和“跑”作为概念节点,从图像中提取出“草地”作为概念节点。

  2. 通过知识图谱获取三元组
    假设系统通过知识图谱查询到,“狗”与“跑”之间的关系,草地是一个与“狗”跑步动作相关的地点。那么,可以得到三元组:

    • (“狗”,“跑”,“草地”)。
  3. 角色知识图谱中的三跳路径(如果适用)
    假设在角色知识图谱中,关于“狗”的信息需要通过多个节点来查找,例如:

    • “狗” → “动物” → “哺乳动物” → “陆地动物”。
      这是一个三跳路径,表示“狗”属于“动物”类别,进一步属于“哺乳动物”类别,最后属于“陆地动物”类别。
  4. 简短的知识路径
    假如图像中有一个场景显示“狗”坐在“椅子”上,系统可以从图像和问题中提取出简单的关系并形成三元组(“狗”,“坐在”,“椅子”)。

总结:
这句话描述的是在多模态推理任务中,如何通过识别问题和图像中的概念(如对象或实体),并使用知识图谱中的三元组或知识路径来收集相关的事实信息,从而增强对问题的理解和回答。

五、密集检索【141】方法通常用于为给定的Q-I对检索最相关的前k条事实。此技术利用嵌入相似性将问题和视觉概念与预先简化的简洁事实句匹配,简化了检索过程,避免了复杂规则。这句话什么意思,举例解释一下?

这句话的意思是在多模态检索中,密集检索方法被用来从知识库中为给定的问题(Q)和图像(I)对检索出最相关的前k条事实。这一方法通过使用嵌入相似性(通常是通过将问题和图像转换为向量表示),将问题和视觉概念与简洁的事实句进行匹配,从而简化了检索过程,并避免了使用复杂的规则。

关键概念解释:

  1. 密集检索
    传统的检索方法通常依赖于基于关键词匹配的搜索,而密集检索则使用嵌入技术(如深度学习模型中的向量表示)将问题、图像和事实转换为密集的向量。这些向量表示能够捕捉到更多的语义信息,进而帮助计算两个向量之间的相似性,找出最相关的信息。

  2. 嵌入相似性
    嵌入相似性是指通过将问题和视觉概念转化为向量(嵌入表示),然后计算这些向量之间的相似度(如余弦相似度、欧氏距离等)来度量它们的相似性。例如,通过计算“狗”这个词和图像中的狗的向量表示之间的相似度,系统可以判断它们之间的关系。

  3. 简化的简洁事实句
    这些“简洁事实句”指的是一些简短且结构化的陈述,通常描述的是基本的事实或知识。例如,“狗在公园里跑”就是一个简洁的事实句。通过将这些句子简化并与问题和图像中的概念匹配,可以加速检索过程,而不需要复杂的规则或推理。

  4. 避免复杂规则
    传统的知识检索方法可能依赖复杂的规则或手工编写的逻辑来匹配问题和知识库中的数据。密集检索方法通过使用嵌入技术,自动计算相似度,避免了手动设计规则的复杂性。

举例:
假设我们有以下问题(Q)和图像(I)对:

  • 问题(Q)“狗在公园里做什么?”
  • 图像(I):显示一只狗在公园里跑。

步骤 1:问题和图像的嵌入表示
首先,将问题(“狗在公园里做什么?”)和图像中的内容(狗在公园里奔跑)转换为向量表示。这样,问题和图像都被转化为一个密集的、可以比较的数字向量。

步骤 2:通过嵌入相似性进行检索
然后,利用这些向量表示与知识库中预先准备好的简洁事实句(如“狗在公园里跑”,“狗在公园里玩”)进行匹配。通过计算相似度(如余弦相似性),系统可以找到最相关的事实句,例如,“狗在公园里跑”是最相关的事实。

步骤 3:返回最相关的k条事实
最后,系统返回与问题和图像最相关的前k条事实。例如,返回前两条事实句:

  • “狗在公园里跑”
  • “狗在公园里玩”

总结:
这句话说明了密集检索如何利用嵌入相似性来简化检索过程,通过将问题和视觉概念转换为向量,与简洁的事实句匹配,快速找到最相关的知识,而不需要复杂的规则或推理。这种方法提高了效率并简化了多模态推理的过程。

六、检索结构通常为对称或孪生结构,以支持共享嵌入空间,而跨模态检索场景(如基于CLIP的检索)则采用非对称设计。 什么意思,举例说明一下。

这句话的意思是,检索结构可以设计为对称孪生结构,以便共享相同的嵌入空间,而在跨模态检索场景中(例如,使用CLIP进行的检索),通常采用的是非对称设计

关键概念解释:

  1. 对称结构和孪生结构

    • 对称结构指的是问题和检索项(例如文本和图像)都使用相同的处理方式和嵌入空间。这意味着,问题和检索项在相同的嵌入空间中共享相同的表示方式。
    • 孪生结构通常指的是使用两个相同的网络架构来处理两个不同的输入(例如,图像和文本),然后通过某种方式比较它们的嵌入表示。孪生网络在这两个输入之间共享权重,使得它们的嵌入空间是一致的。
  2. 共享嵌入空间
    共享嵌入空间意味着,无论是文本还是图像,它们都被映射到同一个嵌入空间中。通过这种方式,文本和图像之间的相似性可以直接通过它们在这个空间中的相对距离来衡量。

  3. 跨模态检索
    跨模态检索是指从一个模态(例如文本)中检索与另一个模态(例如图像)相关的信息。例如,用户输入一个文本描述(如“狗在公园里跑”),然后检索与之相关的图像(例如,公园中奔跑的狗)。

  4. 非对称设计
    在跨模态检索的非对称设计中,问题(如文本查询)和检索对象(如图像)使用不同的网络结构或不同的嵌入空间。例如,使用CLIP(Contrastive Language-Image Pretraining)模型时,文本和图像分别被映射到各自的嵌入空间,然后计算它们之间的相似性。这种设计并不要求图像和文本共享相同的嵌入空间,而是使用两个独立的网络将文本和图像映射到各自的空间。

举例说明:
假设我们有一个跨模态检索任务,目标是从文本查询中检索相关的图像。

  1. 对称/孪生结构
    假设我们使用一个孪生网络结构,其中文本和图像分别通过两个相同的神经网络进行处理,生成它们各自的嵌入表示。然后,通过比较文本和图像的嵌入向量之间的相似性,来确定它们之间的关系。
  • 输入:一个文本描述,“狗在公园里跑”。
  • 嵌入空间:文本和图像都通过相同的神经网络映射到相同的嵌入空间。例如,图像和文本都被映射到同一个向量空间,在这个空间中,表示“狗在公园里跑”的文本和展示狗奔跑的图像将靠得很近。
  • 输出:检索到的图像将与文本描述的内容匹配,系统会返回展示狗在公园里跑的相关图像。
  1. 非对称设计(如CLIP模型)
    CLIP模型中,文本和图像分别通过不同的网络进行处理,分别映射到不同的嵌入空间
  • 文本模态:文本通过一个预训练的文本编码器(如Transformer)进行处理,输出一个文本嵌入向量。
  • 图像模态:图像通过一个预训练的视觉编码器(如卷积神经网络或Transformer)进行处理,输出一个图像嵌入向量。
  • 计算相似性:这两个向量存在于不同的嵌入空间,但CLIP通过设计了一个共同的对比损失(contrastive loss),使得在两种模态下的相似内容(例如,“狗在公园里跑”的文本和相应的图像)被拉近它们的嵌入表示,而不相关的内容则被推开。因此,尽管它们的嵌入空间是非对称的,系统仍能有效地进行跨模态检索。

加粗样式例子:
假设你有一个文本查询:“狗在公园里跑”,并且你希望检索到相关的图像。

  • 对称结构下,文本和图像被映射到相同的嵌入空间,通过比较它们的嵌入向量相似性来检索相关的图像。
  • 非对称设计(如CLIP)下,文本和图像被映射到各自的独立嵌入空间,然后通过计算它们之间的相似性来找出最相关的图像。尽管文本和图像使用不同的网络和空间,它们的嵌入通过对比学习机制被对齐,确保相似的文本和图像在各自的空间中相对接近。

总结:
这句话的意思是,对称结构孪生结构用于将不同模态的数据(如文本和图像)映射到同一个嵌入空间以便共享,而非对称设计(如CLIP)则将文本和图像映射到各自独立的嵌入空间,采用不同的网络进行处理,最终通过计算它们之间的相似性来进行检索。

MMReasoner【115】借助大型语言模型(LLMs)从多维视觉描述中生成推理依据,整合常识知识、外部信息和支持性事实。这些推理依据连同I和Q一起,由专门微调的视觉语言模型(VLM)处理,以适应此类丰富输入。
RVL【135】和KVQAmeta【168】通过将知识图谱嵌入与PLM嵌入层输出的相应文本短语表示对齐,将知识注入VLM。
Pang等人【188】通过在跨模态融合和解码模块之间集成冻结的LLM(LLaMA【189】)的Transformer层,增强了VLM的参数化知识注入能力。
视觉数据的文本转换:这一类别将所有视觉信息转换为文本格式,如图像标题,从而能在统一的文本数据集上应用PLM推理,数据集包含背景知识、问题和图像【32】【108】【114】【121】【124】【125】【140】【142】【160】【169】【170】。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/5473.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

http请求响应详解

http介绍 http协议: Http”协议称为是“超文本传输协议”(HTTP-Hypertext transfer protocol)。它定义了浏览器怎么向万维网服务器请求万维网文档,以及服务器怎么样把文档传送给浏览器。 https协议: 传统的HTTP协议…

mysql5安全审计

安装插件 插件需要严格与数据库版本适配,不然安装过程中会出现问题 解压插件 cd 插件所在路径unzip audit-plugin-mysql-5.7-1.1.7-921-linux-x86_64.zip#查看mysql默认插件目录 mysql> SHOW GLOBAL VARIABLES LIKE plugin_dir;# 将插件移动到mysql默认插件目…

一文解秘Rust如何与Java互操作

本博客所有文章除特别声明外,均采用CC BY-NC-SA 4.0许可协议。转载请注明来自 唯你 使用场景 JAVA 与 Rust 互操作让 Rust 可以背靠 Java 大生态来做更多事情,而 Java 也可以享受 Rust 语言特性的内存安全,所有权机制,无畏并发。…

架构零散知识点

1 数据库 1.1 数据库范式 有一个学生表,主键是学号,含有学生号、学生名、班级、班级名,违反了数据库第几范式? --非主属性不依赖于主键,不满足第二范式 有一个订单表,包含以下字段:订单ID&…

ZISUOJ 2024算法基础公选课练习一(1)

前言、 又是一年算法公选课&#xff0c;与去年不同的是今年学了一些纯C&#xff08;而不是带类的C&#xff09; 一、我的C模板 1.1 模板1 #include <bits/stdc.h> using i64 long long;int main() {std::cin.tie(nullptr)->sync_with_stdio(false);return 0; } 1…

25.停车场管理系统(基于web的Java项目)

目录 1.系统的受众说明 2.相关技术与方法 3.系统分析 3.1 可行性分析 3.1.1 技术可行性 3.1.2 经济可行性 3.1.3 操作可行性 3.2 需求分析 3.2.1 系统功能描述 3.2.2 用例图分析 4. 系统设计 4.1 系统类分析 5. 系统详细设计与实现 5.1 用户登录 5.2 系统信…

string模拟实现构造+析构

个人主页&#xff1a;Jason_from_China-CSDN博客 所属栏目&#xff1a;C系统性学习_Jason_from_China的博客-CSDN博客 所属栏目&#xff1a;C知识点的补充_Jason_from_China的博客-CSDN博客 string模拟实现构造 方案1&#xff08;初始化列表的实现&#xff09;&#xff1a; 这…

每日OJ题_牛客_小红的口罩_堆+贪心_C++_Java

目录 牛客_小红的口罩_堆贪心 题目解析 C代码 Java代码 牛客_小红的口罩_堆贪心 小红的口罩 描述&#xff1a; 疫情来了&#xff0c;小红网购了 n个口罩。众所周知&#xff0c;戴口罩是很不舒服的。小红每个口罩戴一天的初始不舒适度为 ai​。 小红有时候…

Bruno解决SSL验证问题

在测试接口的时候&#xff0c;我使用的是Bruno这个软件&#xff0c;开源离线的API测试软件。 主页是这样子的 今天在测试一个HTTPS的接口时候&#xff0c;因为这个HTTPS接口是用的是自签证书&#xff0c;所以就报错误了。 Error invoking remote method send-http-request: …

IBM股票分析:IBM的股价已经涨不动了吗?该买入还是卖出?

猛兽财经核心观点&#xff1a; &#xff08;1&#xff09;由于第三季度业绩疲弱&#xff0c;摩根士丹利已将IBM目标股价下调到了208美元。 &#xff08;2&#xff09;IBM的软件业务虽然增长了9.7%&#xff0c;但咨询和基础设施业务却还在挣扎。 &#xff08;3&#xff09;猛兽财…

【数据结构】线性表——顺序表

文章目录 一、线性表二、顺序表2.1概念及结构2.2、顺序表接口实现2.2.1、顺序表的动态存储2.2.2、顺序表初始化2.2.3、检查空间判断进行增容2.2.4、顺序表尾插、尾删2.2.5、顺序表头插、头删2.2.6、顺序表查找2.2.7、顺序表在pos位置插入x2.2.8、顺序表删除pos位置的值2.2.9、顺…

JAVA基础:分页 (学习笔记)【DVD分页查看】

分页 分页一张表---创建entry类 分页多张表---创建pojo类 1&#xff0c;准备实体类 com.jr.entry.DVD 2&#xff0c;接口问题&#xff1a; &#xff08;1&#xff09;根据条件 --- 获得符合条件的总条数 &#xff08;2&#xff09;根据条件 --- 获得符合条件的集合数据。 …

macOS开发环境配置与应用开发(详细讲解)

&#x1f4dd;个人主页&#x1f339;&#xff1a;一ge科研小菜鸡-CSDN博客 &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; 1. 引言 macOS作为Apple公司推出的桌面操作系统&#xff0c;以其稳定性、优雅的用户界面和强大的开发工具吸引了大量开发者。对于…

Qt桌面应用开发 第二天(信号和槽 Lambda表达式)

目录 1.信号和槽 1.1信号 1.2信号和槽重载问题 1.3 注意事项 1.4信号和槽Lambda表达式 1.信号和槽 信号的发送者——信号——信号的接受者——信号的处理&#xff08;槽函数&#xff09; connect(信号的发送者&#xff0c;发送的信号&#xff0c;信号的接受者&#xff0…

ubuntu 22.04 server 安装 anaconda3

ubuntu 22.04 server 安装 anaconda3 https://www.anaconda.com/download/success Anaconda Installers wget https://repo.anaconda.com/archive/Anaconda3-2024.10-1-Linux-x86_64.sh 其他的是 默认 Executing transaction: done installation finished. Do you wish to…

如何设置VSCODE快捷键光标移到行首和行尾

{ "key": "cmdhome", "command": "cursorTop", },{ "key": "cmdend", "command": "cursorBottom", }

台新金控在台北金融科技展上展示自研GenAI应用与LLM

在今年的台北金融科技展上&#xff0c;多家金融机构展示了他们的生成式人工智能&#xff08;GenAI&#xff09;应用。其中&#xff0c;台新金控也展示了包括升级后的智能客服、面向企业金融客户的拟真客服人员、影片生成服务以及音乐生成服务等应用。 然而&#xff0c;台新的亮…

项目开发流程规范文档

项目开发流程规范文档 目标: 明确项目组中需求管理人员, 交互设计, 美工以及开发之间的工作输入输出产物. 明确各岗位职责. 以免造成开发, 产品经理以及项目经理之间理解不到位, 沟通成本过高,返工造成资源浪费. 所有环节产生的文档都可以作为项目交付的资源. 而不是事后再补文…

Go API 多种响应的规范化处理和简化策略

一个对外提供API接口的服务&#xff0c;在真正动工开发接口前一般需要先确定一下接口响应的通用格式&#xff0c;无论接口响应里返不返回业务数据&#xff0c;返回的数据是字符串、列表、对象还是其他类型都会遵照这个通用的响应格式。 既然一个项目接口的响应格式是确定的&…

poi excel数据统计导出

##poi excel导出案例 1.ajxa导出请求没有任何反应&#xff0c;打断点看了workBook中也有数据&#xff0c;网上查阅说ajax请求导出无法接收流&#xff0c;换成location.href,果然可以了 2.控制器代码 response.setCharacterEncoding("UTF-8");response.setContentTyp…