如何融合文本信息提高时序预训练模型?

今天小编给大家介绍两篇联合文本和时序数据进行预训练的文章。

UniTime: A Language-Empowered Unified Model for Cross-Domain Time Series Forecasting

  • 文献地址:https://arxiv.org/pdf/2310.09751.pdf

  • 代码地址:https://github.com/liuxu77/UniTime

UniTime的目标是构建一个能够对语言和时序模进行跨模态建模的统一架构,并且能够灵活适应多领域具有不同特性的数据。文章提出要有效构建一个能够处理来自多样化领域数据的统一模型,面临以下三大挑战,1)变化的数据特性,不同变量(通道)数量、不同的历史长度和未来预测长度。2)领域混淆问题,不同领域的数据在时间模式或分布上具有显著差异,模型可能会在识别和适应这些差异上遇到困难。3)领域收敛速度不平衡。不同的时间序列领域因其独特的特性而展现出多样的收敛速率,模型可能在单个数据集上出现过拟合,而在其他数据集出现欠拟合。

基于上述问题UniTime使用领域指令和语言-时序变换器来提供识别领域信息并对齐两种模态。具体架构如下:

**通道独立:**UniTime采用PatchTST相同的通道独立方式,以灵活处理具有不同通道数的跨领域数据集,同时避免使用统一的嵌入层来处理具有显著不同语义的时间序列。

时序数据tokenizer: 首先将数据分成不同的patch。同时,为了克服不同的时间序列领域表现出不同的收敛速率,具有简单且规则模式的领域易出现过拟合的倾向的问题,文章引入了mask来提高模型的泛化能力。与常规方法中仅构造mask与原数据进行相乘不同,文章设计了一种可学习的的融合机制如下:

decoder-only LLM: 在利用跨时间序列领域训练模型时,尤其是当这些领域在时间模式或分布上表现出显著差异时,模型需要区分并泛化它们,遇到很大的挑战。文章使用领域提示来提供明确的领域识别信息给模型,帮助模型辨识每个时间序列的来源并相应地调整其预测策略。领域指令本质上是描述每个领域数据的句子。它们还由人类制定,以融入对数据的人类先验知识。此外,进一步使用Language-TS来从领域指令和时间序列中学习联合表示,并通过将时间序列与语言模型的共同潜在空间对齐,实现跨领域泛化。

文章将领域信息的表征放在时序表征之前,避免模型在处理时间序列时并未获取领域指令,削弱文本信息的实用性。

Language-TS Transfomrer 使用GPT-2的参数进行初始化。

考虑到文本的存在,Language-TS Transfomrer输出表征序列的长度可能不同,无法直接用简单的线性层融合后进行预测。因此,文章设置了最大输入长度,对于未达到最大长度的序列,在末尾填补一个重复的可学习的padding token。然后将填补后的序列送入一个轻量级的transformer层。同时文章设置了最大的预测长度,以统一模型训练过程。模型训练目标函数包含重构误差和预测误差。

注意,模型训练过程中作者使用了一个小技巧来避免多领域数据不稳定的问题。具体来说,文章通过从包含所有涉及时间序列领域的所有训练数据的池中随机选择实例来构建训练batch。每个batch只包含来自单一领域的数据,因为每个领域的通道数量和序列长度不同。此外,对于那些训练样本明显少于其他领域的领域,进行过采样,以平衡各领域数据集,我们确保模型充分接触到这些代表性不足的领域,防止它们被其他领域所掩盖。

  1. 实验结果

添加领域提示信息后,各个数据集对应隐藏表示展示出明显的聚类模式,同时实验中也验证了添加领域提示信息的有效性。

SIP-LLM: Semantic Space Informed Prompt Learning with LLM for Time Series Forecasting

  • 文献地址:https://arxiv.org/pdf/2403.05798.pdf

  • 代码地址:无

S2IP-LLM由三个关键组件组成,首先,给定输入的时间序列对其进行季节性-趋势分解(STL),并分解成不同的patch,获取时间序列(TS)嵌入。接着,将TS嵌入与从预训练的词标记嵌入派生的语义锚点对齐。将检索到的前k个相似的语义锚点作为TS嵌入的前缀提示,并将连接后的向量作为表征输入预训练大模型,并进行相应的微调。

数据分解: 利用STL分解将原始数据分解成了趋势项、季节项及残差项。每部分元素依次进行归一化.

接着仍然是将每部分元素分成不同的patch,并通过线性层映射成对应的时序表征,并将三部分表征拼接后映射成最终的时序元表征,表征维度与语言模型词向量表征维度相同。

时序-文本对齐: 考虑到语言模型的词汇量数通常非常大,一一进行检索将带来巨大的计算量,例如GPT-2的词汇量高达到50257。因此文章在进行时序-文本对齐前,对词表进行简单的映射以减少词汇量。映射后再计算时序表征与词汇表征的cosine相似度,如下:

然后选取TopK个相似度最大的词作为时序表征的前缀,形成最中的表征如下:

模型微调: 文章采用GPT-2(作为backbone,保留大部分参数不变只对位置嵌入层和层归一化层进行微调。优化目标函数包含预测损失和文本-时序对齐损失。输出与输入对应,分别预测三个元素后再叠加得到最中的输出如下:

  1. 实验结果

文章也进行相似的可视化,加入文本表征后,不同领域的数据对应隐藏表示展示出明显的聚类模式。相比之下,原始时间序列嵌入显示出更分散和聚类度较低的模式,表明在对齐之前,时间序列表示相对较不具信息性,时间序列表示变得更加可区分。在较小的范围内,λ 的增加似乎增强了时间序列嵌入的分离度,表明一个更加明显和信息丰富的表示。然而,当 λ 过大时,我们观察到提示时间序列嵌入的聚类质量显著下降,这表明超过一定阈值后,更高的 λ 值会导致信息量减少的嵌入。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1543048.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

国产 AI 大模型成果展示,囊括 12 大金融应用场景!

前言 随着人工智能技术的飞速发展,国产AI大模型在医疗健康领域的应用日益广泛,正在逐步改变传统的医疗服务模式,提升医疗服务的质量和效率。以下是对国产AI大模型在医疗领域应用的典型案例盘点,覆盖了十大医疗应用场景。 01 智…

治愈系视频素材哪里找?非常优秀的治愈系素材分享

在快节奏的现代生活中,寻找心灵的慰藉成为了一个日益重要的话题。治愈系视频以其温暖人心的内容和独特的魅力,为观众提供了一种减压和放松的方式。要制作出触动人心的治愈系视频,首先需要挑选合适的视频素材。以下是几个优质的治愈系视频素材…

使用build_chain.sh离线搭建匹配的区块链,并通过命令配置各群组节点的MySQL数据库

【任务】 登陆Linux服务器,以MySQL分布式存储方式安装并部署如图所示的三群组、四机构、 七节点的星形组网拓扑区块链系统。其中,三群组名称分别为group1、group2和group3, 四个机构名称为agencyA、agencyB、agencyC、agencyD。p2p_port、cha…

粗绿激光模组使用优势有哪些

在当今高科技飞速发展的时代,激光技术以其精准、高效、稳定的特性,在众多领域中展现出了非凡的应用价值。其中,粗绿激光模组作为激光技术的重要分支,凭借其独特优势,在众多行业中脱颖而出,成为推动产业升级…

格密码(一)

什么是格? 可以简单地把“格”想象成一个用多个点组成的网格,这个网格可以存在于二维、三维甚至更高维的空间中。每个格点都是由一组基向量(比如二维空间中的两个基向量)通过整数倍的线性组合得到的。 二维格的例子:…

大坝可视化监控:实时安全保障

利用图扑可视化技术实时监控大坝结构和运行状态,及时识别潜在风险,提升管理效率,确保大坝安全稳定运行和资源的高效利用。

实时数据的处理一致性

实时数据一致性的定义以及面临的挑战‍‍‍‍‍ 数据一致性通常指的是数据在整个系统或多个系统中保持准确、可靠和同步的状态。在实时数据处理中,一致性包括但不限于数据的准确性、完整性、时效性和顺序性。 下图是典型的实时/流式数据处理的流程: 1、…

基于单片机多点无线温度监控系统设计

本设计STC89C52RC单片机作为主控芯片,能够远程监控多个位置的温度变化。使用一个主机来接收和监控三个从机收集到的温度信息,利用DS18B20温度传感器采集温度信息,采用GL24S无线通讯模块将数据传输给主机进行接收,信息显示在主机连…

SM2无证书及隐式证书公钥机制签名和加密过程详解(一)

前面介绍SM2无证书及隐式证书公钥机制下用户公私密钥对的Python实现(具体参看SM2隐式证书用户公私钥生成python代码实现_sm2 python 密钥生成-CSDN博客),可以看到需由用户和KGC(可信密钥生成中心)共同参与才能计算得到…

钢表面缺陷识别

钢表面缺陷识别是指通过计算机视觉技术对钢材表面缺陷进行检测和分类的过程。这一技术在钢铁制造行业具有重要的工业价值,旨在提高产品质量、降低生产损失以及提升生产效率。钢表面缺陷可能包括裂纹、凹坑、气泡等,这些瑕疵会影响产品的性能和安全性&…

Transformer动画讲解

**Transformer工作原理**** **一、**** ******GPT的核心是Transformer******** *GPT* : **GPT(Generative Pre-trained Transformer)**** ****是一种基于单向Transformer解码器的预训练语言模型,它通过在大规模语料库上的无监督…

数字人会被封杀?不!看国家政策打破谣言

数字人会被封? 数字人发展没有前景? 数字人直播何去何从? 是不是大家入局数字人,都在纠结数字人使用和前景的问题?首先,大家放心,数字人广泛使用已经是大势所趋。下面给大家分享最新政策&…

多模态大模型应用开发技术学习

前篇提到多模态模型应用是未来的应用方向,本篇就聊聊技术学习方面的内容。 应用场景 多模态大模型技术的应用场景非常广泛,涵盖了从日常生活到专业领域的各个方面。以下是一些主要的应用场景: 办公自动化:多模态大模型可以用于…

Java线程的创建与使用

线程的概念 线程是‌操作系统能够进行运算调度的最小单位,是进程中的实际运作单位‌。一个进程可以包含多个线程,每个线程是进程中一个单一顺序的控制流,并行执行不同的任务。 线程生命周期 线程的状态是指线程在执行过程中的不同阶段。以…

数位dp(算法篇)

算法篇之数位dp 数位dp 概念: 数位dp是一种计数用的dp,一般是要统计一个区级[l,r]内满足一些条件的数的个数所谓数位dp,就是对数位进行dp,也就是个位、十位等相对于普通的暴力枚举,数位dp快就快在它的记忆化&#x…

打印机问题故障处理_十大打印机故障大全及处理方法

日常办公和生活中,打印机是不可或缺的重要设备。然而,在添加共享或使用共享打印机过程中,经常会遇各种问题。有遇到无法添加打印机、访问共享打印机报错,打印机无法打印等问题,然后这几种错误分别的原因不同&#xff0…

博睿谷IT认证-订阅试学习

在这个信息爆炸的时代,拥有一张IT认证证书,就像拿到了职场晋升的通行证。博睿谷,作为IT认证培训的佼佼者,帮你轻松拿下华为、Oracle等热门认证。下面,让我们一起看看博睿谷如何助你一臂之力。 学习时间,你说…

Fanuc modbusTcp 配置(Robo只能做从站)

需要刷modbusTcp功能包 581800 两个包 插口位置 1CD38A或2CD38B,ip地址可以是固定IP或DHCP IP的设置 MODB_ENBLIO1 才能读写io 注意通讯fanuc是 小端 DI DO都可以

C# 关于“您与该网站的连接不是私密连接...”的问题

目录 问题现象 范例运行环境 WebService 类 类介绍 增加参数 实现 小结 问题现象 最近在访问开发的微信支付功能时遇到了无法访问令牌的错误,这个错误是公司内部应用程序接口返回的访问错误。经过排查是访问 HTTPS 站点遇到的错误,提示证书风险…

MyBatis深度剖析:从入门到精通的实践指南

前言 什么是mybatis? MyBatis是一款优秀的持久层框架,用于简化Java应用程序与数据库之间的交互 什么是框架,为什么需要框架技术? 框架技术 是一个应用程序的半成品提供可重用的公共结构按一定规则组织的一组组件框架优势&#x…