机器学习-点击率预估-论文速读-20240916

1. [经典文章] 特征交叉: Factorization Machines, ICDM, 2010

分解机(Factorization Machines)

摘要

本文介绍了一种新的模型类——分解机(FM),它结合了支持向量机(SVM)和分解模型的优点。与SVM一样,FM可以处理任何实值特征向量。与SVM不同的是,FM使用分解参数对所有变量间的相互作用进行建模,因此即使在具有巨大稀疏性的问题中(如推荐系统),也能估计相互作用,而SVM在这种情况下会失败。我们展示了FM的模型方程可以在线性时间内计算,因此可以直接优化FM。与非线性SVM不同,不需要进行对偶形式的转换,模型参数可以直接估计,而不需要支持向量。我们展示了FM与SVM的关系以及FM在稀疏设置中参数估计的优势。另一方面,有许多不同的分解模型,如矩阵分解、并行因子分析或专门的模型如SVD++、PITF或FPMC。这些模型的缺点是它们不适用于一般预测任务,而只适用于特殊的输入数据。此外,它们的模型方程和优化算法是为每个任务单独派生的。我们展示了FM只需通过指定输入数据(即特征向量)就可以模仿这些模型。这使得即使是没有分解模型专业知识的用户也能轻松应用FM。

算法模型:

y(x) = w_{0} + \sum_{i}w_{i}x_{i} + \sum_{i=1}^{n}\sum_{j=i+1}^{n}<\mathbf{v}_{i}, \mathbf{v}_{j}>x_{i}x_{j}

模型核心参数: w_{0} \in \mathcal{R}, \mathbf{w} \in \mathcal{R}^{n}, \mathbf{V} \in \mathcal{R}^{n \times k}

创新点

  1. 稀疏数据下的参数估计:FM能够在极端稀疏的数据环境中估计参数,这是传统SVM难以做到的。
  2. 线性复杂度:FM具有线性时间复杂度,可以直接在原始形式中优化,而不需要依赖于支持向量。
  3. 通用性:FM是一个通用预测器,可以处理任何实值特征向量,与特定任务的分解模型不同。

算法模型

  • 分解机模型:FM通过分解参数来模拟特征间的所有可能交互,而不是使用完全参数化的方式。
  • 模型方程:FM的模型方程可以在线性时间内计算,并且只依赖于线性数量的参数。
  • 优化:FM可以使用梯度下降方法(如随机梯度下降)有效学习模型参数。

实验效果

  • Netflix数据集:FM在Netflix数据集上的评分预测误差(RMSE)比SVM表现得更好,展示了在稀疏问题上的优势。
  • ECML Discovery Challenge 2009:FM在标签推荐任务中与PITF模型相比,展现了可比的预测质量。

推荐阅读指数:★★★★☆

  • 推荐理由
    • 创新性:FM结合了SVM的泛化能力和分解模型的优势,特别是在处理稀疏数据方面提供了新的解决方案。
    • 实用性:FM的线性复杂度和直接优化能力使其能够扩展到大型数据集,如Netflix,具有实际应用价值。
    • 理论深度:文章深入探讨了FM与SVM以及其他分解模型的理论联系,为理解FM的工作原理提供了坚实的理论基础。

2. [经典文章] 兴趣建模: Deep Interest Network for Click-Through Rate Prediction, KDD, 2018 

深度兴趣网络用于点击率预测

摘要

点击率(CTR)预测在工业应用中是一项基本任务,例如在线广告。最近,基于深度学习的模型被提出,它们遵循类似的嵌入(Embedding)和多层感知器(MLP)范式。这些方法首先将大规模稀疏输入特征映射到低维嵌入向量,然后以分组的方式转换为固定长度的向量,最后将它们连接起来输入到多层感知器(MLP)中,以学习特征之间的非线性关系。然而,固定长度向量的使用将成为一个瓶颈,它为嵌入&MLP方法捕捉用户从丰富的历史行为中的多样化兴趣带来了困难。在本文中,我们提出了一种新颖的模型:深度兴趣网络(DIN),通过设计局部激活单元来适应性地从针对特定广告的历史行为中学习用户兴趣的表示。这种表示向量因不同的广告而异,极大地提高了模型的表现能力。此外,我们开发了两种技术:小批量感知正则化和数据自适应激活函数,这些技术可以帮助训练具有数亿参数的工业深度网络。在两个公共数据集以及阿里巴巴真实生产数据集上的实验表明,所提出方法的有效性,与最先进的方法相比,取得了优越的性能。DIN已成功部署在阿里巴巴的在线展示广告系统中,服务于主要流量。

创新点

  1. 局部激活单元:DIN通过局部激活单元关注与特定候选广告相关的用户历史行为,从而适应性地计算用户兴趣的表示向量。
  2. 小批量感知正则化:提出一种正则化技术,仅计算每个小批量中出现的特征的L2范数,减少了计算量。
  3. 数据自适应激活函数:设计了一种新的激活函数,根据输入数据的分布自适应调整激活点,提高了模型性能。

算法模型

  • 深度兴趣网络(DIN):引入局部激活单元,通过考虑历史行为与候选广告的相关性,适应性地学习用户兴趣的表示。
  • 小批量感知正则化:针对大规模稀疏特征的工业深度网络训练,仅对每个小批量中非零特征的参数进行正则化计算。
  • 数据自适应激活函数(Dice):一种基于数据分布自适应调整激活点的激活函数。

实验效果

  • 公共数据集:在Amazon和MovieLens数据集上,DIN相比于基线模型和其他深度模型,显示出优越的性能。
  • 阿里巴巴数据集:在具有超过20亿样本的阿里巴巴数据集上,DIN实现了显著的性能提升,AUC比基线模型提高了6.08%。
  • 在线A/B测试:在阿里巴巴的在线展示广告系统中,DIN贡献了高达10.0%的CTR和3.8%的RPM提升。

推荐阅读指数:★★★★☆

  • 推荐理由
    • 创新性:DIN模型通过局部激活单元和自适应激活函数,有效地捕捉了用户多样化的兴趣,提高了CTR预测的准确性。
    • 实用性:提出的技术已经在阿里巴巴的广告系统中得到实际应用,证明了其在工业级应用中的有效性和可扩展性。
    • 技术深度:文章详细介绍了DIN模型的设计和实现,以及针对大规模稀疏数据的优化技术,对相关领域的研究者和工程师具有较高的参考价值。

3. [每日新文] Intelligent maritime question-answering and recommendation system based on maritime vessel activity knowledge graph

C Xie, Z Zhong, L Zhang - Ocean Engineering, 2024

基于船舶活动知识图谱的智能海事问答与推荐系统

摘要

传统的海事交通管理通常依赖于定位数据进行数据挖掘,而没有结合其他多源数据来分析船舶活动,这无法进行全面的海事知识挖掘。因此,本研究整合了轨迹、海事事故文本和地理数据等多源数据,创建了一个船舶活动知识图谱。在此基础上,开发了基于双向问答注意力图神经网络的问答模型,以及基于注意力增强的联合知识传播和用户偏好图神经网络的个性化推荐模型。前者帮助用户从船舶活动知识图谱中提取有价值的信息,后者根据用户的历史查询信息预测用户的潜在兴趣,并自动推荐船舶实体。实验结果表明,所提出的问答模型在MVA问答数据集上,与最先进的基线模型相比,F1分数提高了2.31%-10.09%。同样,所提出的个性化推荐模型在MVA个性化推荐数据集上,与最先进的基线模型相比,点击率预测准确率提高了2.46%-7.05%。

创新点

  1. 多源数据融合:整合了轨迹、海事事故文本和地理数据等多源数据,构建了船舶活动知识图谱。
  2. 双向问答注意力图神经网络:开发了一种新的问答模型,可以更有效地从知识图谱中提取信息。
  3. 个性化推荐模型:基于注意力增强的联合知识传播和用户偏好图神经网络,预测用户潜在兴趣并进行推荐。

算法模型

  1. 问答模型:基于双向问答注意力图神经网络。
  2. 推荐模型:基于注意力增强的联合知识传播和用户偏好图神经网络。

实验效果

  • 问答模型:在MVA问答数据集上,F1分数比基线模型提高了2.31%-10.09%。
  • 推荐模型:在MVA个性化推荐数据集上,点击率预测准确率比基线模型提高了2.46%-7.05%。

推荐阅读指数:★★★★☆

  • 推荐理由
    • 创新性:文章提出了结合多源数据构建知识图谱,并基于此开发了问答和推荐模型,具有较高的创新性。
    • 实用性:模型在实际数据集上表现优异,具有较好的应用前景。
    • 技术深度:文章详细介绍了算法模型的设计和实现,对相关领域的研究者有较高的参考价值。

点评: 这篇论文整体创新一般,简单了解下文章研究问题即可,不值得深入分析。

4. [每日新文] MLoRA: Multi-Domain Low-Rank Adaptive Network for CTR Prediction, RecSys, 2024.

MLoRA: 用于点击率预测的多域低秩自适应网络

摘要

点击率(CTR)预测是工业中的一项基本任务,尤其是在电子商务、社交媒体和流媒体中。它直接影响网站收入、用户满意度和用户留存。然而,实际的生产平台通常包含多个领域以满足不同客户的需求。传统的CTR预测模型在多域推荐场景中表现不佳,面临数据稀疏和跨域数据分布差异的挑战。本文提出了一种多域低秩自适应网络(MLoRA),通过为每个领域引入专门的LoRA模块来增强模型在多域CTR预测任务中的性能,并且可以应用于各种深度学习模型。我们在几个多域数据集上评估了所提出的方法。实验结果表明,与最先进的基线相比,MLoRA方法取得了显著的改进。此外,我们在阿里巴巴的生产环境中部署了它,在线A/B测试结果表明其在实际生产环境中的优越性和灵活性。

创新点

  1. 多域低秩自适应网络(MLoRA):提出了一种新的CTR预测框架,通过为每个领域引入低秩自适应模块来提高模型的适应性和性能。
  2. LoRA模块:利用低秩结构对大型预训练模型进行微调,有效学习领域数据的知识,同时减少参数数量。
  3. 模型无关性:MLoRA是一个通用框架,可以轻松应用于各种基于深度学习的CTR模型。

算法模型

  • MLoRA:通过在每个领域中引入LoRA模块,模型能够更有效地学习每个领域的数据分布。
  • LoRA模块:在每个全连接层中注入可训练的低秩矩阵,以实现参数的高效微调。
  • 两阶段训练策略:先在大规模预训练数据上训练基础网络,然后在微调阶段添加MLoRA网络并冻结基础网络,专注于更新A和B以学习每个领域的个性化信息。

实验效果

  • 数据集:在Taobao、Amazon和Movielens数据集上进行了实验。
  • 性能提升:与基线模型相比,MLoRA在所有数据集上都实现了性能提升,平均提升0.5%。
  • 在线A/B测试:在阿里巴巴.COM电子商务网站上部署后,CTR提高了1.49%,订单转化率提高了3.37%,付费买家数量提高了2.71%。

推荐阅读指数:★★★★☆

  • 推荐理由
    • 创新性:MLoRA通过引入LoRA模块,有效地解决了多域CTR预测中的挑战,如数据稀疏和领域间的差异性。
    • 实用性:MLoRA已经在阿里巴巴的生产环境中得到应用,证明了其在实际大规模推荐系统中的有效性和可扩展性。
    • 技术深度:文章详细介绍了MLoRA的设计和实现,以及在多域CTR预测问题上的实验验证,对相关领域的研究者和工程师具有较高的参考价值。

点评: 这篇论文将LoRA应用到点击率预估问题,算法应用创新为主,整体数学模型相对简单,值得一看。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/143163.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Linux下的CAN通讯

CAN总线 CAN总线简介 CAN&#xff08;Controller Area Network&#xff09;总线是一种多主从式 <font color red>异步半双工串行 </font> 通信总线&#xff0c;它最早由Bosch公司开发&#xff0c;用于汽车电子系统。CAN总线具有以下特点&#xff1a; 多主从式&a…

解决使用阿里云DataV Geo在线地图路径访问403问题

文章目录 1. DataV Geo在线地图路径访问403问题2. 解决方法3. 重启生效 1. DataV Geo在线地图路径访问403问题 最近在写一个省市下钻的demo&#xff0c;用到的是 阿里云DataV Geo在线地图 去动态获取GeoJSON 省市的数据&#xff0c;如下代码 axios.get("https://geo.dat…

Golang | Leetcode Golang题解之第414题第三大的数

题目&#xff1a; 题解&#xff1a; func thirdMax(nums []int) int {var a, b, c *intfor _, num : range nums {num : numif a nil || num > *a {a, b, c &num, a, b} else if *a > num && (b nil || num > *b) {b, c &num, b} else if b ! ni…

马匹行为识别系统源码分享

马匹行为识别检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vis…

C语言程序设计(进阶)

行到水穷处&#xff0c;坐看云起时。 中秋快乐呀&#xff01; 数据在内存中的存储 1.数据类型的介绍 &#xff08;1&#xff09;基本的内置类型&#xff1a; char //字符数据类型 short //短整型 int //整型 long //长整型 …

说一说Zookeeper的应用场景及其原理

一 ZooKeeper简介 ZooKeeper是一个分布式的&#xff0c;开放源码的分布式应用程序协调服务&#xff0c;是Google的Chubby一个开源的实现&#xff0c;是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件&#xff0c;提供的功能包括&#xff1a;配置维护、域名…

K8S - Access Control 机制介绍

作为开发人员&#xff0c; 我们通常会直接用root 帐号操作 k8s master node 里的kubectl 命令&#xff0c;并不能感知k8s 多用户权限管理存在。 即使自动化&#xff0c; 我们也会考虑用ansible 来远程操作master node… 所以大部分开发人员默认上是不用深入研究k8s的Access c…

基于AlexNet实现猫狗大战

卷积神经网络介绍 卷积神经网络&#xff08;Convolutional Neural Network&#xff0c;简称CNN&#xff09;&#xff0c;是一种深度学习模型&#xff0c;特别适用于处理图像、视频等数据。它的核心思想是利用卷积层&#xff08;Convolutional layers&#xff09;来提取输入数据…

[C语言]连子棋游戏

文章目录 一、前言二、游戏思路三、游戏方法1、初始化2、判断胜利3、交互4、电脑下棋 四、核心方法说明1、初始化游戏2、销毁棋盘3、显示游戏4、电脑下棋5、用户下棋6、判断游戏状态7、游戏交互 五、游戏效果展示与源码分享1、游戏效果2、源代码 一、前言 对于指针和数组理解尚…

关于std::swap原理

swap 操作交换两个相同类型容器的内容。调用swap之后&#xff0c;两个容器中的元素将会 交换&#xff1a; vector<striong> svec1(10); //10个元素的vector vector<string> svec2(24); //24个元素的vector swap(svec1,svec2); 调…

C++ | Leetcode C++题解之第413题等差数列划分

题目&#xff1a; 题解&#xff1a; class Solution { public:int numberOfArithmeticSlices(vector<int>& nums) {int n nums.size();if (n 1) {return 0;}int d nums[0] - nums[1], t 0;int ans 0;// 因为等差数列的长度至少为 3&#xff0c;所以可以从 i2 开…

一款免费开源且功能强大的思维导图软件-思绪思维导图

思绪思维导图是一款免费开源的思维导图软件&#xff0c;旨在帮助用户有效地组织和表达思想。它提供了丰富的功能&#xff0c;包括支持富文本、图片、图标、超链接、备注、标签等内容&#xff0c;以及关联线、概要等特性。 思绪思维导图下载&#xff1a;https://pan.quark.cn/s…

在STM32工程中使用Mavlink与飞控通信

本文讲述如何在STM32工程中使用Mavlink协议与飞控通信&#xff0c;特别适合自制飞控外设模块的项目。 需求来源&#xff1a; 1、增稳云台里的STM32单片机需要通过串口接收飞控传来的云台俯仰、横滚控制指令和相机拍照控制指令&#xff1b; 2、自制的有害气体采集器需要接收飞…

基于Springboot的医疗健康助手开题报告

文未可获取一份本项目的java源码和数据库参考。 一&#xff0e;选题意义, 研究现状,可行性分析 选题意义&#xff1a;随着科技的高速发展&#xff0c;人们的生活水平也正在稳步提高&#xff0c;解决温饱问题以后&#xff0c;广大人民群众也越来越注重自己的身体健康&#xff0…

[Redis][前置知识][下][高并发架构演进]详细讲解

目录 1.单机架构2.应⽤数据分离架构3.应⽤服务集群架构4.读写分离/主从分离架构5.引⼊缓存⸺冷热分离架构6.垂直分库/分表7.业务拆分⸺微服务8.总结 1.单机架构 只有一台服务器&#xff0c;这个服务器负责所有的工作 大部分公司的产品&#xff0c;都是这种单机架构 2.应⽤数…

自己建网站怎么建

自己建立一个网站可能听起来有点复杂&#xff0c;但实际上&#xff0c;有很多简单且免费的方法可以实现。下面将介绍一些基本步骤&#xff0c;帮助你开始自己建立一个网站。 首先&#xff0c;你需要明确你的网站目的是什么。是个人博客、商业网站&#xff0c;还是其他类型的网…

frp内网穿透功能使用教程

frp 是一款高性能的反向代理应用&#xff0c;专注于内网穿透。它支持多种协议&#xff0c;包括 TCP、UDP、HTTP、HTTPS 等&#xff0c;并且具备 P2P 通信功能。使用 frp&#xff0c;您可以安全、便捷地将内网服务暴露到公网&#xff0c;通过拥有公网 IP 的节点进行中转。 文档地…

深度学习----------------------文本预处理

目录 文本预处理读取数据集词源化词表该部分总代码该部分总代码 整合所有功能该部分总代码 文本预处理 文本预处理&#xff1a;把文本当作一个时序序列 将解析文本的常见预处理步骤。 这些步骤通常包括&#xff1a; ①将文本作为字符串加载到内存中。 ②将字符串拆分为词元&…

【数据结构篇】~链表算法题3(环形链表)

链表算法题3&#xff08;环形链表&#xff09; 环形链表的证明1. 环形链表I​1) 思路2&#xff09;代码实现 2. 环形链表II​1) 思路11) 思路22&#xff09;代码实现 环形链表的证明 1. 环形链表I​ https://leetcode.cn/problems/linked-list-cycle/description/ 1) 思路 判断…

Nginx搭建直播服务器,并用rtmp,http-flv,hls三种模式拉流观看直播的流程

一、首先搭建直播服务器 环境widows&#xff0c;并且已经集成了 &#xff1a;nginx-http-flv-module模块 nginx.conf配置如下&#xff1a; worker_processes 1;#error_log logs/error.log; #error_log logs/error.log notice; #error_log logs/error.log info; #error…