机器学习-点击率预估-论文速读-20240916

1. [经典文章] 特征交叉: Factorization Machines, ICDM, 2010

分解机（Factorization Machines）

摘要

本文介绍了一种新的模型类——分解机（FM），它结合了支持向量机（SVM）和分解模型的优点。与SVM一样，FM可以处理任何实值特征向量。与SVM不同的是，FM使用分解参数对所有变量间的相互作用进行建模，因此即使在具有巨大稀疏性的问题中（如推荐系统），也能估计相互作用，而SVM在这种情况下会失败。我们展示了FM的模型方程可以在线性时间内计算，因此可以直接优化FM。与非线性SVM不同，不需要进行对偶形式的转换，模型参数可以直接估计，而不需要支持向量。我们展示了FM与SVM的关系以及FM在稀疏设置中参数估计的优势。另一方面，有许多不同的分解模型，如矩阵分解、并行因子分析或专门的模型如SVD++、PITF或FPMC。这些模型的缺点是它们不适用于一般预测任务，而只适用于特殊的输入数据。此外，它们的模型方程和优化算法是为每个任务单独派生的。我们展示了FM只需通过指定输入数据（即特征向量）就可以模仿这些模型。这使得即使是没有分解模型专业知识的用户也能轻松应用FM。

算法模型:

$y(x) = w_{0} + \sum_{i}w_{i}x_{i} + \sum_{i=1}^{n}\sum_{j=i+1}^{n}<\mathbf{v}_{i}, \mathbf{v}_{j}>x_{i}x_{j}$

模型核心参数: $w_{0} \in \mathcal{R}, \mathbf{w} \in \mathcal{R}^{n}, \mathbf{V} \in \mathcal{R}^{n \times k}$

创新点

稀疏数据下的参数估计：FM能够在极端稀疏的数据环境中估计参数，这是传统SVM难以做到的。
线性复杂度：FM具有线性时间复杂度，可以直接在原始形式中优化，而不需要依赖于支持向量。
通用性：FM是一个通用预测器，可以处理任何实值特征向量，与特定任务的分解模型不同。

算法模型

分解机模型：FM通过分解参数来模拟特征间的所有可能交互，而不是使用完全参数化的方式。
模型方程：FM的模型方程可以在线性时间内计算，并且只依赖于线性数量的参数。
优化：FM可以使用梯度下降方法（如随机梯度下降）有效学习模型参数。

实验效果

Netflix数据集：FM在Netflix数据集上的评分预测误差（RMSE）比SVM表现得更好，展示了在稀疏问题上的优势。
ECML Discovery Challenge 2009：FM在标签推荐任务中与PITF模型相比，展现了可比的预测质量。

推荐阅读指数：★★★★☆

推荐理由：
- 创新性：FM结合了SVM的泛化能力和分解模型的优势，特别是在处理稀疏数据方面提供了新的解决方案。
- 实用性：FM的线性复杂度和直接优化能力使其能够扩展到大型数据集，如Netflix，具有实际应用价值。
- 理论深度：文章深入探讨了FM与SVM以及其他分解模型的理论联系，为理解FM的工作原理提供了坚实的理论基础。

2. [经典文章] 兴趣建模: Deep Interest Network for Click-Through Rate Prediction, KDD, 2018

深度兴趣网络用于点击率预测

摘要

点击率（CTR）预测在工业应用中是一项基本任务，例如在线广告。最近，基于深度学习的模型被提出，它们遵循类似的嵌入（Embedding）和多层感知器（MLP）范式。这些方法首先将大规模稀疏输入特征映射到低维嵌入向量，然后以分组的方式转换为固定长度的向量，最后将它们连接起来输入到多层感知器（MLP）中，以学习特征之间的非线性关系。然而，固定长度向量的使用将成为一个瓶颈，它为嵌入&MLP方法捕捉用户从丰富的历史行为中的多样化兴趣带来了困难。在本文中，我们提出了一种新颖的模型：深度兴趣网络（DIN），通过设计局部激活单元来适应性地从针对特定广告的历史行为中学习用户兴趣的表示。这种表示向量因不同的广告而异，极大地提高了模型的表现能力。此外，我们开发了两种技术：小批量感知正则化和数据自适应激活函数，这些技术可以帮助训练具有数亿参数的工业深度网络。在两个公共数据集以及阿里巴巴真实生产数据集上的实验表明，所提出方法的有效性，与最先进的方法相比，取得了优越的性能。DIN已成功部署在阿里巴巴的在线展示广告系统中，服务于主要流量。

创新点

局部激活单元：DIN通过局部激活单元关注与特定候选广告相关的用户历史行为，从而适应性地计算用户兴趣的表示向量。
小批量感知正则化：提出一种正则化技术，仅计算每个小批量中出现的特征的L2范数，减少了计算量。
数据自适应激活函数：设计了一种新的激活函数，根据输入数据的分布自适应调整激活点，提高了模型性能。

算法模型

深度兴趣网络（DIN）：引入局部激活单元，通过考虑历史行为与候选广告的相关性，适应性地学习用户兴趣的表示。
小批量感知正则化：针对大规模稀疏特征的工业深度网络训练，仅对每个小批量中非零特征的参数进行正则化计算。
数据自适应激活函数（Dice）：一种基于数据分布自适应调整激活点的激活函数。

实验效果

公共数据集：在Amazon和MovieLens数据集上，DIN相比于基线模型和其他深度模型，显示出优越的性能。
阿里巴巴数据集：在具有超过20亿样本的阿里巴巴数据集上，DIN实现了显著的性能提升，AUC比基线模型提高了6.08%。
在线A/B测试：在阿里巴巴的在线展示广告系统中，DIN贡献了高达10.0%的CTR和3.8%的RPM提升。

推荐阅读指数：★★★★☆

推荐理由：
- 创新性：DIN模型通过局部激活单元和自适应激活函数，有效地捕捉了用户多样化的兴趣，提高了CTR预测的准确性。
- 实用性：提出的技术已经在阿里巴巴的广告系统中得到实际应用，证明了其在工业级应用中的有效性和可扩展性。
- 技术深度：文章详细介绍了DIN模型的设计和实现，以及针对大规模稀疏数据的优化技术，对相关领域的研究者和工程师具有较高的参考价值。

3. [每日新文] Intelligent maritime question-answering and recommendation system based on maritime vessel activity knowledge graph

C Xie, Z Zhong, L Zhang - Ocean Engineering, 2024

基于船舶活动知识图谱的智能海事问答与推荐系统

摘要

传统的海事交通管理通常依赖于定位数据进行数据挖掘，而没有结合其他多源数据来分析船舶活动，这无法进行全面的海事知识挖掘。因此，本研究整合了轨迹、海事事故文本和地理数据等多源数据，创建了一个船舶活动知识图谱。在此基础上，开发了基于双向问答注意力图神经网络的问答模型，以及基于注意力增强的联合知识传播和用户偏好图神经网络的个性化推荐模型。前者帮助用户从船舶活动知识图谱中提取有价值的信息，后者根据用户的历史查询信息预测用户的潜在兴趣，并自动推荐船舶实体。实验结果表明，所提出的问答模型在MVA问答数据集上，与最先进的基线模型相比，F1分数提高了2.31%-10.09%。同样，所提出的个性化推荐模型在MVA个性化推荐数据集上，与最先进的基线模型相比，点击率预测准确率提高了2.46%-7.05%。

创新点

多源数据融合：整合了轨迹、海事事故文本和地理数据等多源数据，构建了船舶活动知识图谱。
双向问答注意力图神经网络：开发了一种新的问答模型，可以更有效地从知识图谱中提取信息。
个性化推荐模型：基于注意力增强的联合知识传播和用户偏好图神经网络，预测用户潜在兴趣并进行推荐。

算法模型

问答模型：基于双向问答注意力图神经网络。
推荐模型：基于注意力增强的联合知识传播和用户偏好图神经网络。

实验效果

问答模型：在MVA问答数据集上，F1分数比基线模型提高了2.31%-10.09%。
推荐模型：在MVA个性化推荐数据集上，点击率预测准确率比基线模型提高了2.46%-7.05%。

推荐阅读指数：★★★★☆

推荐理由：
- 创新性：文章提出了结合多源数据构建知识图谱，并基于此开发了问答和推荐模型，具有较高的创新性。
- 实用性：模型在实际数据集上表现优异，具有较好的应用前景。
- 技术深度：文章详细介绍了算法模型的设计和实现，对相关领域的研究者有较高的参考价值。

点评: 这篇论文整体创新一般，简单了解下文章研究问题即可，不值得深入分析。

4. [每日新文] MLoRA: Multi-Domain Low-Rank Adaptive Network for CTR Prediction, RecSys, 2024.

MLoRA: 用于点击率预测的多域低秩自适应网络

摘要

点击率（CTR）预测是工业中的一项基本任务，尤其是在电子商务、社交媒体和流媒体中。它直接影响网站收入、用户满意度和用户留存。然而，实际的生产平台通常包含多个领域以满足不同客户的需求。传统的CTR预测模型在多域推荐场景中表现不佳，面临数据稀疏和跨域数据分布差异的挑战。本文提出了一种多域低秩自适应网络（MLoRA），通过为每个领域引入专门的LoRA模块来增强模型在多域CTR预测任务中的性能，并且可以应用于各种深度学习模型。我们在几个多域数据集上评估了所提出的方法。实验结果表明，与最先进的基线相比，MLoRA方法取得了显著的改进。此外，我们在阿里巴巴的生产环境中部署了它，在线A/B测试结果表明其在实际生产环境中的优越性和灵活性。

创新点

多域低秩自适应网络（MLoRA）：提出了一种新的CTR预测框架，通过为每个领域引入低秩自适应模块来提高模型的适应性和性能。
LoRA模块：利用低秩结构对大型预训练模型进行微调，有效学习领域数据的知识，同时减少参数数量。
模型无关性：MLoRA是一个通用框架，可以轻松应用于各种基于深度学习的CTR模型。

算法模型

MLoRA：通过在每个领域中引入LoRA模块，模型能够更有效地学习每个领域的数据分布。
LoRA模块：在每个全连接层中注入可训练的低秩矩阵，以实现参数的高效微调。
两阶段训练策略：先在大规模预训练数据上训练基础网络，然后在微调阶段添加MLoRA网络并冻结基础网络，专注于更新A和B以学习每个领域的个性化信息。

实验效果

数据集：在Taobao、Amazon和Movielens数据集上进行了实验。
性能提升：与基线模型相比，MLoRA在所有数据集上都实现了性能提升，平均提升0.5%。
在线A/B测试：在阿里巴巴.COM电子商务网站上部署后，CTR提高了1.49%，订单转化率提高了3.37%，付费买家数量提高了2.71%。

推荐阅读指数：★★★★☆

推荐理由：
- 创新性：MLoRA通过引入LoRA模块，有效地解决了多域CTR预测中的挑战，如数据稀疏和领域间的差异性。
- 实用性：MLoRA已经在阿里巴巴的生产环境中得到应用，证明了其在实际大规模推荐系统中的有效性和可扩展性。
- 技术深度：文章详细介绍了MLoRA的设计和实现，以及在多域CTR预测问题上的实验验证，对相关领域的研究者和工程师具有较高的参考价值。

点评: 这篇论文将LoRA应用到点击率预估问题，算法应用创新为主，整体数学模型相对简单，值得一看。