论文阅读 - SWATTING Spambots: Real-time Detection of Malicious Bots on X

 https://web.archive.org/web/20240523035749id_/https://dl.acm.org/doi/pdf/10.1145/3589335.3651564
 

目录

ABSTRACT

INTRODUCTION

METHODOLOGY

3 RESULTS


ABSTRACT

        在 X(前身为 Twitter)等社交网络平台上,垃圾邮件机器人的活动日益猖獗,引发了人们对信息质量和用户体验的担忧。

        本研究提出了一种在 X 平台上实时检测和报告垃圾邮件机器人的创新方法。利用数据分析技术,我们调整了一个综合框架,该框架能够根据垃圾邮件账户的行为模式和特征对其进行准确识别和分类。

        通过为这一日益严重的问题提供有效的解决方案,我们的研究旨在增强用户对社交媒体交流渠道的信任,为用户相互交流和分享信息营造一个更加透明和真实的网络环境。

INTRODUCTION

        随着社交媒体的地位不断提高,了解这些平台如何促进和影响政治格局至关重要。在本研究论文中,我们将深入探讨社交网络在信息生态系统中的重要性,重点关注 X 作为政治参与和信息传播的主要平台所发挥的作用 [ 5, 10 ]。此外,我们还探讨了试图通过热门趋势操纵公众看法的行为者所采用的各种策略,这些趋势是放大某些信息或压制其他信息的有力工具

        鉴于 X 等平台上肆意操纵社交媒体的潜在风险,研究人员和政策制定者必须制定有效的方法来监控和减少此类活动 [ 4, 9 ]。

提出方法:

        因此,我们提出了一种系统性方法来分析 X 平台上的热门趋势操纵行为,最终目的是在这一数字领域促进透明度、问责制和负责任的信息交流。我们希望通过这项研究,阐明政治、社交媒体之间复杂的相互影响,以及在日益互联的世界中对民主社会的广泛影响。

        在研究操纵热门话题趋势方面,以往的研究主要集中在以下情况:数量有限的账户产生了与特定主题相关的异常高的发帖量,从而有效地参与了天马行空的行为。为了检测这些模式,人们开发并使用了各种检测算法,包括 Ben Nimmo 提出的流量操纵系数 (CTM)[7]。

GAP:

        然而,在分析大量账户发布少量帖子的情况时,这种算法可能不那么有效,而这正是我们开发的算法发挥作用的地方。

        我们的算法旨在通过采用基于多变量分析的方法来检测 X 的顶级趋势中潜在的操纵行为。以往的研究[6]主要关注单个账户的特征,而我们的方法则不同,它更深入地研究了用户之间错综复杂的互动网络,这些互动网络有助于推动特定的趋势。通过分析可能影响账户行为的各种变量及其在传播特定信息中的作用,我们可以有效识别异常模式或异常现象,这些异常模式或异常现象可能预示着操纵企图。通过这种多变量方法,我们的算法可以发现传统分析方法可能忽略的微妙操纵行为[1]。

        所提出的算法不仅增强了现有监测系统的检测能力,而且对那些试图通过 X 上的热门趋势影响公众舆论的人所采用的策略提供了有价值的见解。通过不断完善和调整我们的方法,我们可以确保为所有在该平台上参与政治讨论的用户提供一个更加透明、负责和安全的数字环境

METHODOLOGY

        通过使用僵尸网络,标签可能会被人为放大,僵尸网络由遵循特定指令集的僵尸账户组成。这些账户通常通过自动过程,使得它们的特征(例如创建日期、关注者/关注网络规模和历史活动量)相当接近。为了自动识别僵尸网络用于顶级趋势操纵的情况,我们采用了统计过程控制 (SPC),这是一种通常用于管理和监控各行业质量流程的方法

        该技术在检测具有可疑特征相似性的帐户组方面表现出良好的效果。我们的假设是,随着连续参与账户的属性之间的变化,顶级趋势自然出现,反映了真实的参与模式。因此,当具有相似特征的配置文件相继参与顶级趋势的升级时,预计变异性相对于规范值会降低。

        SPC 方法允许对从数据中提取的多个属性进行检验。在这种情况下,我们选择使用 X 社交媒体提供的易于获取的特征:关注者数量、被关注者数量、推文总数和账户年龄。账户的年龄在确定其可信度方面起着至关重要的作用,因为新账户更有可能是出于操纵目的而创建的,而且可能与同一个傀儡主子有关联。

        形式上,设为一个账户的属性X。对于顶级趋势,X_i, i \in [1,n]表示顶级趋势中第i^{th}个账户的属性值。我们可以将这些值分成大小为 k 的滑动窗口,并计算中位数 \widetilde{x}_j

        奥克兰[8]概述的 SPC 方法包括计算这些参数的控制界限,这有助于发现任何可能表明账户操纵的异常模式或异常现象。这些控制上限和下限可以用公式计算:

         其中,\widetilde{X}\sigma _X分别代表一连串测量值的中值和标准偏差。系数 3 表示约 99.7% 的正态分布数据将包含在这些界限内。这些控制限值是在触发与垃圾邮件机器人操纵有关的潜在异常或模式警告之前的最大和最小可接受值

        我们采用了一种实时监控和检测方法来识别和报告 X 上操纵热门标签的恶意僵尸。我们首先跟踪了 2022 年至 2023 年的特定流行标签,并手动验证了这些期间是否存在僵尸活动。这些标签的发帖量如图 1 所示。我们利用 X 的前 API v2 收集与特定标签相关的数据。

        使用法国标签 #PenurieCarburant 观察到了此类操纵活动的一个例子,在此期间,与机器人相关的活动激增[2]。这些机器人只发布了一条带有随机文本的信息,表明它们试图误导用户并制造虚假叙述.

        该主题标签的一个显着特征是内容传播不仅通过转发进行,还通过异常高比例的原始消息进行。不同的帐户,这使得传统的警报指标(例如 CTM)很难检测潜在的信息操纵。

        2023 年 1 月,法国人在讨论巴西国民议会发生的事件时使用了 #Brésil 标签。同样,#OmarSy 标签与法国演员奥马尔-西(Omar Sy)主演的一部电影的上映有关。这些未受操纵的标签是了解 X 上合法用户行为模式的宝贵基准,并为检测表明存在恶意僵尸活动的异常活动提供了背景。

        为了更好地理解僵尸驱动的营销活动,我们分析了所调查的每个标签的选定变量(如粉丝数、关注数、每天推文数和账户年龄)的分布情况。收集到的非受操纵的热门趋势数据使我们能够校准每个变量的控制范围,这反过来又帮助我们识别了表明僵尸活动的异常模式或异常现象。图 2 显示了所选标签变量的分布情况。

        在分析中,我们对追随值和跟随值进行了对数变换,因为在较高的数值范围内,追随值和跟随值往往会发生变化[3]。这种方法允许 我们就能更好地可视化和分析数据,并突出显示任何可能表明垃圾邮件机器人操纵的潜在异常值。值得注意的是,在 #PenurieCarburant 标签的分布初期可以观察到一个异常值峰值,这是由于垃圾邮件机器人账户通常表现为 0 关注者和 0 追随者。

        为了建立分析的控制边界,我们使用未被操纵的标签(如 #OmarSy 和 #Brésil)的数据计算了这些值。计算得出的边界见 Ta- ble 1,为识别研究目标标签中潜在的垃圾邮件机器人操纵模式提供了比较基础

3 RESULTS

        我们采用了滑动窗口法,通过计算连续帖子窗口的特征来评估检测算法的性能。通过使用k = 100 个帖子的窗口大小,我们可以直观地分析每个特征在这些窗口中的分布情况。

        图 3 用红色矩形显示了预期的下边界和上边界,使我们能够找出可能影响所研究标签数量的潜在垃圾邮件机器人活动。

        在受操纵的散列标签 #PenurieCarburant 中,有几个点落在了这些边界之外,这表明垃圾邮件机器人对提高散列标签的显著性负有责任。此外,我们的分析表明,操纵散列标签的机器人是最近才创建的,没有任何其他推文,社交参与度极低(0 个追随者,0 个关注者),而且只发布了一条帖子。

        除了使用历史数据评估我们的方法外,我们还通过分析通过流 API 端点接收到的帖子进行了实时测试。为了尽量减少误报的可能性,我们实施了一条规则,只有在观察到连续 10 个滑动窗口点超出既定控制边界。在测试阶段,我们的系统生成的大多数警报都与关注者日志和每日推文数据有关,为了解 X 等社交媒体平台上潜在的垃圾邮件机器人操纵行为提供了宝贵的信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1544177.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

html中为div添加展开与收起功能(div折叠)

1、添加样式 <style type"text/css">.mask {position: absolute;bottom: -5px;color: #4b83f0;font-weight: 700;font-size: 14px;text-align: center;height: 80px;left: 0;right: 0;background-image: -webkit-gradient(linear, left top, left bottom, from…

机械零件检测系统源码分享

机械零件检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vis…

零基础入门AI大模型应用开发——第三天:使用python实现问答机器人

一、简介 问答机器人是一种能够理解用户提问并提供相关答案的程序。它可以用于各种场景&#xff0c;如客户支持、在线教育、信息检索等。用户通过自然语言输入问题&#xff0c;机器人则通过分析问题并检索相关信息来提供回答。 使用什么技术实现的&#xff1f; 自然语言处理&…

电源设计的艺术:从底层逻辑到工程实践

在电子工程的世界里&#xff0c;电源设计是核心中的核心。它不仅是电子设备的能量源泉&#xff0c;更是整个系统稳定运行的基石。随着科技的不断进步&#xff0c;电源设计的要求也越来越高&#xff0c;从效率、稳定性到体积、成本&#xff0c;每一个维度都是工程师们不断追求的…

Github 2024-09-21Rust开源项目日报 Top10

根据Github Trendings的统计,今日(2024-09-21统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Rust项目10Move项目1JavaScript项目1Deno: 现代JavaScript和TypeScript运行时 创建周期:2118 天开发语言:Rust, JavaScript协议类型:MIT Lic…

LSI SAS 9361-8i和SAS3008 12 gb / s PCIe 3.0 RAID 阵列卡配置

LSI SAS 9361-8i和SAS3008 12 gb / s PCIe 3.0 RAID 阵列卡配置 开机&#xff0c;BIOS自检&#xff0c;可以看到设备硬盘信息&#xff0c;以及提示CtrlR进入Raid卡配置界面。 按CtrlR进入Raid卡配置界面&#xff0c;一般来说使用CtrlR进入Raid卡配置界面的Raid卡配置都通用。 …

ant design vue实现表格序号递增展示~

1、代码实例 //current当前页数 //pageSize每页记录数 const columns [{title: 序号,width: 100,customRender: ({ index }) > ${index (current.value - 1) * pageSize.value 1},align: center,fixed: left,} ] 2、效果图

9.24今日错题解析(软考)

前言 这是用来记录我每天备考软考设计师的错题的&#xff0c;今天知识点为操作系统和数据结构&#xff0c;大部分错题摘自希赛中的题目&#xff0c;但相关解析是原创&#xff0c;有自己的思考&#xff0c;为了复习&#xff1a;&#xff09;&#xff0c;最后希望各位报考软考的…

【第十九章:Sentosa_DSML社区版-机器学习之模型评估】

目录 19.1 评估 19.2 混淆矩阵 19.3 ROC-AUC 19.4 时间序列模型评估 【第十九章&#xff1a;Sentosa_DSML社区版-机器学习之模型评估】 19.1 评估 1.算子介绍 评估算子(EvaluationNode) 用于评估用当前数据训练出来的模型的正确性&#xff0c;显示对模型各个评价指标的具…

从零预训练一个tiny-llama#Datawhale组队学习Task2

完整的教程请参考&#xff1a;datawhalechina/tiny-universe: 《大模型白盒子构建指南》&#xff1a;一个全手搓的Tiny-Universe (github.com) 这是Task2的学习任务 目录 Qwen-blog Tokenizer&#xff08;分词器&#xff09; Embedding&#xff08;嵌入&#xff09; RMS …

个人行政复议在线预约系统开发+ssm论文源码调试讲解

第二章 开发工具及关键技术介绍 2.1 JAVA技术 Java主要采用CORBA技术和安全模型&#xff0c;可以在互联网应用的数据保护。它还提供了对EJB&#xff08;Enterprise JavaBeans&#xff09;的全面支持&#xff0c;java servlet API&#xff0c;JSP&#xff08;java server pages…

武汉正向科技 格雷母线定位系统生产厂家

为了适应机车无人化项目对地址高精度的要求&#xff0c;我们推出了高精度格雷母线&#xff0c;根据地址的检测原理&#xff0c;地址精度取决于格雷母线最小交叉环的精度&#xff0c;传统的格雷母线内胆采用柔性泡沫内胆&#xff08;图片1&#xff09;&#xff0c;格雷母线最小交…

末端无人配送产业链

末端无人配送产业链涵盖部件、系统、整车制造、运营服务、应用场景等五大环节。 四类企业竞逐末端配送&#xff0c;“科技公司物流企业”成最佳CP、平台公司蓄势待发

浏览器指纹修改指南2024 -了解SpeechVoice(四)

引言 随着互联网技术的飞速发展,用户隐私保护的重要性日益凸显。浏览器作为我们访问互联网的主要工具之一,其独特的指纹信息却成为了用户隐私的一大隐患。浏览器指纹技术利用浏览器的各种特性,如用户代理(User Agent)、字体列表、插件等,生成一个独一无二的识别码,使得用户即便…

详细分析SpringMvc中HandlerInterceptor拦截器的基本知识(附Demo)

目录 前言1. 基本知识2. Demo3. 实战解析 前言 对于Java的基本知识推荐阅读&#xff1a; java框架 零基础从入门到精通的学习路线 附开源项目面经等&#xff08;超全&#xff09;【Java项目】实战CRUD的功能整理&#xff08;持续更新&#xff09; 1. 基本知识 HandlerInter…

MFC - 复杂控件_2

前言 各位师傅大家好&#xff0c;我是qmx_07&#xff0c;今天讲解剩下的复杂控件知识点 IP地址栏 绘图准备: 调整windows窗口大小、设置 ip address control设置 Button按钮&#xff0c;修改名称 添加IP栏 变量&#xff1a;m_IP 获取IP栏内容 void CMFCApplication3Dlg::…

C++中的string模拟实现

上一章讲了库中的string函数&#xff0c;这次我们来讲一讲模拟实现 #define _CRT_SECURE_NO_WARNINGS #include<iostream> #include<assert.h> using namespace std; //域名 namespace zzj {class String {public:typedef char* iterator;typedef const char* cons…

【Java 问题】基础——Java 概述

Java 概述 1. 什么是 Java ?2. Java 语言有哪些特点3. JVM、JDK 和 JRE 有什么区别&#xff1f;4. 说说什么是跨平台性&#xff1f;原理是什么&#xff1f;5. 什么是字节码&#xff1f;采用字节码的好处是什么&#xff1f;6. 为什么说 Java 语言 "编译与解释并存"?…

将 Go 作为脚本语言用及一些好用的包

前言 Go 作为一种可用于创建高性能网络和并发系统的编程语言&#xff0c;它的生态应用变得越来越广泛&#xff0c;同时&#xff0c;这也激发了开发人员使用 Go 作为脚本语言的兴趣。虽然目前 Go 还未准备好作为脚本语言 “开箱即用” 的特性&#xff0c;用来替代 Python 和 Ba…

OpenHarmony(鸿蒙南向开发)——小型系统内核(LiteOS-A)【Perf调测】

往期知识点记录&#xff1a; 鸿蒙&#xff08;HarmonyOS&#xff09;应用层开发&#xff08;北向&#xff09;知识点汇总 鸿蒙&#xff08;OpenHarmony&#xff09;南向开发保姆级知识点汇总~ 持续更新中…… 基本概念 Perf为性能分析工具&#xff0c;依赖PMU&#xff08;Per…