技术段子——论如何在0.387秒以内获取到闲鱼的上新数据。

个人一直在做闲鱼辅助相关的工具类软件。因为知道阿里系请求和风控的原因,再加个人做软件一直想的是如何让用户稳定运行。

因为阿里系对于请求的风控,所以个人风格导到软件效率一直一般。并不是做不到快速抓取,而是用效率换稳定。

所以,我也一直很好奇那些上来就说要1秒内获取到上新数据,监控最新发布的需求,究竟是怎么想的。而那些号称0.8秒获取到数据的卖家,或者开发者,是否靠谱。

原来的软件架构一直是采用hook安卓app的架构,尤其是对于非开发、没有个人维护能力的人员,将hook功能封装成本地软件在使用,是hook的一个可靠的持久化方案。

hook对于app来说,就相当于一个基于代码层,或者Runtime层的一个按键精灵,原理上面并不难懂。但对于运行来说,也就相当于是模拟人工操作运行了。

1、测试框架升级

因为hook架构的局限性,造成了无法稳定快速获取数据。所以一直以来,在学习阿里安全方面技术的同时,也在研究怎么升级和改造自己获取数据的框架——unidbg调用so,甚至直接还原算法。

理论上这样的架构会在获取签名和请求数据的效率上提高不少,尤其是针对风控,针对分部式系统的搭建方面都很容易实现,最终达到提高数据同步的效率。

2、效率疑云

软件目前已经经过本人自己测试,本人已经在使用了。

但随着使用的进行,我发现大部分所谓采集的最新数据,都要比标准时间延迟2到3秒以上,到6到8秒的数据也有不少。

我目前对自己的架构是十分自信的,那么问题在哪?

闲鱼商品的发布时间,是在闲鱼数据里面自带字段,并不是随意定义的,比如下面这段数据段:

将获取到数据的时间生成一个时间戳,再对比商品的发布时间,即可以获取商品从发布,到被获取到的时间差,这个就可以理解成获取闲鱼商品的延迟。那么,在第二张截图的抓取时间和发布时间对比,发现大部分的睡迟都在4秒和以上,第三张截图(下午测试截图)的延迟也普遍在2秒和2秒以上,可能是因为晚上,发布数据少,而用户请求多,下午时间测试的延迟效果要好于晚上测试。

但这普遍2,3秒的延迟是什么原因造成的,那些号称0.8秒即可以获取闲鱼数据的技术,又到底是什么逆天技术?

3、编程语言效率、数据解析延迟?

使用同样的请求后端架构,我分别使用python, Java, Go都写了请求代码,获取到闲鱼数据后,解析获取数据里面延迟最低的那条数据呈现出来,发现...

python测试结果

Java测试结果

Go测试结果

发现不同的编程语言,对于请求数据到本地的延迟其实大差不差。最小延迟基本在2秒,普遍在2-4秒左右。

应该是数据量小,计算压力也不大,所以不同的语言呈现出来的结果大致相同。而且,也说明延迟和语言关系不大。

4、一条相同数据,两次获取延迟差为0.387秒!

上面的问题无从着手,但随着继续测试,我发现一个问题。当新数据量不足的时候,两次请求可能获取同一条数据。而同一条数据得到的延迟数据,竟然只有很小的差距。

我们先看一下面的逻辑:

// 假设两次请求获取到了某同一条数据。int publishTime;  // 同一条数据发布时间
int t1;   // 第1次获取数据时间
int t2;  // 第2次获取数据时间int delay1 = t1 - publishTime;    // 第1获取该数据的延迟
int delay2 = t2 - publishTime;    // 第2获取该数据的延迟int delayDelay = delay2 - delay1;/*这时候, delayDelay就等于 t2 - t1*/

如果我们在理论上复现一次这其中的操作:

我们在 t1的时候第1次获取到该数据的同时,马上再次请求,在t1+delayDelay这个时间,再次获取到该数据。

在上图中我们可以看到,这个delayDelay最短为0.387秒。

这说明什么:

1. 在这0.387秒内,闲鱼没有新数据发布。2. 在这0.387秒内,是两次获取到数据的时间差,其前面的最低延迟4秒,这么大的差别不是本地计算差异造成的。3. 即然两次获取到同一条数据的差距是0.387,那么晚0.387秒,和早0.387秒,是不是也应该能获取到数据。但为什么获取不到

我们再对比一下获取数据和流程看一下:


本地组装参数 -> 请求闲鱼 -> 返回数据 -> 本地解析数据 -> 打印结果 |            |           |            |计算延迟        网络延迟      计算延迟    io延迟

上面列出了整个过程中的延迟可能出现的地方。但是,对于计算机来说,数据量不大,本地计算的时间,几乎是可以忽略的,这在我前面用不同语言去请求数据,获取到的结果大差不差也能说明。

io延迟的话,这里也可以忽略不计,因为没多少,也不存在竞争打印的情况。

所以,为什么第一次获取到闲鱼数据会有2-4秒的延迟呢?

5、网络延迟3秒以上?

我再在在闲鱼请求和获取到数据打上时间节点,获取到这一块的延迟是多少:

可以看到,我的网络情况还是很好的,基本网络延迟在0.6-0.7秒之间。

但这么一对比,闲鱼数据的延迟就更明显了。

暂时结论:

到这里,我已经实在想不出其他原因能造成这种延迟情况了。是不是我们可以推测:

1. 闲鱼的数据,在发布后2秒左右,是不对外公开的。系统会对数据做一定的检查、测试,也可以说是评估。毕竟闲鱼发布的内容有时候有审核也是遇到过的。

2. 既然闲鱼在商品发布后2秒内数据是获取不到的,那些号称自己可以在1秒内,甚至是0.8秒获取到数据的人,是套路还是骗局?

以上内容,仅代表个人观点,如有不适,可联系删除。如有帮助,可点赞收藏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/15482.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【C#设计模式(10)——装饰器模式(Decorator Pattern)】

前言 装饰器模式可以在运行时为对象添加额外的功,而无需修改原始对象的代码。这种方式比继承更加灵活。 代码 //蛋糕类(抽象类) public abstract class Cake {public abstract void Create(); } //奶油蛋糕类 public class CreamCake : Cak…

2025年PMP考试安排是怎样?备考计划与重要时间节点公布

PMP考试在中国大陆每年举行四次,分别是在3月、6月、9月和12月。而中国港澳台地区的PMP考试则可以每天进行机考。在中国大陆地区的笔试考试中,主要采用涂卡和机读卡来记录成绩。 每次PMP考试的时间都是在周六的9点到12点50分,共计230分钟。 P…

缓冲式线程池C++简易实现

前言 : 代码也比较短&#xff0c;简单说一下代码结构&#xff0c;是这样的&#xff1a; SyncQueue.hpp封装了一个大小为MaxTaskCount的同步队列&#xff0c;这是一个模板类&#xff0c;它在线程池中承担了存放任务等待线程组中的线程来执行的角色。最底层是std::list<T>…

推荐一款功能强大的光学识别OCR软件:Readiris Dyslexic

Readiris Dyslexic是一款功能强大的光学识别OCR软件&#xff0c;可以扫描任何纸质文档并将其转换为完全可编辑的数字文件(Word&#xff0c;Excel&#xff0c;PDF)&#xff0c;然后用你喜欢的编辑器进行编辑。该软件提供了一种轻松创建&#xff0c;修改和签名PDF的完整解决方法&…

【面试全纪实 | Nginx 04】请回答,你真的精通Nginx吗?

&#x1f5fa;️博客地图 &#x1f4cd;1、location的作用是什么&#xff1f; &#x1f4cd;2、你知道漏桶流算法和令牌桶算法吗&#xff1f; &#x1f4cd;3、Nginx限流怎么做的&#xff1f; &#x1f4cd;4、为什么要做动静分离&#xff1f; &#x1f4cd;5、Nginx怎么做…

如何为你的 SaaS 公司做好国际化发展的准备?

随着 SaaS&#xff08;软件即服务&#xff09;公司的不断发展&#xff0c;确定扩张机会并建立可扩展的流程和策略以支持这些机会变得至关重要。一些公司向上游市场扩张&#xff0c;向企业销售产品&#xff0c;而此前他们主要面向中小企业。一些公司则朝着相反的方向发展&#x…

Towards Reasoning in Large Language Models: A Survey

文章目录 题目摘要引言什么是推理?走向大型语言模型中的推理测量大型语言模型中的推理发现与启示反思、讨论和未来方向 为什么要推理?结论题目 大型语言模型中的推理:一项调查 论文地址:https://arxiv.org/abs/2212.10403 项目地址: https://github.com/jeffhj/LM-reason…

推荐一款硬盘数据清除工具:Macrorit Data Wiper

Macrorit Data Wiper是一款硬盘数据清除工具&#xff0c;用于安全擦除数据、分区和磁盘的一站式工具包。完全擦除系统/引导分区。许多程序文件默认存储在系统磁盘驱动器中。如果您或您的组织想要永久擦除磁盘驱动器以防止未经授权使用您的数据&#xff0c;则此功能是必要的。 为…

第13章 Zabbix分布式监控企业实战

企业服务器对用户提供服务,作为运维工程师最重要的事情就是保证该网站正常稳定的运行,需要实时监控网站、服务器的运行状态,并且有故障及时去处理。 监控网站无需人工时刻去访问WEB网站或者登陆服务器去检查,可以借助开源监控软件例如Zabbix、Cacti、Nagios、Ganglia等来实…

2024IJCAI | MetalISP: 仅用1M参数的RAW到RGB高效映射模型

文章标题是&#xff1a;《MetaISP:Effcient RAW-to-sRGB Mappings with Merely 1M Parameters》 MetaISP收录于2024IJCAI&#xff0c;是新加坡国立大学&#xff08;Xinchao Wang为通讯作者&#xff09;和华为联合研发的新型ai-isp。 原文链接&#xff1a;MetaISP 【1】论文的…

使用 ts-node 运行 ts文件,启动 nodejs项目

最近在写一个nodejs项目&#xff0c;使用 ts-node 启动项目。遇到了一些问题&#xff0c;在此记录一下。 ts-node 是 TypeScript 执行引擎和 Node.js 的 REPL(一个简单的交互式的编程环境)。 它能够直接在 Node.js 上执行 TypeScript&#xff0c;而无需预编译。 这是通过挂接…

《鸿蒙生态:开发者的机遇与挑战》

一、引言 在当今科技飞速发展的时代&#xff0c;操作系统作为连接硬件与软件的核心枢纽&#xff0c;其重要性不言而喻。鸿蒙系统的出现&#xff0c;为开发者带来了新的机遇与挑战。本文将从开发者的角度出发&#xff0c;阐述对鸿蒙生态的认知和了解&#xff0c;分析鸿蒙生态的…

PHP代码审计 - SQL注入

SQL注入 正则搜索(update|select|insert|delete).*?where.*示例一&#xff1a; bluecms源码下载&#xff1a;source-trace/bluecms 以项目打开网站根目录&#xff0c;并以ctrlshiftf打开全局搜索 (update|select|insert|delete).*?where.*并开启正则匹配 最快寻找脆弱点的…

Essential Cell Biology--Fifth Edition--Chapter one (5)

1.1.4 The eukaryotic cell [真核细胞] 真核细胞&#xff0c;一般来说&#xff0c;比细菌和古细菌更大&#xff0c;更复杂。有些是独立的单细胞生物&#xff0c;如变形虫和酵母&#xff08;图1-14&#xff09;&#xff1b;另一些则生活在多细胞集合中。所有更复杂的多细胞生物…

线程-2-线程概念与控制

main 线程常见寄存器&#xff08;CR3 EIP IR MMU TLB&#xff09; CR3是当前进程页表物理内存地址&#xff08;包不能虚拟地址&#xff0c;不然套娃了&#xff09; CPU中有寄存器指向task_struct* current EIP&#xff1a;入口虚拟地址 IR&#xff1a;当前命令地址系统总线&a…

Vulkan 开发(十一):Vulkan 交换链

Vulkan 系列文章&#xff1a; 1. 开篇&#xff0c;Vulkan 概述 2. Vulkan 实例 3. Vulkan 物理设备 4. Vulkan 设备队列 5. Vulkan 逻辑设备 6. Vulkan 内存管理 7. Vulkan 缓存 8. Vulkan 图像 9. Vulkan 图像视图 10. Vulkan 窗口表面&#xff08;Surface&#xff…

【HarmonyOS】鸿蒙系统在租房项目中的项目实战(一)

从今天开始&#xff0c;博主将开设一门新的专栏用来讲解市面上比较热门的技术 “鸿蒙开发”&#xff0c;对于刚接触这项技术的小伙伴在学习鸿蒙开发之前&#xff0c;有必要先了解一下鸿蒙&#xff0c;从你的角度来讲&#xff0c;你认为什么是鸿蒙呢&#xff1f;它出现的意义又是…

百度搜索AI探索版多线程批量生成TXT原创文章软件-可生成3种类型文章

百度搜索AI探索版是百度推出的一款基于大语言模型文心一言的综合搜索产品‌。以下是关于百度搜索AI探索版的详细介绍&#xff1a; ‌产品发布‌&#xff1a;百度搜索AI探索版在百度世界大会上进行了灰度测试&#xff0c;并面向用户开放体验‌。 ‌核心功能‌&#xff1a;与传…

Linux软件包管理与Vim编辑器使用指南

目录 一、Linux软件包管理器yum 1.什么是软件包&#xff1f; 2.什么是软件包管理器&#xff1f; 3.查看软件包 4.安装软件 ​编辑 5.卸载软件 Linux开发工具&#xff1a; 二、Linux编辑器---vim 1.vim的基本概念 (1) 正常/普通模式&#xff08;Normal mode&#xff0…

Android Osmdroid + 天地图 (一)

Osmdroid 天地图 前言正文一、配置build.gradle二、配置AndroidManifest.xml三、获取天地图的API Key① 获取开发版SHA1② 获取发布版SHA1 四、请求权限五、显示地图六、源码 前言 Osmdroid是一款完全开源的地图基本操作SDK&#xff0c;我们可以通过这个SDK去加一些地图API&am…