论文笔记(整理):轨迹相似度顶会论文中使用的数据集

0 汇总

数据类型数据名称数据处理
出租车数据波尔图

原始数据:2013年7月到2014年6月,170万条数据

ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

 过滤位于城市(或国家)区域之外的轨迹

过滤包含少于20个点或超过200个点的轨迹
——>137W轨迹

CIKM 2022 Efficient Trajectory Similarity Computation with Contrastive Learning

为两个数据集设置相同的采样率,即15秒
根据轨迹的开始时间戳将每个数据集划分为训练集和测试集,其中前100万条轨迹用于训练,其余的用于测试

CIKM 2022 Aries: Accurate Metric-based Representation Learning for Fast Top-k Trajectory Similarity Query

根据位置和时间戳,在三个月内选择了一个相对集中的轨迹集,数量为100𝑘
删除少于50个点的记录,并将整个区域划分为1500×1500大小的网格
——>79,362条轨迹

KDD2022  TrajGAT: A Graph-based Long-term Dependency Modeling Approach for Trajectory Similarity Computation

2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach

选择城市中心区域的轨迹,并移除少于10条记录的轨迹

——>超过60W条轨迹

CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity

ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation

  • 删除了长度少于30的轨迹
  • 最终剩下120万条轨迹

ICDE 2022 TMN: Trajectory Matching Networks for Predicting Similarity

ICDE 2021 T3S: Effective Representation Learning for Trajectory Similarity Computation

没有多少处理

哈尔滨

ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation

8个月内13000辆出租车的轨迹。

选择了长度至少为30,且连续采样点之间的时间间隔少于20秒的轨迹。

这产生了150万条轨迹

西安

2018年10月的前两周

ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

过滤位于城市(或国家)区域之外的轨迹

过滤包含少于20个点或超过200个点的轨迹

 

数据类型数据名称数据处理
出租车数据

德国

ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

2006年到2013年间

过滤位于城市(或国家)区域之外的轨迹

过滤包含少于20个点或超过200个点的轨迹

罗马

KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks

移除了少于10个采样点的轨迹

45157条轨迹

北京(T-drive)

AAAI 2023 GRLSTM: Trajectory Similarity Computation with Graph-Based Residual LSTM

从10,357辆出租车中收集的
按小时划分这些轨迹,并丢弃短长度的轨迹

使用空间相似函数通过GPS坐标在北京道路网络上创建基准真值

KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks

移除了少于10个采样点的轨迹

KDD 2021 A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks

按小时分割这些轨迹,然后我们总共可以得到5,621,428条轨迹。

通过过滤异常值,这些轨迹的平均长度为25。

新加坡

15,054辆出租车的轨迹

对于每辆出租车,GPS信息在整整一个月内以半分钟到三分钟的采样率持续收集

人流mobility数据北京(

Geolife)

2007年4月到2012年8月收集的17621条轨迹

Sigspatial 2022 TSNE: trajectory similarity network embedding

选择了城市中心区域的轨迹,并将该区域离散化为200m×200m的网格单元。

移除了所有点太稀疏(少于10个点的轨迹),并在Geolife中获得了10,504条轨迹

CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity

  • 选择了那些至少满足长度为30的轨迹,并且在连续采样点之间的时间间隔小于20秒
  • 这样的操作产生了8214条轨迹
  • 前4928条轨迹用于训练数据,其余的用于测试数据

2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach

过滤掉位于稀疏区域的轨迹,保留城市中心区域的轨迹
 

移除了少于10条记录的轨迹

大约8,000条轨迹

1 2023

1.1 ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

使用了三个真实世界的轨迹数据集:

(1)Porto ——2013年7月到2014年6月间,葡萄牙波尔图的170万条出租车轨迹;

(2)西安——2018年10月的前两周内,中国西安的210万条网约车轨迹(滴滴)

(3)德国 ——2006年到2013年间,170.7千条用户提交的轨迹。(openStreetMap)

  • 过滤位于城市(或国家)区域之外的轨迹,
  • 过滤包含少于20个点或超过200个点的轨迹

预处理后的数据集在表II中进行了总结。

1.2 AAAI 2023 GRLSTM: Trajectory Similarity Computation with Graph-Based Residual LSTM

  • 北京的轨迹来自T-drive项目的出租车轨迹。
    • 这些出租车轨迹是在几天内通过出租车id,GPS坐标和时间戳从10,357辆出租车中收集的
    • 按小时划分这些轨迹,并丢弃短长度的轨迹
    • 使用空间相似函数(Shang et al. 2017b)通过GPS坐标在北京道路网络上创建基准真值
    • T-Drive trajectory data sample - Microsoft Research
  • 纽约的轨迹从NYC Open Data - (cityofnewyork.us)获取
    • 使用相同的预处理方法来处理这些轨迹并获得基准真值
  • 对于这两个数据集,我们将这些数据随机分为训练集,验证集和测试集,比例为[0.2,0.1,0.7]

2 2022

2.1 CIKM 2022 Efficient Trajectory Similarity Computation with Contrastive Learning

为两个数据集设置相同的采样率,即15秒。

根据轨迹的开始时间戳将每个数据集划分为训练集和测试集,其中前100万条轨迹用于训练,其余的用于测试

2.2 CIKM 2022 Aries: Accurate Metric-based Representation Learning for Fast Top-k Trajectory Similarity Query

波尔图数据集:从2013年到2014年,有超过四百辆出租车的170万辆车轨迹。

我们根据它们的位置和时间戳,在三个月内选择了一个相对集中的轨迹集,数量为100𝑘。

然后我们删除少于50个点的记录,并将整个区域划分为1500×1500大小的网格。

经过预处理,我们在波尔图获得了79,362条轨迹。

2.3 CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity

  • 波尔图的数据集——从2013年7月到2014年6月的12个月期间的170万条出租车轨迹
    • 删除了长度少于30的轨迹
    • 最终剩下120万条轨迹
  • 北京数据集(Geolife)
    • 2007年4月到2012年8月收集的17621条轨迹
    • 也选择了那些至少满足长度为30的轨迹,并且在连续采样点之间的时间间隔小于20秒
    • 这样的操作产生了8214条轨迹
  • 对于波尔图数据集,训练数据由800,000条轨迹组成,其余的用于测试数据。
  • 对于Geolife数据集,前4928条轨迹用于训练数据,其余的用于测试数据。

2.4 Sigspatial 2022 TSNE: trajectory similarity network embedding

Geolife ——由182个用户从2007年到2012年在中国北京收集的17,621条轨迹组成。

选择了城市中心区域的轨迹,并将该区域离散化为200m×200m的网格单元。

移除了所有点太稀疏(少于10个点的轨迹),并在Geolife中获得了10,504条轨迹。

2.5 KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks

  • 北京包含了从2008年2月2日到2008年2月8日在中国北京收集的1500万个出租车轨迹点。
  • 罗马包含了367,052条来自意大利罗马的出租车轨迹,覆盖了30多天。

  • 首先将所有轨迹映射匹配到来自OpenStreetMap的相应道路网络。
    • 这样,原始GPS轨迹数据就转换成了按时间顺序排列的顶点序列。
    • 进一步,获取了来自城市地区的轨迹,并移除了少于10个采样点的轨迹。
    • 这个预处理得到了在北京的348,210条轨迹和在罗马的45,157条轨迹。

2.6 KDD2022  TrajGAT: A Graph-based Long-term Dependency Modeling Approach for Trajectory Similarity Computation

  • 西安的出租车轨迹
    • 从2007年到2010年的17,621条人类移动轨迹
  • 波尔图
    • 从2013年到2014年的超过170万条出租车轨迹
  • 预处理:选择城市中心区域的轨迹,并移除少于10条记录的轨迹
  • 处理后,我们获得了西安数据集的7641条轨迹和波尔图数据集的超过600,000条轨迹

2.7 ICDE 2022 TraSS: Efficient Trajectory Similarity Search Based on Key-Value Data Stores

(1)TDrive ,包含了两周内北京的321,387条出租车轨迹(752MB)

(2)Lorry,包含了广州的4,394,397条JD物流卡车轨迹(136GB)

(3)合成,为了验证TraSS的可扩展性,我们使用了由Lorry数据集复制7次生成的五个合成数据集

2.8 ICDE 2022 TMN: Trajectory Matching Networks for Predicting Similarity

• Geolife  由中国北京的182名用户收集,它包含了广泛的人类户外运动,这些运动是用户的GPS位置。总共,Geolife中有17,612条轨迹。

• Porto  包含了超过170万辆车的路线轨迹,主要由葡萄牙波尔图的442辆出租车收集。

遵循之前的工作,过滤掉位于稀疏区域的轨迹,保留城市中心区域的轨迹用于训练和测试。

也移除了少于10条记录的轨迹。

  • 这是因为计算较长序列的相似性更为困难和耗时。
  • 此外,轨迹数据集通常以许多GPS错误和其他问题为特征,如果受到影响,短轨迹会严重受到这些错误的影响

经过预处理后,Geolife数据集中有大约8,000条轨迹,Porto数据集中有600,000条轨迹

2.9  ICDE 2022 Continuous Trajectory Similarity Search for Online Outlier Detection

1)北京(Geolife)

        该数据集保留了182名用户在三年多的时间里的所有旅行记录,包括多种交通方式(步行、驾驶和乘坐公共交通)。

        轨迹每1-5秒采样一次,两个相邻点之间的平均速度为5.73 m/s。

        北京的道路网络有65,129个节点和85,322条边。

2)新加坡。

        该数据集追踪了新加坡的15,054辆出租车的轨迹。

        对于每辆出租车,GPS信息在整整一个月内以半分钟到三分钟的采样率持续收集。

        它在两个相邻点之间的平均距离远高于GeoLife。

        新加坡的道路网络包含20,801个节点和42,309条边。

这是一个私有数据

3)波尔图。

        该数据集包含了442辆出租车在波尔图市,葡萄牙一整年(从2013年7月1日到2014年6月30日)的轨迹。

        其道路网络具有最细的粒度,有100,484个节点和129,303条边。

3 2021

3.1 ICDE 2021 REPOSE: Distributed Top-k Trajectory Similarity Search with Local Reference Point Tries

我们在3种类型的数据集上进行实验。

1)小规模和小空间跨度:旧金山(SF),波尔图(Porto),罗马(Rome),T-drive [33]。

2)大规模和小空间跨度:成都和西安。

3)大规模和大空间跨度:OSM。

数据集统计信息显示在表III中。

在预处理阶段,我们删除长度小于10的轨迹,并将长度大于1000的轨迹分割成多条轨迹。我们均匀且随机地选择100条轨迹作为查询集。

1http://sigspatial2017.sigspatial.org/giscup2017/home 2https://www.kaggle.com/c/pkdd-15-predict-taxiservice-trajectory-i 3http://crawdad.org/roma/taxi/20140717 4https://gaia.didichuxing.com 5https://www.openstreetmap.org

3.2 ICDE 2021 T3S: Effective Representation Learning for Trajectory Similarity Computation

我们的实验使用了以下两个数据集:

• Geolife [17] 是一个基于GPS的轨迹数据集,由2007年4月至2012年8月在中国北京的182名用户收集。该数据集包含17,621条轨迹,并记录了广泛的人类户外活动。

• Porto [18] 是一个包含超过170万辆车路线轨迹的数据集,由葡萄牙波尔图的442辆出租车收集。该数据集用作评估交通监测模型的基准。

3.3 KDD 2021 A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks

使用来自不同城市的两个空间网络。一个是来自北京市的,即北京道路网络(BRN)。另一个是来自纽约市的,即纽约道路网络(NRN)。

在BRN数据集中,有28,342个兴趣点和27,690条边;在NRN数据集中,有95,581个兴趣点和260,855条边。

对于BRN中的轨迹,我们使用来自T-drive项目的出租车行驶数据。BRN中的出租车轨迹是按出租车id收集的,一条轨迹的时间范围可能持续几天。因此,我们按小时分割这些轨迹,然后我们总共可以得到5,621,428条轨迹。通过过滤异常值,这些轨迹的平均长度为25。

对于NRN中的轨迹,我们使用来自纽约的出租车行驶数据。在原始数据集中,有697,622,444次行程,我们随机抽样其中的一部分来生成轨迹数据集。经过预处理后,我们的实验中有10,541,288条轨迹,它们的平均长度为38。详细信息总结在表1中。

对于这两个轨迹数据集,我们都以20%、10%和70%的比例随机分割它们为训练集、评估集和测试集。

4 2020

4.1 IJCAI 2020 Trajectory Similarity Learning with Auxiliary Supervision and Optimal Matching

ECML/PKDD 15: Taxi Trajectory Prediction (I) | Kaggle

4.2 2020 ICDE Parallel Semantic Trajectory Similarity Join

  • 纽约轨迹数据(NTD)和北京轨迹数据(BTD)。
    • NTD包含一张道路网络和1000万辆出租车行程。每个出租车行程都是一个起点-终点对。
    • 将从源到目的地的最短路径视为一次行程的轨迹。
    • 此外,使用了一个真实的POI数据集,其中包含了纽约市的19,969个POI。
      • 每个POI都有一个带有纬度和经度的空间坐标和一个文本描述。
      • 因为POI可能不匹配轨迹点,我们将每个POI映射到道路网络中最近的节点,并将POI视为语义轨迹中的一个对象。
  • 在BTD中——T-drive
    • BTD中的原始轨迹非常长,因为每条轨迹都包含了特定时间段内的所有行程,这可能是几天。
    • 我们将这些轨迹划分为半小时的子轨迹。目的是创建具有现实长度和持续时间的行程。
    • 为了用文本描述增强每个轨迹点,我们从包含200万条推文的真实推文集合中随机选择一条推文,并将推文的文本描述与轨迹点关联起来。 

https://publish.illinois.edu/dbwork/open-data/

5 更早

5.1 ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation

第一个数据集在葡萄牙的波尔图市收集,持续19个月,包含170万条轨迹。每辆出租车每15秒报告一次其位置。我们移除了长度少于30的轨迹,得到了120万条轨迹。

第二个数据集包含了在中国哈尔滨市收集的8个月内13000辆出租车的轨迹。我们选择了长度至少为30,且连续采样点之间的时间间隔少于20秒的轨迹。这产生了150万条轨迹。

我们根据轨迹的开始时间戳将两个集合划分为训练数据和测试数据。对于这两个集合,前80万条轨迹用于训练,其余的轨迹用于测试。

5.2 2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach

第一个数据集[33],被称为Geolife,包含了从2007年到2010年的17,621条人类移动轨迹。

第二个数据集[23]包含了从2013年到2014年的超过170万条出租车轨迹。

为了减小M的维度,我们选择了城市中心区域的轨迹,并将该区域离散化为50m × 50m的网格单元。

然后,我们删除了记录少于10条的轨迹。经过这样的预处理,我们在Geolife中获得了8203条轨迹,在波尔图中获得了601,071条轨迹。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/145719.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

html、css学习记录【uniapp前奏】

Html 声明:该学习笔记源于菜鸟自学网站,特此记录笔记。很多示例源于此官网,若有侵权请联系删除。 文章目录 Html声明: CSS 全称 Cascading Style Sheets,层叠样式表。是一种用来为结构化文档(如 HTML 文档…

NLP 04(GRU)

一、GRU GRU (Gated Recurrent Unit)也称门控循环单元结构,它也是传统RNN的变体,同LSTM一样能够有效捕捉长序列之间的语义关联, 缓解梯度消失或爆炸现象,同时它的结构和计算要比LSTM更简单,它的核心结构可以分为两个部分去解析: 更新门、重置门 GRU的内…

宝塔 php修改了php.ini配置不生效

最近在使用hypref,php的版本是7.4 服务器linux,用宝塔安装完php,并装完swoole插件后 安装了swoole后,需要在php.ini中修改一下配置文件 添加 swoole.use_shortnameOff 但是添加了,重启php,依然不生效 解决方法是: 同时…

AI项目十三:PaddleOCR训练自定义数据集

若该文为原创文章,转载请注明原文出处。 续上一篇,PaddleOCR环境搭建好了,并测试通过,接下来训练自己的检测模型和识别模型。 paddleocr检测模型训练 1、准备数据集 在PaddleOCR目录下新建文件夹:train_data, 这个…

idea2023根据表自动生成+springboot跑起来

idea安装插件 idea中显示数据库连接 就可以看到如下界面 选中你想生成的表,右键如下操作 如上就有了所有需要的后端代码 生成后,要查看一下mapper.xml中的文件是否 正确,若有误请先去修改,例如我的版本下生成了xml文件中缺乏…

从 低信噪比陆上地震记录 解决办法收集 到 走时层析反演中的折射层析调研

目录 (前言1) 关于背景的回答:(前言2) 现有的降低噪声, 提高信噪比的一些特有方法的论文资料 (传统策略):1. 关于波形反演与走时层析反演2. 折射层析3. 用一个合成数据来解释折射层析反演的思路4. 其他层析反演方法:5. 关于层析反演的一些TIPS (可补充)参考文献: 降噪有关资料参…

Unity中Shader的前向渲染路径ForwardRenderingPath

文章目录 前言一、前向渲染路径的特点二、渲染方式1、逐像素(效果最好)2、逐顶点(效果次之)3、SH球谐(效果最差) 三、Unity中对灯光设置 后,自动选择对应的渲染方式1、ForwardBase仅用于一个逐像素的平行灯,以及所有的逐顶点与SH2、ForwardAdd用于其他所…

GitHub 基本操作

最近要发展一下自己的 github 账号了,把以前的项目代码规整规整上传上去,这里总结了一些经验,经过数次实践之后,已解决几乎所有基本操作中的bug,根据下面的操作步骤来,绝对没错了。(若有其他问题…

Java初始化大量数据到Neo4j中(二)

接Java初始化大量数据到Neo4j中(一)继续探索,之前用create命令导入大量数据发现太过耗时,查阅资料说大量数据初始化到Neo4j需要使用neo4j-admin import 业务数据说明可以参加Java初始化大量数据到Neo4j中(一),这里主要是将处理好的节点数据和…

装饰器模式详解和实现(设计模式 二)

装饰器模式(Decorator Pattern)是一种结构型设计模式,它允许你动态地将对象添加到现有对象中,以提供额外的功能,同时又不影响其他对象。 实现示例 1.定义一个接口或抽象类,表示被装饰对象的公共接口 //抽…

3D孪生场景搭建:模型区域摆放

前面介绍完了NSDT场景编辑器的线性绘制和阵列绘制,本章将讲述下编辑器的另一种绘制方式:区域绘制。 1、区域绘制功能简介 在场景中绘制资产时,除使用上述两个的方式外,NSDT 编辑器还支持使用区域绘制的方式进行绘制。先选取需要…

Linux常用指令(二)

目录 一、 删除空目录(rmdir) 二、ln 硬链接与软链接 三、新建空文件或更新文件的时间戳(touch) 四、比较文件内容的差异(diff) 五、显示当前时间或设置系统时间(date) 六、显…

Git多账号管理通过ssh 公钥的方式,git,gitlab,gitee

按照目前国内访问git,如果不科学上网,我们很大可能访问会超时。基于这个,所以我现在的git 配置已经增加到了3个了 一个公司gitlab,一个git,一个gitee. 以下基于这个环境,我们来说明下如何创建配置ssh公钥。…

信号类型(雷达)——脉冲雷达(四)

系列文章目录 《信号类型(雷达通信)》 《信号类型(雷达)——雷达波形认识(一)》 《信号类型(雷达)——连续波雷达(二)》 《信号类型(雷达&…

四、2023.9.30.C++面向对象end.4

文章目录 49、 简述一下什么是常函数,有什么作用?50、 说说什么是虚继承,解决什么问题,如何实现?51、简述一下虚函数和纯虚函数,以及实现原理?52、说说纯虚函数能实例化吗,为什么&am…

龙迅LT9611UXC 2PORT MIPICSI/DSI转HDMI(2.0)转换器+音频,内置MCU

龙迅LT9611UXC 1.描述: LT9611UXC是一个高性能的MIPI DSI/CSI到HDMI2.0转换器。MIPI DSI/CSI输入具有可配置的单 端口或双端口,1高速时钟通道和1~4高速数据通道,最大2Gbps/通道,可支持高达16Gbps的总带 宽。LT9611UXC支持突发…

后端基础php

虚拟机安装网络方面名词介绍快速自建web环境(phpstudy)前端基础mysql语法前端【展示】----后端【功能实现】标准php 【ASP / ASPX / PHP / JSP】0基础 --->php入门编程--->代码 对逻辑要求高变量--->会改变的量 php---->$aHello…

视频监控/视频汇聚/安防视频监控平台EasyCVR配置集群后有一台显示离线是什么原因?

开源EasyDarwin视频监控TSINGSEE青犀视频平台EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,在视频监控播放上,TSINGSEE青犀视频安防监控汇聚平台可支持1、4、9、16个画面窗口播放,可同时播放多…

C#(CSharp)入门教程

目录 C#的第一个程序 变量 折叠代码 变量类型和声明变量 获取变量类型所占内存空间(sizeof) 常量 转义字符 隐式转换 显示转换 异常捕获 运算符 算术运算符 布尔逻辑运算符 关系运算符 位运算符 其他运算符 字符串拼接 …

Spring实例化源码解析之ComponentScanAnnotationParser(四)

上一章我们分析了ConfigurationClassParser,配置类的解析源码分析。在ComponentScans和ComponentScan注解修饰的候选配置类的解析过程中,我们需要深入的了解一下ComponentScanAnnotationParser的parse执行流程,SpringBoot启动类为什么这么写&…