论文笔记（整理）：轨迹相似度顶会论文中使用的数据集

0 汇总

数据类型	数据名称	数据处理
出租车数据	波尔图	原始数据：2013年7月到2014年6月，170万条数据
		ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention 过滤位于城市（或国家）区域之外的轨迹过滤包含少于20个点或超过200个点的轨迹 ——>137W轨迹
		CIKM 2022 Efficient Trajectory Similarity Computation with Contrastive Learning 为两个数据集设置相同的采样率，即15秒根据轨迹的开始时间戳将每个数据集划分为训练集和测试集，其中前100万条轨迹用于训练，其余的用于测试
		CIKM 2022 Aries: Accurate Metric-based Representation Learning for Fast Top-k Trajectory Similarity Query 根据位置和时间戳，在三个月内选择了一个相对集中的轨迹集，数量为100𝑘 删除少于50个点的记录，并将整个区域划分为1500×1500大小的网格 ——>79,362条轨迹
		KDD2022 TrajGAT: A Graph-based Long-term Dependency Modeling Approach for Trajectory Similarity Computation 2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach 选择城市中心区域的轨迹，并移除少于10条记录的轨迹 ——>超过60W条轨迹
		CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation 删除了长度少于30的轨迹最终剩下120万条轨迹
		ICDE 2022 TMN: Trajectory Matching Networks for Predicting Similarity ICDE 2021 T3S: Effective Representation Learning for Trajectory Similarity Computation 没有多少处理
	哈尔滨	ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation 8个月内13000辆出租车的轨迹。选择了长度至少为30，且连续采样点之间的时间间隔少于20秒的轨迹。这产生了150万条轨迹
	西安	2018年10月的前两周 ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention 过滤位于城市（或国家）区域之外的轨迹过滤包含少于20个点或超过200个点的轨迹

数据类型	数据名称	数据处理
出租车数据	德国	ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention 2006年到2013年间过滤位于城市（或国家）区域之外的轨迹过滤包含少于20个点或超过200个点的轨迹
	罗马	KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks 移除了少于10个采样点的轨迹 45157条轨迹
	北京（T-drive）	AAAI 2023 GRLSTM: Trajectory Similarity Computation with Graph-Based Residual LSTM 从10,357辆出租车中收集的按小时划分这些轨迹，并丢弃短长度的轨迹使用空间相似函数通过GPS坐标在北京道路网络上创建基准真值
		KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks 移除了少于10个采样点的轨迹
		KDD 2021 A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks 按小时分割这些轨迹，然后我们总共可以得到5,621,428条轨迹。通过过滤异常值，这些轨迹的平均长度为25。
	新加坡	15,054辆出租车的轨迹对于每辆出租车，GPS信息在整整一个月内以半分钟到三分钟的采样率持续收集
人流mobility数据	北京（ Geolife）	2007年4月到2012年8月收集的17621条轨迹
		Sigspatial 2022 TSNE: trajectory similarity network embedding 选择了城市中心区域的轨迹，并将该区域离散化为200m×200m的网格单元。移除了所有点太稀疏（少于10个点的轨迹），并在Geolife中获得了10,504条轨迹
		CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity 选择了那些至少满足长度为30的轨迹，并且在连续采样点之间的时间间隔小于20秒这样的操作产生了8214条轨迹前4928条轨迹用于训练数据，其余的用于测试数据
		2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach 过滤掉位于稀疏区域的轨迹，保留城市中心区域的轨迹移除了少于10条记录的轨迹大约8,000条轨迹

1 2023

1.1 ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

使用了三个真实世界的轨迹数据集：

（1）Porto ——2013年7月到2014年6月间，葡萄牙波尔图的170万条出租车轨迹；

（2）西安——2018年10月的前两周内，中国西安的210万条网约车轨迹（滴滴）

（3）德国 ——2006年到2013年间，170.7千条用户提交的轨迹。（openStreetMap）

过滤位于城市（或国家）区域之外的轨迹，
过滤包含少于20个点或超过200个点的轨迹

预处理后的数据集在表II中进行了总结。

1.2 AAAI 2023 GRLSTM: Trajectory Similarity Computation with Graph-Based Residual LSTM

北京的轨迹来自T-drive项目的出租车轨迹。
- 这些出租车轨迹是在几天内通过出租车id，GPS坐标和时间戳从10,357辆出租车中收集的
- 按小时划分这些轨迹，并丢弃短长度的轨迹
- 使用空间相似函数（Shang et al. 2017b）通过GPS坐标在北京道路网络上创建基准真值
- T-Drive trajectory data sample - Microsoft Research
纽约的轨迹从NYC Open Data - (cityofnewyork.us)获取
- 使用相同的预处理方法来处理这些轨迹并获得基准真值
对于这两个数据集，我们将这些数据随机分为训练集，验证集和测试集，比例为[0.2，0.1，0.7]

2 2022

2.1 CIKM 2022 Efficient Trajectory Similarity Computation with Contrastive Learning

为两个数据集设置相同的采样率，即15秒。

根据轨迹的开始时间戳将每个数据集划分为训练集和测试集，其中前100万条轨迹用于训练，其余的用于测试

2.2 CIKM 2022 Aries: Accurate Metric-based Representation Learning for Fast Top-k Trajectory Similarity Query

波尔图数据集：从2013年到2014年，有超过四百辆出租车的170万辆车轨迹。

我们根据它们的位置和时间戳，在三个月内选择了一个相对集中的轨迹集，数量为100𝑘。

然后我们删除少于50个点的记录，并将整个区域划分为1500×1500大小的网格。

经过预处理，我们在波尔图获得了79,362条轨迹。

2.3 CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity

波尔图的数据集——从2013年7月到2014年6月的12个月期间的170万条出租车轨迹
- 删除了长度少于30的轨迹
- 最终剩下120万条轨迹
北京数据集（Geolife）
- 2007年4月到2012年8月收集的17621条轨迹
- 也选择了那些至少满足长度为30的轨迹，并且在连续采样点之间的时间间隔小于20秒
- 这样的操作产生了8214条轨迹
对于波尔图数据集，训练数据由800,000条轨迹组成，其余的用于测试数据。
对于Geolife数据集，前4928条轨迹用于训练数据，其余的用于测试数据。

2.4 Sigspatial 2022 TSNE: trajectory similarity network embedding

Geolife ——由182个用户从2007年到2012年在中国北京收集的17,621条轨迹组成。

选择了城市中心区域的轨迹，并将该区域离散化为200m×200m的网格单元。

移除了所有点太稀疏（少于10个点的轨迹），并在Geolife中获得了10,504条轨迹。

2.5 KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks

北京包含了从2008年2月2日到2008年2月8日在中国北京收集的1500万个出租车轨迹点。
罗马包含了367,052条来自意大利罗马的出租车轨迹，覆盖了30多天。

首先将所有轨迹映射匹配到来自OpenStreetMap的相应道路网络。
- 这样，原始GPS轨迹数据就转换成了按时间顺序排列的顶点序列。
- 进一步，获取了来自城市地区的轨迹，并移除了少于10个采样点的轨迹。
- 这个预处理得到了在北京的348,210条轨迹和在罗马的45,157条轨迹。

2.6 KDD2022 TrajGAT: A Graph-based Long-term Dependency Modeling Approach for Trajectory Similarity Computation

西安的出租车轨迹
- 从2007年到2010年的17,621条人类移动轨迹
波尔图
- 从2013年到2014年的超过170万条出租车轨迹
预处理：选择城市中心区域的轨迹，并移除少于10条记录的轨迹
处理后，我们获得了西安数据集的7641条轨迹和波尔图数据集的超过600,000条轨迹

2.7 ICDE 2022 TraSS: Efficient Trajectory Similarity Search Based on Key-Value Data Stores

（1）TDrive ，包含了两周内北京的321,387条出租车轨迹（752MB）

（2）Lorry，包含了广州的4,394,397条JD物流卡车轨迹（136GB）

（3）合成，为了验证TraSS的可扩展性，我们使用了由Lorry数据集复制7次生成的五个合成数据集

2.8 ICDE 2022 TMN: Trajectory Matching Networks for Predicting Similarity

• Geolife 由中国北京的182名用户收集，它包含了广泛的人类户外运动，这些运动是用户的GPS位置。总共，Geolife中有17,612条轨迹。

• Porto 包含了超过170万辆车的路线轨迹，主要由葡萄牙波尔图的442辆出租车收集。

遵循之前的工作，过滤掉位于稀疏区域的轨迹，保留城市中心区域的轨迹用于训练和测试。

也移除了少于10条记录的轨迹。

这是因为计算较长序列的相似性更为困难和耗时。
此外，轨迹数据集通常以许多GPS错误和其他问题为特征，如果受到影响，短轨迹会严重受到这些错误的影响

经过预处理后，Geolife数据集中有大约8,000条轨迹，Porto数据集中有600,000条轨迹

2.9 ICDE 2022 Continuous Trajectory Similarity Search for Online Outlier Detection

1）北京(Geolife）

该数据集保留了182名用户在三年多的时间里的所有旅行记录，包括多种交通方式（步行、驾驶和乘坐公共交通）。

轨迹每1-5秒采样一次，两个相邻点之间的平均速度为5.73 m/s。

北京的道路网络有65,129个节点和85,322条边。

2）新加坡。

该数据集追踪了新加坡的15,054辆出租车的轨迹。

对于每辆出租车，GPS信息在整整一个月内以半分钟到三分钟的采样率持续收集。

它在两个相邻点之间的平均距离远高于GeoLife。

新加坡的道路网络包含20,801个节点和42,309条边。

这是一个私有数据

3）波尔图。

该数据集包含了442辆出租车在波尔图市，葡萄牙一整年（从2013年7月1日到2014年6月30日）的轨迹。

其道路网络具有最细的粒度，有100,484个节点和129,303条边。

3 2021

3.1 ICDE 2021 REPOSE: Distributed Top-k Trajectory Similarity Search with Local Reference Point Tries

我们在3种类型的数据集上进行实验。

1）小规模和小空间跨度：旧金山(SF)，波尔图(Porto)，罗马(Rome)，T-drive [33]。

2）大规模和小空间跨度：成都和西安。

3）大规模和大空间跨度：OSM。

数据集统计信息显示在表III中。

在预处理阶段，我们删除长度小于10的轨迹，并将长度大于1000的轨迹分割成多条轨迹。我们均匀且随机地选择100条轨迹作为查询集。

1http://sigspatial2017.sigspatial.org/giscup2017/home 2https://www.kaggle.com/c/pkdd-15-predict-taxiservice-trajectory-i 3http://crawdad.org/roma/taxi/20140717 4https://gaia.didichuxing.com 5https://www.openstreetmap.org

3.2 ICDE 2021 T3S: Effective Representation Learning for Trajectory Similarity Computation

我们的实验使用了以下两个数据集：

• Geolife [17] 是一个基于GPS的轨迹数据集，由2007年4月至2012年8月在中国北京的182名用户收集。该数据集包含17,621条轨迹，并记录了广泛的人类户外活动。

• Porto [18] 是一个包含超过170万辆车路线轨迹的数据集，由葡萄牙波尔图的442辆出租车收集。该数据集用作评估交通监测模型的基准。

3.3 KDD 2021 A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks

使用来自不同城市的两个空间网络。一个是来自北京市的，即北京道路网络（BRN）。另一个是来自纽约市的，即纽约道路网络（NRN）。

在BRN数据集中，有28,342个兴趣点和27,690条边；在NRN数据集中，有95,581个兴趣点和260,855条边。

对于BRN中的轨迹，我们使用来自T-drive项目的出租车行驶数据。BRN中的出租车轨迹是按出租车id收集的，一条轨迹的时间范围可能持续几天。因此，我们按小时分割这些轨迹，然后我们总共可以得到5,621,428条轨迹。通过过滤异常值，这些轨迹的平均长度为25。

对于NRN中的轨迹，我们使用来自纽约的出租车行驶数据。在原始数据集中，有697,622,444次行程，我们随机抽样其中的一部分来生成轨迹数据集。经过预处理后，我们的实验中有10,541,288条轨迹，它们的平均长度为38。详细信息总结在表1中。

对于这两个轨迹数据集，我们都以20%、10%和70%的比例随机分割它们为训练集、评估集和测试集。

4 2020

4.1 IJCAI 2020 Trajectory Similarity Learning with Auxiliary Supervision and Optimal Matching

ECML/PKDD 15: Taxi Trajectory Prediction (I) | Kaggle

4.2 2020 ICDE Parallel Semantic Trajectory Similarity Join

纽约轨迹数据(NTD)和北京轨迹数据(BTD)。
- NTD包含一张道路网络和1000万辆出租车行程。每个出租车行程都是一个起点-终点对。
- 将从源到目的地的最短路径视为一次行程的轨迹。
- 此外，使用了一个真实的POI数据集，其中包含了纽约市的19,969个POI。
  - 每个POI都有一个带有纬度和经度的空间坐标和一个文本描述。
  - 因为POI可能不匹配轨迹点，我们将每个POI映射到道路网络中最近的节点，并将POI视为语义轨迹中的一个对象。
在BTD中——T-drive
- BTD中的原始轨迹非常长，因为每条轨迹都包含了特定时间段内的所有行程，这可能是几天。
- 我们将这些轨迹划分为半小时的子轨迹。目的是创建具有现实长度和持续时间的行程。
- 为了用文本描述增强每个轨迹点，我们从包含200万条推文的真实推文集合中随机选择一条推文，并将推文的文本描述与轨迹点关联起来。

https://publish.illinois.edu/dbwork/open-data/

5 更早

5.1 ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation

第一个数据集在葡萄牙的波尔图市收集，持续19个月，包含170万条轨迹。每辆出租车每15秒报告一次其位置。我们移除了长度少于30的轨迹，得到了120万条轨迹。

第二个数据集包含了在中国哈尔滨市收集的8个月内13000辆出租车的轨迹。我们选择了长度至少为30，且连续采样点之间的时间间隔少于20秒的轨迹。这产生了150万条轨迹。

我们根据轨迹的开始时间戳将两个集合划分为训练数据和测试数据。对于这两个集合，前80万条轨迹用于训练，其余的轨迹用于测试。

5.2 2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach

第一个数据集[33]，被称为Geolife，包含了从2007年到2010年的17,621条人类移动轨迹。

第二个数据集[23]包含了从2013年到2014年的超过170万条出租车轨迹。

为了减小M的维度，我们选择了城市中心区域的轨迹，并将该区域离散化为50m × 50m的网格单元。

然后，我们删除了记录少于10条的轨迹。经过这样的预处理，我们在Geolife中获得了8203条轨迹，在波尔图中获得了601,071条轨迹。