签到行为的可预测性范文

时间：2022-05-11 10:15:57

签到行为的可预测性

《电子科技大学学报》2015年第二期

1数据描述

本文研究所采用的数据集来源于两组由手机收集到的经过匿名化处理的地点签到信息：数据集D1来自LBS社交网站Gowalla，全球范围内的用户可通过移动端的应用程序或者浏览器进行主动签到，从而与好友分享新的地点、活动和旅行线路；数据集D2来自国内某沿海城市的手机QQ用户使用涉及地图服务的应用时被动记录下的地点信息。因此，两组数据都是用户发生空间移动行为时记录的位置信息，包括了用户ID、地点经纬度、时间等属性，且相比于D2，D1由于是用户主动上传分享的，故其主动性更强一些。为了保证用户轨迹信息量具有统计意义，本文在计算可预测性时去掉了地点签到量不足100条的用户，在去掉不活跃的用户之后，D1、D2的用户数量分别为全部用户的8.35%和28.92%，但轨迹量却能分别达到65.59%和79.33%，地点数目分别达到全量数据的76.56%和81.00%。两组数据的概述如表1所示。这两组数据都源于手机用户上网、签到或查询地图等行为，文中将用户在某个地点产生一条轨迹信息记录的行为统称为“签到”，若相邻两次签到的地点发生变化，则称为一次“跳转”，若地点没有发生变化，则称之为“停留”。由于数据集中存在短时间内产生多条签到记录的现象，使得数据在时间上会显得非常频繁，但在空间地点信息上又显得不够丰富。为了更好地分析用户的空间移动行为特征，将极短时间内在同一地点的多条签到记录合并为一条。

2签到行为的基本特征

2.1用户和地点的活跃度分布统计结果显示，本文所研究的签到行为的时间间隔分布和跳转距离分布都表现出幂律特征，与文献[13-15]的结果类似。那么，在人们的日常生活中，每个人会访问多少个不同的地点？每个地点又会有多少不同的人来访问呢？为了回答这两个问题，定义用户的活跃度为用户去过的地点集的大小N，定义地点的活跃度为去过该地点的用户集的大小U。统计两个数据集中全部用户和地点的活跃度分布，结果如图1所示。用户活跃度N的累积分布如图1a所示，两个数据集中用户比例均在大约30个地点处开始明显下降，这说明在人们的日常生活中，大多数人经常访问的地点数是有限的，对这些有限数量地点的访问是较为均匀的。如图1a插图所示，曲线在双对数坐标下近似为直线，即−ln(P(≥N))～N，故两个数据集中用户的活跃度分布的累积形式表现为广延指数分布形式[30-31]：0()exp[(/)]ccP=x−xx，其中0x为特征标度，指数c即为图1a插图中近似直线的斜率。而由图1b知地点的活跃度分布则为幂律分布。这说明在特定地点签到的人数具有较强的异质性，即日常生活中大部分地点的访问人数较少，同时存在少数热门地点具有大量的访问人数。这样的现象与购物、点评等典型二部图网络的度分布研究结果类似[32]，说明在真实系统中，行为的主动发出者所覆盖的受众是有限而较为均匀的，而行为的被动接收者却可以接受大量而异质的访问。由于Gowalla数据的地点精确度非常高，故大部分地点的访问量非常少，因而其U曲线的衰减速度比QQ的U曲线要快得多，后者的异质性更强。

2.2签到行为的统计特征根据签到记录中的经纬度信息，计算用户i在签到过程中的跳转距离，并进一步得到每个用户的平均跳转距离为。式中，im表示该用户全部轨迹点的质心。计算每个用户的回转半径，其概率分布如图2b所示，该分布同样表现为幂律形式，说明大多数人在日常生活中的活动半径是有限的，只有少数人的活动半径能达到数百、甚至数千公里。进一步计算每个用户的平均跳转距离和回转半径之间的Pearson相关系数，结果在D1和D2中分别为0.630和0.556，即二者表现为较强的正相关关系。

2.3跳转距离相关性用户相邻的两次跳转之间是否存在内在联系，是否一次长距离的跳转也预示着下一步也是长距离的跳转？为了研究这个问题，本文采用文献[33]中定义的记忆性指标，研究所有个体用户跳转距离的相关性。若某用户i的跳转距离序列共有(||)iinLτ=个元素(即有1inτ+次签到)，则将原序列分为2个子序列，分别包含前1inτ−个元素和后1inτ−个元素。用M′表示用户i的记忆性指标，则该用户的记忆性可以用上述两个子序列的Pearson相关系数衡量。本文计算每一个用户的跳转距离序列的M′值。结果显示，所有用户M′值的平均值M′在Gowalla和QQ中分别为0.134±0.163和0.249±0.186。从该结果可以看出，对于大多数用户来说，长距离的跳转之后仍然倾向于长距离的跳转，反之亦然，即跳转距离具有一定的弱记忆性和正相关性。考虑在日常生活中，人们大部分的出行是在以家和公司为焦点的椭圆范围之内活动[34]，连续出行距离都比较短；但一旦有出差、旅行或探亲活动，则很容易伴随一系列的长短距离交替的跳转活动。相比于数据集D1，D2更多是日常生活中城内和城际范围内的活动，因而后者的签到行为更集中，M′更大，即日常生活中签到行为的记忆性更强。

3签到行为可预测性分析

3.1签到行为的可预测性度量本文采用文献[21]中的方法定义签到行为的熵和可预测性，包括三种熵的度量指标。随机熵：rand2logiiS=N，其中iN表示用户i去过的地点集的大小。该指标只考虑用户访问过的唯一地点数，默认用户以相同概率访问这些地点图3c揭示了用户的地点访问的规律性分布，在用户的签到行为中，约28.9%的时间里都是位于该时段最常签到的地点。故对于某个特定时段，只要猜测用户位于在其最常访问的地点，就至少能够获得28.9%左右的准确度。对于数据集D2，熵、可预测性和规律性等指标表现为与D1类似的情况。二者的差别表现在：D2的3种类别的熵值都比D1低，可预测性则要高。这是由于D2数据中地点的经纬度精度要低于D1，且D2的数据中地点的范围相对较小(D1中的签到地点遍布全世界，而D2大部分局限在该城市及周边)，使得D2中的地点重合度高达97.6%，而D1中只有80.5%。对于数据集D1，在每个用户的签到序列中新地点的比例更大，总地点个数更多，每个地点访问的概率更小，因此熵值也必然更大。如图3a所示，D2的真实熵值real<S>≈2.11，即用户跳转的不确定性约为2.112≈4，与文献[20]一致。说明在日常生活中，用户的被动签到行为在下一时刻可能访问的地点数是非常有限，而主动签到行为可能访问的地点数要大得多，即用户行为的主动性会大大提高熵值，同时降低可预测性。

3.2影响可预测性和规律性的因素分析从前文的统计结果可以看出，人类的日常签到行为具有复杂性和规律性交织的特征。那么，规律性越强的用户是否更容易预测？访问过更多地点的用户、活动半径更大的用户是否更难预测？计算每个用户的可预测性maxi∏和规律性realiR之间的Pearson系数，结果显示该值在D1和D2中分别为0.057和0.027，即规律性与可预测性之间并无明显的相关关系，并不是行为越规律的用户越容易预测。此外，计算可预测性maxi∏和跳转距离记忆性M′之间的Pearson系数，结果在D1和D2中分别为0.111和0.096，说明可预测与跳转距离也没有显著关联。下面本文分析影响用户签到行为可预测性和规律性的因素。

3.2.1可预测性的影响因素分析统计用户去过的地点数和去过该地点数的全部用户的平均可预测性值，考察二者之间的关系，结果如图4a所示。访问地点数与可预测性的关系在两个数据集中表现出了相同的规律，即先在一段小范围内减小，然后迅速变得平缓，在波动中缓慢下降。由于Gowalla数据的观测期更长，故其用户访问的地点数也更多。这说明在一定范围内，确实存在用户访问过的地点数越多，其行为就更难预测的现象。但是随着地点数持续增多其真实可预测性开始趋于平缓，即地点数的影响作用变小。总体上看，用户去过的地点数与用户的可预测性存在一定的负相关性。根据2.2节得到的每个用户的平均跳转距离和回转半径分析二者和可预测性的关系，如图4b和4c所示，不论是回转半径还是平均跳转距离对于可预测性的影响都表现出了相似的规律，即随着用户活动范围和出行距离的增大，max<∏>和unc<∏>会在一定的范围内迅速降低，随后保持比较平稳的波动过程，而rand<∏>由于其计算方式导致其损失了过多的信息故数值接近于零，因此没有明显变化。相对于回转半径，平均跳转距离对可预测性的影响作用更小。

3.2.2规律性的影响因素分析规律性反映了用户在特定时段出现在最常访问地点的概率，那么上述三个统计量对用户签到行为的规律性是否有影响呢？计算结果显示，随着用户访问地点数的增大，rand<R>快速衰减并趋近于零，而real<R>在很大范围内保持缓慢的下降，说明仅仅是地点数的增大并不会对用户签到的规律性产生太大影响。而回转半径和平均跳转距离对规律性几乎没有影响。

3.2.3最常访问地点的影响在人们的日常生活中，不论是个体还是群体用户对某个特定地点的访问量都具有显著的异质性，少数地点具有极高的访问量，而大多数地点极少被光顾。那么这些访问量大的地点是否对可预测性产生影响呢？为了回答这个问题，逐步删除用户移动轨迹中访问量最大的K个地点，查看用户最大真实熵和可预测性的变化情况。在实验前首先挑选访问过的唯一地点数大于最大删除量(在数据集D1和D2中分别是50和20)的用户，以保证在删除访问量大的地点时用户仍然访问过多于1个不同的地点。实验结果如图6所示，平均最大真实可预测性max<∏>曲线的变化规律大致可以分为两个阶段。当删除的地点数N不超过某一阈值时，整体可预测性呈下降趋势；当N继续增长超过该阈值后，整体可预测性反而呈上升趋势。而real<S>的变化趋势则正好相反，在小于阈值范围区间内随着K的增大而变大，在大于阈值范围内则慢慢变小。并且，在删除前面几个访问量特别大的地点时，曲线的斜率都比较大，且熵曲线变化的阈值要小于最大可预测性曲线变化的阈值。可以从以下方面理解这种非平凡现象：一般情况下，对地点访问信息丰富的用户来说，随着最常访问地点的删除，用户的地点签到序列会慢慢变得随机化，此时熵值将慢慢增大，最大可预测性也随之降低。但当轨迹点被删除到一定程度时，用户访问序列中的轨迹点都逐渐趋近于被访问极少的次数，几乎成为一个完全随机的地点访问序列，可预测性下降趋势逐渐变缓。当全部的轨迹点的访问次数都为1的时候，熵值达到最大，此时可预测性曲线也慢慢趋向最小值。当继续删除轨迹点时，熵值随着N的增大而逐渐变小，此时最大可预测性则因为随机序列中地点数的减少而缓慢增长。由此说明，用户经常访问的地点是带来签到行为高可预测性的一个重要因素。而可预测性曲线的最值点比熵曲线滞后则是Fano不等式中二者的非线性关系造成的。

4结语和讨论

本文通过两组手机用户的签到数据研究人类日常的出行行为，总结了签到行为的一般规律，用熵的方法分析了签到行为的可预测性，并重点分析了影响可预测性的几个因素。发现人们的签到行为具有一定的记忆效应，对地点的访问具有明显的异质性。总体来看，用户访问的地点数和对最常访问地点的访问规律对可预测性和规律性有明显影响。具体而言，用户访问过的地点的数量与可预测性和规律性都具有一定的反相关关系，而回转半径和平均跳转距离对二者的影响则微弱的多。用户经常访问的地点对可预测性具有显著影响，随着这些地点被逐个删除，可预测性表现为先下降再略微上升的形态。进一步研究还发现，可预测性和规律性是人们日常生活的普遍规律，与性别、年龄等属性无关[21]，因而该性质是人类空间运动的普遍规律，在人口统计学属性上无个体差异。研究表明，当用户访问的地点数逐步增大时，以及当用户最常访问的地点被逐步删除时，其可预测性都会下降，说明用户对地点的访问次数和访问模式对可预测性有重要影响。一方面，当用户访问的地点逐渐增多时，其访问序列会变得混乱，因而熵值增大，可预测性下降；另一方面，当用户经常访问的地点被删掉时，可预测性曲线的非线性的下降速率说明不同地点对可预测性的影响程度是不同的，访问量大的地点的影响程度也更大。这些结果都说明用户对不同地点的访问量是非均匀的。因此，用户对地点访问的异质性是影响其可预测性的重要因素。

从研究结果可以看到，数据集D2得到的可预测性数值要高于D1，这样的差别反应了两组数据集的不同。如前文介绍所说，Gowalla是一个鼓励用户主动上报地理位置的LBS网站，其行为更多源自旅游、美食、娱乐等活动的分享；而QQ数据是在用户日常生活中使用地图服务时记录的位置信息，日常生活中出行的记忆性和规律性更强，地点重合度也更高，因而其可整体可预测性也更高。人类行为动力学研究的是人类行为的宏观统计规律，而熵的方法分析可预测性得到的则是预测准确度的理论上限，并不是真正意义上的预测算法。由于人类行为的高度复杂性，对于个体出行行为的精确预测并不是一件容易的事情，预测的准确度也受到多种客观条件和数据本身的质量等因素制约。社会学、物理学、计算机科学等领域的学者都在从多方面关注影响人们出行的因素并探索提高预测算法的准确度的方式。本文有助于理解人类的出行规律，为寻找制约预测准确度的因素、改进利用熵和Fano不等式计算可预测性的方法提供一定的参考和借鉴。

作者：卢扬樊超韩筱璞荣智海单位：电子科技大学互联网科学中心CompleX实验室山西农业大学文理学院杭州师范大学信息经济研究所和阿里巴巴商学院

扩展阅读

1签到行为的可预测性