A survey for user behavior analysis based on machine learning techniques: current models and applications

基于机器学习技术的用户行为分析:当前模型和应用研究综述
摘要:用户行为分析(User Behavior Analysis)领域已经出现了大量的研究,这些研究聚焦于理解和建模用户过去,现在的行为,并预测未来的行为。然而这些研究方法的异质性使得其不容易理解,因此领域专家和机器学习专家必须合作来达到目标。本文的主要目的是对用户行为分析(User Behavior Analysis)领域具有代表性的文章进行分类,以加深对用户行为分析领域的理解。本文对网络安全网络安全与健康以及服务交付改进领域的现有文献进行了全面的调查。调查是基于四个不同的主题特征来组织的,这些特征将现有的作品分类:关键词、应用领域、机器学习算法和数据类型。本文旨在深入分析现有的参考文献,促进最新研究方法的传播,讨论它们的优缺点,并确定开放的挑战和未来的研究方向。此外,根据论文声誉、最大作者声誉、新颖性、创新性和数据质量等相关特征,对127篇被讨论的论文进行评分和排名。两种类型的特征,基于主题的和基于相关性的,已经被结合起来,以构建一个相似度度量,使所有考虑过的出版物的丰富的可视化。所获得的图形表示形式提供了用户行为分析的最新进展指南,并突出显示了最相关的内容。

1. 背景

(1)会议/刊物级别

Applied Intelligence (2021)
CCF C

(2)作者团队

(3)研究背景

Behavior Analysis 一词在1953年首次被提出,最初的 Behavior Analysis 最初侧重于研究human behavior(人类行为),与心理学领域密切相关。但是后来human behavior的定义被修正。随着数据挖掘和机器学习等技术的出现,一些新的术语:Behavior Informatics(行为信息学),Customer Behavior Analysis(客户行为分析),User Behavior Analysis(UBA,用户行为分析)出现。

现在Behavior Analysis更名为Behavioral Analytics:一门专注于对特定行为进行建模,以理解一个实现一组商业目标的系统的内在关系。

用户行为分析应用领域的异质性使得识别和理解用于解决具体问题的应用方法和技术出现困难。
目前缺乏总结这一领域相关研究的综述文章,因此本文的主要目的是:帮助读者对用户行为分析这一领域相关研究文章进行了解,总结和分类。

本文的目的是为了使领域专家和ML专家能够相互理解,以状态知识,分析共同的优势和弱点,并定义新的指导方针和未来的方向。

(4)主要贡献

本文的主要贡献有:

  1. 对用户行为分析领域的相关工作进行识别、系统分析、讨论和归类。
  2. 为每一篇选定的论文定义两组不同的特征:基于主题的特征(如关键词、应用领域、算法、数据类型)和基于相关性的特征(如发表年份、作者声誉)。
  3. 定义每篇论文的全局关联评分,考虑这两组特征,并基于相似度度量实现可理解的图形可视化。
  4. 这种可视化的讨论,提供了有趣的见解和指导,当决定首先阅读哪篇论文时,当最近对该领域感兴趣时,当寻找一个特定的应用领域的参考文献时,或当比较不同的方法时,只提到一些例子。据我们所知,本文是第一次从多个角度系统地研究ML技术在用户行为分析中的应用,特别是从讨论和指导这些技术如何应用于不同的应用领域的角度。必须指出,经过深思熟虑的方法使这项调查对专家和非专家从业人员都有用。

本文的其余部分组织如下。第2节描述了用于编写调查的方法。第3节回顾四个建议类别中的选定论文。第4节讨论通过渲染的可视化得到的结果。最后,第5节总结并提出了一些有趣的未来研究方向。

2.方法论

本文采用系统的方法对用户行为分析领域的相关文献进行了综述。调查方法本质上必须是一个迭代和增量的过程[65],允许作者以一种异质的方式增加重新访问的论文数量,从而有可能使用之前获得的知识引入与该领域相关的新方法和信息源。请注意,这个过程可以扩展到本调查的范围之外,促进未来广泛的工作。该方法分为三个阶段:信息源选择、特征提取、评分和排序

(1)信息源选择

调查方法的第一阶段包括一个迭代的过程,其中收集新的信息来源提供新的论文来评价。这个迭代过程包括三轮。

第一轮首先查询两个最著名的学术web数据库:谷歌Scholar[103]和Semantic Scholar[9]。已选择与用户行为分析相关的初始关键字进行查询:Behavioral Analytics, Behavior Analysis, UserBehavior Analysis, and User Profiling(行为分析、行为分析、用户行为分析和用户分析)。然后,手动选择最有趣的论文。这种选择是基于期刊名称、图书出版商或会议等信息,并由两个学术网络数据库的关联过滤器的排序支持的。选取每个查询的20篇最相关的论文。最后不符合调查结果(如有)的文件被丢弃。收集到的数据被用来建立一个初步的信息源数据库。一旦这个操作完成,新的关键字将从最近包含的信息源(例如,客户行为和用户行为分析)中被选择的论文中收集。注意,这个过程可以重复进行,直到数据库中没有更有趣的信息源为止。这允许增加获得的知识的最终信息源的数量。

接下来,在第二轮中,我们参考了四个学术web数据库:IEEE [72], ACM [166], ScienceDirect[25]和施普林格[143]。在这些web数据库上应用了第一轮中详述的相同操作。

最后,在第三轮中,扩大了有关的信息源数据库(即在前几个阶段收集的期刊、书籍章节和会议)。收集的关键字用于查询存储的相关信息源。这允许找到在这些资源中发表的其他相关论文,它们可能适合调查的范围。

(2)特征提取

一旦在信息源数据库中确定了选定的论文的集合,就可以按照具体的特征来对它们进行分类和排序。这个阶段允许使用树状结构组织调查。

对于分类任务,我们选择了一组与每篇论文相关的基于主题的特征。主题是通过分析被重访论文中包含的关键词来确定的。这些主题导致重新讨论的论文分为四个主要类别:网络安全、网络、安全与健康和服务交付改进。这些类别根据特定的处理目的被分成更详细的类别(二级类别)(见图1)。例如,对于网络安全一级类别,已经定义了三个二级类别:网络攻击、访问控制和欺诈检测。


所有被分析的论文都使用了ML算法来建模用户的行为,用不同类型的数据来测试他们的结果。因此,将这些信息添加到基于主题的特性中,以生成更准确的分类是很有趣的。ML算法和数据类型主题特征被引入。第一类分为八类:有监督/无监督(即学习方法)、马尔可夫模型、支持向量机、贝叶斯方法、文本挖掘、神经网络、聚类和降维。对于第二个特性,它被组织成18个值。

按照这个过程,基于主题的特性提供了两个级别的分类。第一级根据两个层次类别(即Primary和Secondary)来安排论文,而第二级通过特定元素(即ML算法和数据类型)来调整分类,生成一个更精确的组织。Secondary类别中包含的元素的不同缩写,以及数据类型和ML算法特征如表1所示。


另一方面,另一组特定的基于关联的特征已经被选择和评估来对文章进行打分:文章权威度,主要作者权威度,创新型与数据质量。

(3)选取文章概要

最终共有127篇论文被选中进行调查。图3显示了每年发表的论文数量。由此可见,用户行为分析是目前引起人们兴趣的一个相关领域。在网络安全类别中,已有43篇论文在考虑之中。根据研究的目的,他们被分为三个二级类别:访问控制,网络攻击和欺诈检测。各有19,14,10篇文章被分析。在网络类中,30篇论文被重新访问:通信网络、传输网络和电网二级类分别为11、10和9。安全与健康类27篇,其中人类活动识别类16篇,驾驶二级类11篇。最后,对于服务交付改进类别,有29篇论文被考虑,其中Web导航服务和营销服务二级类别分别为14篇和15篇。

3.用户行为分析

本节介绍被选取的相关文章,按照研究目的,主题和研究范围三个方面介绍。

对于每个主要类别,都创建了一个汇总表,突出了每篇论文最相关的特点。为每篇论文创建一个标识符Id,它选择论文引用的前五个字符(即bibtex标签)。如果多个id之间一致,则每个标签的开头将连接一个增量计数器,以避免重复。

接下来的部分介绍了每一篇所选取文章的不同的观察方法,技术和实验,强调方法,实现的算法和获得的结果。

(1)网络安全

网络安全试图保护资产免受威胁,重点是与机密性、完整性和可用性相关的事件的预防、检测和恢复。UBA是网络安全领域中关注用户行为建模的特定领域。因此,它利用用户行为分析技术来减轻威胁,防止和检测网络攻击和欺诈。在这种情况下,异常检测是解决与UBA相关的具体问题的最典型的方法[99]:它可以描述什么是正常的,任何实质性的偏离正常可以警告潜在的事件。这些技术本质上与ML域[33]中的离群值检测方法相关。网络安全一级类别的43篇论文见表2。他们是根据前面提到的声誉分数进行排序的。下面几节详细介绍了它们的特性和用途。

1.Access control (访问控制)

访问控制的基础是保证系统的安全,防止可能导致安全破坏的活动。它包含所有试图确保只有合法用户可以在安全和预定义的条件下访问服务或资源(即,系统组件)的技术,拒绝未经授权的用户。这类工作致力于使用UBA改进典型的访问控制解决方案。

UBA解决方案致力于解决访问控制(主要是认证),可以在两种不同的环境中找到:智能手机和计算机。它们的主要区别在于信息收集过程、可用数据的类型和实现(与计算机相比,智能手机的CPU和内存等资源有限)。

考虑ML算法,主要是实现渐进式认证[137]和连续认证[130]。这两种身份验证之间的主要区别与登录过程有关。渐进式身份验证解决用户登录前的任务,而连续身份验证在用户被记录并与系统交互后评估用户的操作。


智能手机环境:
在智能手机的情况下,主要的信息来源是集成在设备中的传感器。智能手机通常配备四种类型的传感器[146]:

  1. 运动传感器(如加速度计和陀螺仪)、
  2. 环境传感器(如光和温度)、
  3. 位置传感器(如全球定位系统(GPS)和罗盘)
  4. 触摸屏传感器(如压力和电容)。

这些方法的目的通常是根据这些传感器收集的信息来检测用户行为中的异常。这些异常现象通常是由冒名顶替者或身份窃贼造成的。

深入研究渐进身份验证方法,他们的目标是评估访问请求,确定它是否满足传感器指定的条件。这些传感器通常与GPS数据和触摸屏相关。在[108]中,用户是通过使用基于密度的带噪声应用程序空间聚类(DBSCAN)算法[20]根据最常访问的地方进行聚类的。然后,将聚类之间的转移视为马尔可夫过程。这允许使用隐马尔科夫模型(HMM)来确定访问请求的合法性[34]。
在[59]中考虑触屏传感器。当用户输入他们的智能手机密码时,键-斯托克动力学被收集起来。获得的纵向信息被组织成n-gram,以测量到之前标记为可信的信息的距离。如果距离大于阈值,则将该用户归为非法用户。在[6]中,提出了一个使用击键动力学进行用户分析的统计假设检验。

持续认证方法使用多种传感器(如加速计、陀螺仪和触摸屏)。尽管这些传感器具有可变性,但收集到的信息通常以时间序列的形式呈现。这些信息通过准备和清洗过程进行处理。这一过程通常包括数据归一化和标准化[52]、新的人工数据生成[93]和数据描述符提取53。请注意,将信息建模为序列是这一类中广泛使用的技术。此外,我们还考虑用模糊逻辑[123]来表示提取的知识[24]。
几种ML算法被用来处理击键动力学。K-Nearest Neighbors (KNN)和支持向量机(SVM)的分类效果较好,当传感器序列[52]足够大。此外,Logistic回归(LR)、Na ıve贝叶斯(NB)、贝叶斯网络(BN)和神经网络(NN)在处理小数据集[26]时都具有良好的性能。请注意,其他类型的传感器(例如,加速度计和陀螺仪)可以包括以改善这些结果。
就加速度计和陀螺仪而言,一类分类[119,165]是最主要的算法。在[93]中,提出了数据增强、穷举特征提取和一类SVM分类来定义标准使用模式等技术。这些模式允许区分合法用户和冒名顶替者。有一些相关的方法专注于在多个场景下使用一类HMM检测模式:手持式、桌上式和手持式行走[146]。环境传感器(如环境光和噪声)通常使用KNN、NB和Hoeffding自适应树(HAT)算法[120]。然而,这些方法并没有得到相关的结果。例如,在[53]中,这些ML算法的精度值很低。将这种传感器与电池使用传感器结合在一起,性能得到了改善。然而,这种方法有一个主要的缺点:在尝试检测异常情况时存在较高的延迟。


计算机环境:

对于以计算机为中心的方法,也提出了渐进和连续的身份验证解决方案。对于第一种情况,通常的信息来源是web导航日志、身份管理系统(IdM)[171]和访问请求日志。在连续身份验证的情况下,通常的信息源是击键动力学和鼠标动力学[8]。请注意,当ML算法和可用数据的性质允许在线(即实时)预测时,适合于渐进身份验证的模型可以适应于执行连续身份验证。大多数以计算机为中心的方法都是基于对用户交互进行分组,以确定特定用户的合法性。例如,web导航日志用于生成web导航序列,并按会话进行划分。这些序列可以组合在一起,结合简单的相似性度量来比较用户导航会话[100]。更复杂的方法,如支持向量机[60]和马尔可夫链[187]也被使用。所有这些方法的最大挑战是在用户第一次访问时检测用户行为中的异常。在这种情况下,访问总是被检测为异常,从而产生大量的误报。当试图缓解这个问题时,可以使用推荐系统来检测第一次访问。然后,通过训练分解机器来预测它们[163]。在使用IdM方法的情况下,数据通常由对资源、应用程序或服务的用户访问请求或授权请求序列组成。它们的主要目标是评估请求的风险,并检测非法用户。为了完成这些任务,在训练阶段对合法用户的正常请求进行建模。然后,获得一个特定的阈值,手动生成可疑的请求。因此,当超过阈值时,将发出警报。在IdM中使用的ML算法的典型例子有:SVM[117],根据主题对用户受保护文档进行分组的NB挖掘技术[105],降维[138]和一类SVM[113]。然后,一个Bayes模型可以用来确定用户的请求是否符合他们的预期行为。

最近几年出现了不同的方法来解决访问控制问题,例如从电话日志、购买习惯或smarttv收集数据,或包括推荐系统技术[71]。这一类中的大多数方法都使用类似的数据(计算机设备的键盘和鼠标动态,智能手机的传感器)和类似的技术对信息建模以获得公共点。此外,还有一些论文使用了其他类型的数据,如网络流量和网络日志,从而在该领域开辟了一系列新的可能性。对于所使用的ML算法,存在较高的异质性。根据特定的领域,一些方法优先考虑响应时间,而不是其他指标。

2.Cyber-attacks(网络攻击)

网络攻击是指个人或组织恶意、蓄意侵入另一个个人或组织的信息系统。网络攻击的目标可以从使其他用户无法访问被攻击系统而中断系统的正常运作(即拒绝服务攻击),到劫持被攻击系统上的信息以索要赎金(例如勒索软件)。在这种情况下,主要的研究目标是使用UBA解决方案检测网络攻击。因此,主要的工具是分析关于系统或子系统(例如,系统调用[82]和网络流量[181])、用户访问请求和web导航历史的使用行为。这些方法可以根据其范围分为五类:恶意软件检测、数据泄漏检测、bot(僵尸)程序检测、内部和入侵检测以及假新闻(假新闻本身不是网络攻击,但被理解为网络罪犯引诱受害者的一个新的攻击面)。

由于现有恶意软件的高传播率和新的恶意软件家族的快速进化,恶意软件检测方法在当今是必不可少的。对于网络安全专家来说,这是一个令人不安的问题,因为人工检查恶意软件是一项非常艰巨的任务。因此,自动化的UBA解决方案成为一种重要的机制,可以有效地检测新出现的恶意软件、新形式的感染等。基本的信息来源是代码和文件,在可能的情况下,它们被与用户活动、特权或权限和资源使用(例如,CPU消耗和电池使用)相关的信息补充。最先进的ML算法被用来模拟所有这些特征。这些算法通常专注于发现特定的恶意软件模式(与合法应用程序相反)及其可能的变异。

提出的解决方案在两种环境下再次发挥作用:智能手机和电脑。对于智能手机,信息是从源代码和二进制文件中获取的。一旦收集到这些信息,就会使用KNN[141]、SVM[2]和State Machines[110]来寻找行为模式。在计算机的情况下,信息通常是从便携式可执行文件收集。对于ML模型,最常用的是具体的决策树(如J48)[19]、NB、SVM、KNN和NN[51]。

数据泄漏检测方法对数据流进行实时分析。这些数据通常是低级的、未排序的[17]。不过,有些方法通过使用来自数据库管理系统[17]的更结构化和高级的数据来简化分析。然后,使用基于规则的ML算法对用户进行分析。闵可夫斯基距离也可用于比较静态行为与获得的剖面[61]。因此,可以检测到依赖于固定剖面的正态性的缺乏。

僵尸程序检测系统专注于发现恶意爬虫和拒绝服务攻击。在这个区域,与web服务器相关的网络跟踪经常被检查。攻击者通常模拟标准的浏览行为,以不被注意并执行攻击。为了解决这个问题,已经提出了非常严格的检测系统。然而,这些系统有几个缺点。最重要的是,它们可能产生很高的误报率,拒绝合法用户。这意味着降低web服务器提供的服务质量。为了解决这一问题,采用了ML算法的模式识别系统。这些系统能够检测出攻击者设计的典型策略及其变体。这些方法的例子有窗口支持向量机[153]或聚类和神经网络的结合[159]。此外,专注于社交网络的机器人检测系统已经吸引了研究人员的注意,增加了提出的解决方案[50]。在这个特殊的例子中,可视化技术带来了令人兴奋的结果[29]。强化学习和神经网络也是检测机器人和有影响力的用户的优秀方法[97]。

入侵检测系统主要用于检测内部入侵(即在公司内部进行恶意行为的人员)或外部入侵(即在公司网络中进行恶意行为的访客或外部对手)。他们使用web导航和访问请求数据作为主要的信息来源。在恶意内部人员检测系统的情况下,提出的解决方案通常实现两步结合的方法。第一步使用期望最大化(Expectation Maximization, EM)提供一致的输入(即每个聚类的点数和设置聚类的点之间的距离)[118]。第二步使用DBSCAN[168]组织信息,检测可能的离群值(即内部人员)。在其他入侵检测系统中,解决方案通常基于合法用户几乎不偏离常规(即合法用户在较长时间内执行其典型行为)的假设,而恶意用户打破常规执行散布行为[54]。离散度可以用熵度量来度量。然后利用得到的距离对行为相似的用户进行聚类。这些集群允许确定行为的合法性[145]。利用奇异值分解[39]和马氏距离[40]度量离散度,实现基于企业的解决方案。

假新闻正迅速成为一个全球性问题[88],它削弱了信任,并为一些传统的网络攻击(如恶意软件感染和敏感信息泄漏)提供了基础。在尝试检测假新闻时,解决方案可以分为两大类:语言学方法和基于网络的行为方法[38]。目前,第二种是最流行的。社交网络数据通常通过知识图表示[131]。这种表示方式可以检测单个的异常行为,如大量信息传播,也可以检测属于恶意帐户社区的集体异常行为[86]。

最后,必须提到的是能够在五类以上的网络攻击方法中检测事件的混合方法。例如,在智能手机环境中,[112]提出的方法能够检测三种类型的异常:数据泄漏、恶意软件和未授权用户(内部人员和入侵者)。该方法采用PCStream聚类算法[111]。由于网络攻击有很多种类型,这类论文试图解决该领域的多种情况。由于这个原因,大多数方法根据具体情况使用非常不同的数据、技术和算法。然而,对于恶意软件检测,大多数工作使用类似的数据,如源文件和二进制文件。因此,在恶意软件检测案例中使用的技术和算法是相似的。

3.欺诈检测

欺诈检测是指网络欺诈。它可以被定义为一种利用受害者进行欺诈性交易以获得经济利益的网络犯罪。如今,由于新技术的出现,报告率大幅上升,主要问题是报告率越来越低。这类工作的共同本质包括UBA解决方案,以获得可用于确定欺诈交易的正常行为模式。

介绍了用于检测信用卡诈骗和电信诈骗的UBA解决方案。信用卡是最典型的受攻击的藏物。将它们用于在线购买可能是对用户最危险的威胁之一。因此,攻击者使用一系列技术(如钓鱼[98],欺骗[42],skimmers[81])来窃取信用卡号码,信用卡验证值(CVV)或个人识别号码(PIN)。这允许攻击者进行欺诈性交易。电信系统或医疗保险系统也可能遭受欺诈。在[1]中,提出了在这些领域中进行欺诈检测的多种方法。金融机构提供的信用卡应该通过UBA解决方案得到保护。这些解决方案使用来自信用卡的信息来获得标准的用户行为模式。例如,假设一个用户总是在同一家商店进行类似的购买。当该用户试图在另一家商店花更多的钱时,信用卡公司可以向该用户发出警报并请求进行交易验证。

在研究信用卡交易模型的方法时,他们通常会通过探索性的数据分析和特征工程来获得高性能[7,135]。基于深度学习技术的特定体系结构也被开发出来以实现特征工程任务,并获得了很好的结果[185]。观察到两个不利因素。首先,冷启动问题,可以使用数据的增强表示(例如,图表[92])来面对这个问题。二是数据的不平衡和非平稳[156]。这些方法试图识别事务序列上的不匹配,以检测异常序列。这一过程是使用不同类型的ML算法实现的(例如,NN [135], BN [136], HMM[73]和基于规则的[7]或简单的基于风险的技术使用统计数据[35])。所有这些模型都可以通过前面的聚类步骤进行改进[79]。值得一提的是,在线模型对于生产环境是必要的[156]。另一方面,电信欺诈可以分为四大类:技术欺诈、合同欺诈、黑客欺诈和程序欺诈[1]。UBA可以成为一种潜在的检测和预防所有这些疾病的解决方案。例如,在[69]中,有监督的前馈神经网络和聚类的实现获得了非常有希望的结果。

这类方法的共同点主要是基于信息清理和建模的方式。这些流程主要基于将事务转换为序列,以提供分类算法。在这里,重要的是要注意在生产环境中部署的大量方法。

(2)网络

网络存在于我们日常生活的几乎所有方面,是当前商业模式、电子政府和数字转型的推动者。日益复杂的网络需要发展,这影响到它们的效力和效率。用户行为分析是一种可能的解决方案,在本节中讨论和分类了几种重新讨论过的方法。在本文中,有30篇重访论文被纳入了网络类目(见表3),主要侧重于重定向网络流量以提高效率或检测薄弱点和瓶颈。对网络用户的分析也是这个领域的核心目标。在这种情况下,根据网络的类型考虑了三个二级类别:通信网络、传输网络和电网。下一节在这些类别组织重新访问的论文,详细说明他们的特点和目的。

1.通信网络

通信网络是由一组节点组成的,这些节点由用于在节点之间交换消息的链路连接起来。该领域的主要目的是通过分析节点的行为和链路之间发送的信息来优化和保护通信网络。
通信网络类考虑通信的结构和流程,评估发送方和接收方之间的信息传输。这类论文被分为两种不同的环境:计算机网络和移动网络。这两个透视图具有相似的目的,通常与流量网络平衡有关。这导致检测拥塞和可能成为瓶颈的拥塞点的弱点。

在计算机网络中,大多数方法都是从存在服务器或网络会话数据包中收集数据。在第一种情况下,状态服务器收集用户的登录信息和注销操作。这些信息用于生成概要文件和提取访问模式。后者侧重于规划网络容量[30],并为网络运营商提供参考[102,180]。在第二种情况下,网络会话用于对区域之间的流量进行分类(即一组具有相同网络标识符的ip)。这使得可以为每个区域生成概要文件,并找到通用模式。因此,交通网络可以根据特定的偏好进行组织,从而简化了最优路线的规划[132]。

在移动网络中,通常的方法是解决优化问题,如规划数据传输容量[94,177],提高网络通信能源[76]或调整切换参数,提高客户满意度和体验[66]。这些方法通常涉及到对目标网络中的用户进行分类的第一步,以便根据分析的特定用户群来简化优化问题。此外,服务改进和营销目的是一个新兴的趋势。在这方面,大多数方法都是从网络流量或从呼叫日志中提取的大型数据集中收集数据。在第一种情况下,对流量的深度检查可以理解和建模常见的行为。这些行为与之前访问过的网站和位置特征有关[89]。这些方法还与基于主题的文档模型相结合,从网站内容中提取隐藏的模式和偏好[116]。另一方面,可以对包含通话记录的数据集进行分析,以提高通信的私密性[170]。这类文件的目标非常明确。因此,尽管它们使用不同的技术和ML算法,但它们通常有一个共同的聚类步骤来理解数据的不同类型。

2.运输网络

运输网络可以定义为使车辆在多个点之间运输的所有基础设施。该领域的研究方法是分析道路交通网络与铁路交通网络之间的平衡,以优化和平衡道路交通网络。在道路交通网络方面,一些方法侧重于利用GPS和公交站点的数据进行公交路线的动态规划[83]。其他方法评估交通智能卡数据,以生成公共交通用户的配置文件[3]。这允许管理者选择特定的描述常见使用模式的固有特性,用于预测高需求率和饱和峰值,并决定定价策略。然而,最广泛的应用是动态交通控制。

深入研究动态交通控制系统,可以看到两个趋势:动态交通信号控制和驾驶员辅助系统,最终将成为自动驾驶系统。在第一种情况下,重新审视的方法通常是利用交通管理软件来构建大型数据集。然后,使用基于规则的模型[43,178]、NN[75,158]或多智能体系统对动态交通信号管理系统建模,将问题划分为更小的子问题,这些子问题对领域专业知识的要求更少,然后可以使用NN[16]或基于强化学习的模型,如Q-learning[12]。在第二种情况下,驾驶员辅助系统采用层次动态贝叶斯模型描述驾驶员行为,EM算法估计参数[57]。就铁路而言,大多数方法都是基于对使用模式的分析。这些模式通常根据用户年龄[4]进行分类。因此,可以根据个体的年龄来发现他们在出行目的、距离和时间上的差异。例如,这使得生成概要文件和预测每个站点在特定时间的用户数量成为可能。在这一类中,特别是在动态交通控制系统中,大多数方法都使用模拟数据。从另一个角度来看,由于智能城市的出现,将有更多的数据可用。这就产生了技术和ML算法方面的更多种方法。

3.电网

电网是指连接电力生产者和消费者的网络。对于生产者来说,电力市场价格的预测是设计获取竞争优势[46]和提高服务质量的策略的有力工具[96]。这是通过分析时间序列和拟合经典ARIMA模型[150,186]、深度Qlearning[162]或投票随机森林来预测电气故障[96]来实现的。利用智能仪表数据对相似行为进行分组的聚类技术也被证明是一个很大的帮助[169]。[87]还提出了一种理解全球任务的方法。从消费者的角度来看,智能家居的到来简化了能源管理系统的开发,以优化支出。例如,使用智能插头来模拟用户的行为可以降低能源消耗[183]。电动汽车的快速增长是另一个需要考虑的问题。为了预测这些车辆的最优充电时间,并将对全球电力系统的影响最小化,必须执行优化任务[37,74]。这类论文的共同之处在于它们总是使用时态数据。这个问题导致为这种类型的数据选择特定的模型(例如,ARIMA)。

(3)安全和健康

随着物联网的发展,传感器能够提供信息来模拟人类的生活习惯,并分析人类的安全和健康活动。例如,拥有智能药盒的老年人可以收到吃药通知。此外,智能家居中的传感器可以检测到老年人的习惯何时改变。这种变化可能意味着健康问题的症状。在道路交通方面,随着自动驾驶汽车的增加,人们对模拟驾驶员的行为越来越感兴趣,以帮助决策过程和减少危险情况。在本文中,安全与健康类别包括27篇重访论文(见表4)。主要的信息来源是不同的传感器,负责收集用户产生的信息和/或环境数据。这个主要类别被分解成两个次要类别:人类活动识别(HAR)和驾驶。下一节将介绍与此领域相关的不同方法和备选方案

(4)改进服务交付

这个领域的重点是促进提升服务质量的机制。在这个领域中,用户行为分析允许理解服务用户以进行分析或预测。例如,在电子商务环境中,基于用户偏好开发推荐系统可以增加销售。此外,根据用户共享的特征将他们划分为不同的部分有助于识别他们的特定需求,并实现个性化。在这次调查中,29篇论文被重新列入服务交付改进类别(见表5)。根据最终解决的服务,它们被分为两个二级类别:营销服务和Web导航服务。


4.讨论

被分析的作品被证明是一个丰富的信息来源,代表了用户行为分析领域的当前知识主体。本节讨论考虑到它们的特征(即,基于主题的特征和基于关联的特征)和将考虑的论文分组到集群的相似方法之间的关系。这些集群的可视化允许研究人员有一个图形表示,可以根据他们的特定需求选择阅读材料(该领域的一般介绍概述,提高特定应用领域的高级知识,以及基于类似ML技术的作品的比较)。共分析了127篇论文。如前所述,主要类别的分布情况如下:网络安全43(33.8%),网络30(23.6%),安全与健康27(21.2%),服务提供改进29(22.8%)。对于评审中的每一篇论文,都计算了在0(最低声誉)和1(最高声誉)之间的声誉分数(见(5))。此外,此次调查的所有论文都根据名誉评分从1分(最佳论文)到127分(最差论文)进行了排名。图5显示了每个Primary类别上的信誉分数分布。在全球范围内,最好的论文是在安全与健康类别(平均和标准偏差等于0.65 0.12)。网络安全类别的标准差最高(0.60 0.15)。网络和服务交付改进类别获得中间结果(平均值和标准偏差分别为0.63 0.10和0.60 0.13)。

5.总结

本文旨在对用户行为分析的最新进展进行全面的调查,重点介绍核心应用程序、选择的ML算法和使用的数据类型。127篇具有代表性的论文样本已被确定、分析、讨论,并根据具体特征进行分类,考虑到声誉评分,可以衡量该领域任何贡献的相关性,并对其进行排名。此外,还引入了一个度量来量化分析论文之间的相似性。然后,生成了一个可视化的图形化总结综述,这是一个强大的工具,为不同背景和不同阶段的研究人员的研究。所进行的调查处理了一个新兴的研究领域,可能受益于这种理论分析、分类和可视化。例如,它允许识别不同应用领域中用户行为分析的共同弱点和挑战,这应该是未来研究工作的重点。通过分析重访作品的新新性分布(考虑出版年份),科学界主要将其兴趣集中在网络安全和服务交付改进的类别上。在网络安全的情况下,行为分析将成为智能城市在传感器层面证券化的关键。此外,这将产生新的研究方向,并与其他领域(如先进计算和云计算)形成共生关系。

“共生”也将被纳入“安全与健康”范畴,允许传感器在功能更强大的设备上计算行为算法,而不会带来延迟或让用户体验更差。此外,行为分析开始与区块链技术一起使用,以确保网络流量的安全。在服务交付改进类别中,对用户行为的分析将产生服务提供商提供更多的个性化支持,以加强个性化营销。更具体地说,访问控制和市场营销的类别正在上升。在访问控制中,识别和认证用户的新机制和协议(例如,联邦方案)的到来将确实得到行为分析技术的支持,以增强用户的安全性。在市场营销方面,几乎所有互联网上的服务和应用程序提供商都在通过个性化的广告寻求更大的参与度和增加他们的收益。未来,随着智能手表或智能眼镜等新设备的使用增加,这些供应商将能够在更高的水平上使用基于行为的用户模型。这意味着,根据一天中的时间或他们的地理位置模式,用户可以根据他们的行为而不仅仅是他们的偏好收到实时的广告活动。同样值得一提的是电网的类别。智能电表的出现使得基于用户行为更负责任地使用能源成为可能。此外,生产商和供应商也将能够使用行为分析来提高效率和降低成本。

基于机器学习技术的用户行为分析:当前模型和应用研究综述(A survey for user behavior analysis based on machine learning technique)相关推荐

  1. 热解反应aspen,基于Aspen Plus平台的生物质热解模型与应用研究综述

    2018.NO.6 . ISSN1672-9064 CN35-1272/TK 基金项目:国家自然科学基金面上项目(51576087):国家自然基金青年基金(71704060)作者简介:魏智宇,硕士研究 ...

  2. 基于无埋点技术的用户行为分析

    用户行为分析从狭义来看是用户的行为数据分析,但是广义来说这一个词包含用户分析,用户行为的结果分析,用户的行为分析.用户行为的结果和用户的行为分析是不一样的,一个是结果,一个是过程.现在国内市场上关于用 ...

  3. 付力力: 基于 ImpalaS 构建实时用户行为分析引擎

    本文来自神策数据联合创始人&首席架构师付力力在 QCon 北京 2017 年全球软件开发者大会上的精彩分享,主题是"基于 ImpalaS 构建实时用户行为分析引擎". 付力 ...

  4. 【毕业设计_课程设计】基于机器学习的情感分类与分析算法设计与实现(源码+论文)

    文章目录 0 项目说明 1 研究目的 2 研究方法 3 研究结论 4 项目流程 4.1 获取微博文本 4.2 SVM初步分类 4.3 使用朴素贝叶斯分类 4.4 AdaBoost 4.4.1 二分类A ...

  5. 毕业设计 - 题目:基于大数据的用户画像分析系统 数据分析 开题

    文章目录 1 前言 2 用户画像分析概述 2.1 用户画像构建的相关技术 2.2 标签体系 2.3 标签优先级 3 实站 - 百货商场用户画像描述与价值分析 3.1 数据格式 3.2 数据预处理 3. ...

  6. 基于机器学习的服装搭配问题分析

    背景   目前,市面上也有很多关于用户行为进行推荐的软件,这些软件虽然会根据用户的购买行为进行产品推荐,不过推荐的效果不是很好,特别是在搭配推荐领域,就显得十分的粗糙.对于时尚而言,没有百分百的时尚界 ...

  7. 基于彩信技术的手机报业务分析(转)

    2004年7月18日,<中国妇女报>推出了全国第一家手机报-<中国妇女报·彩信版>.正因为如此,笔者对该报作了一个比较深入的研究. 技术与内容推动其诞生 好易时空公司是做系统集 ...

  8. 如何基于视频技术与AI智能分析实现校园智能化安全监管?

    校园安全已成为社会高度关注的热点问题,解决校园安全存在的问题,维护正常的学校教育教学和生活秩序.保障师生人身和财产安全已成为创建平安城市的重要组成部分.因此,为了保障校园安全,对教学楼.校园主要进出口 ...

  9. [系统安全] 三十三.恶意代码检测(3)基于机器学习的恶意代码检测技术

    您可能之前看到过我写的类似文章,为什么还要重复撰写呢?只是想更好地帮助初学者了解病毒逆向分析和系统安全,更加成体系且不破坏之前的系列.因此,我重新开设了这个专栏,准备系统整理和深入学习系统安全.逆向分 ...

最新文章

  1. 云计算为企业实现业务成果开辟了新的机遇
  2. 10 个开源 Python OpenCV 小项目,YouTube热门
  3. 制作r710 linux系统盘,记一次云主机系统盘扩容及制作私有镜像的操作步骤
  4. 图像处理相关知识(不断更新)
  5. 一个 Java 的 Socket 服务器和客户端通信的例子
  6. 通过adb查看当前页面中显示的窗口Activity名称
  7. linux 源代码gcc安装,linux下源码安装GCC
  8. 计算机考研复试汇总(所有科目)
  9. Java入门级基础教学(史上最详细的整合)
  10. 下载webex client的remover
  11. 2021认证杯 第二阶段 思路加代码
  12. opencv直方图,lomo,cartoon
  13. 如何在vscode中暴躁的使用leetcode
  14. Cplusplus实现的爱心代码,爱心里面有三个字李欣怡
  15. P02014250陈彦菁 信息论
  16. python命令行输入参数_Python命令行参数处理
  17. 【Word画线条5大技巧】
  18. 机器学习基石(台湾大学 林轩田),Lecture 1: The Learning Problem
  19. HAKE笔记:Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction
  20. Java基础知识(二)—— API文档

热门文章

  1. 【方法】DAU异常下降该如何分析
  2. 操作系统之 吸烟者问题
  3. python实践答辩ppt_如何制作优秀的毕业论文答辩 PPT?
  4. 大学计算机基础实验指导第一章答案,(教材)大学计算机基础实验指导与习题解答...
  5. OJB Connection
  6. 互联网出海,从粗放圈地到落地深耕
  7. 微服务架构的设计理念
  8. 如何传播一个会议--给Open Party的建议
  9. Android manifest文件中的标签详细介绍
  10. 火云开发课堂 - 《使用Cocos2d-x 开发3D游戏》系列 第十九节:雾