会议:2019 First IEEE International Conference on Trust, Privacy and Security in Intelligent Systems and Applications (TPS-ISA)

(2019 年首届 IEEE 国际智能系统和应用中的信任、隐私和安全会议 (TPS-ISA))

论文链接:https://arxiv.org/pdf/2002.01336.pdf

使用BILSTM对单条推文编码提取特征后检测,判断用户是否为机器人;

目录

摘要:

1 引言

2 相关工作

A. Twitter 机器人检测

B. 循环神经网络

3 我们建议的方法

A. 词嵌入

B. BiLSTM 神经网络

4 实验结果

A. 现有的比较系统

B. 数据集

C. 神经网络模型设置

D. 评估指标

E. 结果与讨论

5 结论


摘要:

背景: Twitter 是一个兼具在线社交网络和微博功能的网络应用程序。 Twitter 的流行和开放结构吸引了大量的自动化程序,称为机器人。

引入方法:合法的机器人生成大量良性上下文内容,即发布新闻和更新提要的推文,而恶意机器人则传播垃圾邮件或恶意内容。为了帮助人类用户识别他们正在与谁进行交互,本文重点关注 Twitter 上的人类和垃圾邮件帐户的分类,通过使用循环神经网络,特别是双向长短期记忆 (BiLSTM),有效地捕获推文中的特征。

模型优势介绍: 据我们所知,我们的工作是第一个开发带有词嵌入的递归神经模型来区分 Twitter 机器人和人类账户的工作,它不需要关于用户个人资料、友谊网络或目标历史行为的先验知识或假设帐户。此外,我们的模型不需要任何手工制作的特征。

效果介绍:初步的模拟结果非常令人鼓舞。在 cresci-2017 数据集上的实验表明,与现有最先进的机器人检测系统相比,我们的方法可以实现具有竞争力的性能。

索引词——在线社交网络、Twitter 机器人、机器人检测、机器学习、神经网络、词嵌入;

1 引言

Twitter 是一种流行的在线社交网络和微博工具。显着的简单性是其显着特点:其社区通过发布基于文本的帖子(称为推文)进行交互。 Twitter 有自己的特殊模因,即标签 (#)、提及 (@)、缩短的 URL (http://t.co) 和转推 (RT)。

Hashtags(标签):即以# 符号为前缀的单词或短语,可以按主题对推文进行分组,例如,#usopen2019 和 #SheTheNorth 是 2019 年 9 月 Twitter 上的两个热门话题标签;

符号 @:推文中的符号 @ 后跟用户名可以将推文直接传递给该用户;

共享链接:在 Twitter 上共享的链接,包括在私人直接消息中共享的链接,将被自动处理并缩短为 http://t.co 链接;

转推:转推是对推文的重新发布。有时人们在推文开头输入“RT”表示他们正在重新发布其他人的内容。

越来越多的用户和Twitter的开放性,使其成为自动程序(即机器人)的理想利用目标。自动化对Twitter来说是一把双刃剑。

良性推文:一方面,合法的机器人会生成大量良性推文,例如新闻和博客更新;

恶意内容:另一方面,恶意机器人已被广泛用于传播垃圾邮件或恶意内容。本文中垃圾邮件的定义是在推文中传播恶意、网络钓鱼或未经请求的内容。这些机器人随机跟随人类用户,期望许多用户回来跟随他们。

推文中所做研究:社交网络中的垃圾邮件问题已经引起了研究人员的关注。作为垃圾邮件检测的一个例子,一个研究分支挖掘了推文的文本内容 [1];其他人研究了推文中嵌入 URL 的重定向 [2],或对 URL 登录页面进行分类 [3]。高等人 [4] 通过提出一种能够将传入的推文与常用的底层模板匹配的复合工具,克服了将那些没有 URL 的推文标记为垃圾推文的困难。克雷斯奇等人 [5] 引入了一种仿生技术来模拟在线用户行为。

基于特征的方法:大多数现有工作通过多特征方法识别垃圾邮件机器人,包括个人资料上的特征、用户行为、友谊网络和帐户的时间线。这种分析的例子包括[6]-[12]。此外,杨等人 [6] 设计了一系列新标准,并证明了它们在检测逃避先前检测技术的垃圾邮件机器人方面的有效性。

模型介绍: 在本文中,我们提出了一个循环神经网络 (RNN) 模型,特别是 BiLSTM,它使用词嵌入来区分 Twitter 机器人和人类账户。据我们所知,我们的工作是第一个开发带有词嵌入的 RNN 模型来检测 Twitter 机器人,该模型不需要关于用户个人资料、友谊网络或目标帐户上的历史行为的先验知识或假设。我们将我们的贡献总结如下:

我们提出了一个 RNN 模型来区分 Twitter 机器人和人类账户,而不是使用传统的方法(例如,随机森林、贝叶斯网络或支持向量机)。 BiLSTM 将两个方向相反的隐藏层连接到相同的输出;

通过这种生成式深度学习的形式,输出层可以同时获得过去(向后)和未来(向前)状态的信息。这种方法可以有效地捕捉语境特征,并达到与现有方法相比具有竞争力的 与现有的方法相比,实现了有竞争力的分类精度;

我们使用词嵌入对推文进行编码,而不是使用复杂得多的传统特征工程或自然语言处理 (NLP) 工具。这一优势允许更快、更容易地实施和部署机器人检测方案。

我们对真实世界的数据集进行了实验。 cresci-2017 数据集的实验表明,与现有工作 [5]、[6]、[8]、[11]、[12] 相比,我们的方法可以实现具有竞争力的性能,尽管我们的 RNN 模型仅使用推文的上下文内容作为模型的输入。

在本文的其余部分安排如下。我们在第二节讨论相关工作。建议的方法在第 III 节中进行了描述。在第四节中,我们展示了实验结果,将我们提出的模型的性能与现有的最先进系统的性能进行了比较。第五节总结了论文并概述了我们未来的工作。

2 相关工作

我们讨论了 Twitter 机器人检测和循环神经网络的现有技术的相关工作。

A. Twitter 机器人检测

基于账户检测:传统的机器人检测系统通常依赖于在被调查的帐户上应用众所周知的机器学习算法,例如 [1]-[3]、[6]、[13]-[27]。

基于账户组的检测:然而,自 2013 年以来,许多研究团队独立地开始正式制定新方法,以检测以自动恶意帐户 [5]、[28]-[32] 为特征的协调和同步行为。尽管基于不同的关键概念,这些研究将账户组作为一个整体进行调查,这与以前的文献有所不同。

然而,我们针对垃圾邮件问题的方法侧重于检测包含垃圾邮件的推文,而不是检测垃圾邮件帐户。垃圾邮件推文本身的检测可用于过滤实时搜索中的垃圾邮件[14],而垃圾邮件发送者的检测与现有垃圾邮件帐户的检测有关。事实上,检测垃圾邮件发送者的一种方法是过滤写过许多垃圾邮件推文的用户。此外,当检测到垃圾邮件帐户时,Twitter 会暂停该帐户,甚至暂时阻止其 IP 地址,因此垃圾邮件发送者只需创建一个不同的帐户即可继续发送垃圾邮件或等待一段时间以解锁其 IP 地址。

现有的 Twitter bot 检测方法可以分为两种主要方法:监督机器学习和无监督聚类。它们都需要复杂的手工制作的功能。

监督机器学习策略:李等人 [7] 采用了 30 种分类算法并测试了它们的性能。基于树的监督分类器显示出最高的准确度结果。特别是,随机森林产生了最高的准确性。为了改进随机森林分类器,另外还应用了标准的 boosting 和 bagging 技术。作者根据不同的特征组组合训练了内容污染者分类器。 [6] 中的系统提供了一个有监督的机器学习分类器,该分类器通过依赖帐户之间的关系、推文时间和自动化水平来推断 Twitter 帐户是人工帐户还是垃圾邮件机器人。此外,他们还设计了 10 个新的行为检测功能。根据他们的评估,使用他们的新特征集的检测率明显高于现有工作。阿尔萨莱赫等人。 [9] 提出了一个利用监督机器学习技术动态检测 Twitter 机器人帐户的系统。分类结果表明,该特定应用的检测率令人满意。虽然他们采用多层神经网络,这是一个简单的前馈神经网络(FFNN),但仍然需要复杂的手工特征。戴维斯等人 [8] 将特征分为六个主要类别:网络、用户、朋友、时间、内容和情感,并采用随机森林(一种集成监督学习方法)来获得高准确度分数。瓦罗尔等人 [10] 提出了一种有监督的机器学习系统,可以在六个不同的类别中提取一千多个特征:用户、朋友元数据、推文内容、情绪、网络模式和活动时间序列。

无监督聚类方法:[12] 中的方法考虑了由从帐户和推文中提取的 126 个特征组成的向量,作为 DenStream [33] 和 StreamKM++ [34] 聚类算法的修改版本的输入,以对一组未标记帐户的特征向量进行聚类。 [11] 中的方法利用了一组 14 种与 URL、主题标签、提及和转发相关的通用统计行为特征。然后通过欧几里得距离测量将以此方式生成的特征向量相互比较。查沃什等人 [35] 开发了一种名为 DeBot 的无监督方法,它计算跨用户活动相关性以检测 Twitter 中的机器人帐户。 Debot 每天以 94% 的准确率检测数千个机器人,并每天在线生成报告。克雷斯奇等人。 [5] 提出了一种检测垃圾邮件机器人的无监督方法,通过比较它们的行为来发现自动帐户之间的相似性。他们引入了一种受生物启发的技术,通过所谓的“数字 DNA”序列对在线用户行为进行建模。提取帐户的数字 DNA 意味着将该帐户与对其行为信息进行编码的字符串相关联。尽管它实现了良好的检测性能,但仍然需要许多手工制作的行为特征。

最近的一个研究方向是测试当前机器人检测框架在对抗环境中的局限性。这个想法是提出方法来设计可能未被检测到的系统。克雷斯奇等人 [36] 提出使用进化算法来提高社交机器人的技能。格里姆等人 [37] 采用了一种涉及自动和手动操作的混合方法来创建机器人,这些机器人将被有监督的机器人检测系统归类为人类。尽管指出现有系统中的弱点是好的意图,但这项研究也可能会激发机器人创建者并赋予他们竞争优势。

B. 循环神经网络

在过去的几年里,深度神经网络在许多数据建模和预测任务中取得了巨大的成功,从语音识别、计算机视觉到自然语言处理 (NLP)。在本文中,我们将强大的深度学习方法应用于社交网络数据建模,以区分 Twitter 机器人和人类账户。

深度学习方法能够在一定程度上从上下文内容中自动捕获句法和语义特征,而无需手工制作的特征工程,这是劳动密集型和耗时的。近年来,它们引起了很多研究兴趣,并在 NLP 的许多领域取得了最先进的表现。

索切尔等人[38]首先提出了一系列循环神经网络(RNN)来学习可变长度短语和句子的组合语义。 Irsoy 等人[39] 提出了一个通过堆叠多个循环层构建的深度 RNN,以实现语言的组合性。长短期记忆 (LSTM) [40] 是一种 RNN 架构,旨在通过专门构建的记忆单元来解决长期依赖问题。 BiLSTM [41] 包含一个前向 LSTM 层和一个后向 LSTM 层,以便从前面和后面的标记中学习信息。

在本文中,我们将 Twitter 机器人检测问题定义为文本分类问题:我们仅使用推文的上下文内容作为 RNN 模型的输入。

3 我们建议的方法

在本节中,我们将讨论我们提出的带有词嵌入的双向 LSTM (BiLSTM) 方法。

A. 词嵌入

人类词汇来自自由文本。为了使机器学习模型能够理解和处理自然语言,我们需要将自由文本单词转换为数值。最简单的转换方法之一是进行 one-hot 编码,其中每个不同的词代表结果向量的一维,二进制值指示该词是否存在(一)或不存在(零)。

词嵌入是数字向量形式的词的密集表示。可以使用多种语言模型来学习它。词嵌入最令人兴奋的一点是,相似的词一起位于向量空间中,对词向量的算术运算可以构成语义或句法关系。例如,向量“cat”-向量“kitten”类似于向量“dog”-向量“puppy”。然而,传统的机器学习方法(例如,潜在狄利克雷分配)无法在向量空间中保持这种线性关系。

Pennington 等人提出的全局向量 (GloVe) 模型 [42]旨在将基于计数的矩阵分解和基于上下文的skip-gram模型结合在一起。换句话说,GloVe 的动机是强制模型显式地基于共现矩阵学习这种线性关系。本质上,GloVe是一个具有加权最小二乘法目标的对数线性模型。显然,它是一种基于统计矩阵使用机器学习的混合方法。

词嵌入,也称为分布式词表示,是 NLP 中的一个重要研究课题。近年来,它被广泛应用于各种 NLP 任务,包括信息检索 [43]-[45]、文本分类 [46]、机器翻译 [47] 和机器理解 [48]。词嵌入 [42]、[49] 的成功鼓励研究人员专注于机器学习表示,而不是 NLP 中的繁重特征工程。通过使用词嵌入作为词的典型特征表示,与 NLP 中的传统方法相比,神经网络变得更具竞争力。

与传统的 NLP 表示技术(例如,词袋 [50]、词性标记 [51])相比,词嵌入的一个重要优势是它实现了表示所需的特征集的显着降维推文,从而减少了算法的训练和推理时间。

在这项工作中,我们在 Twitter 上采用了预训练的 GloVe 词向量。它基于 20 亿条推文,包括 270 亿个标记,词汇量为 120 万。我们将词汇定义为所有训练样本中的单词与预训练的 200 维 GloVe 中的单词之间的交集。给定一个词 w,如果它在词汇表中,我们将其词级嵌入  设置为其 GloVe 词向量,该词向量在训练期间是固定的;否则我们有 ,其中  是一个可训练的参数,用作所有词汇表外 (OOV) 词的共享词向量。每条推文都被发送到斯坦福 CoreNLP [52] 工具包,用于句子分割和标记化。所有包含 Twitter 特殊模因的词,即井号 (#)、提及 (@) 和缩短的 URL (http://t.co),都分别映射到几个预定义的标记,即〈HASHTAG〉、〈USER〉和〈URL〉,使用正则表达式匹配。

B. BiLSTM 神经网络

首先,我们分别简要描述 RNN、LSTM 和 BiLSTM。然后,描述了我们提出的模型。

RNN[53]是一类人工神经序列模型,如图1所示,其中单元之间的连接形成有向循环。它以任意嵌入序列 x = (x1,...,xT ) 作为输入,使用其内部记忆网络来展示动态时间行为。它由一个隐藏单元 h 和一个可选输出 y 组成。 T 是最后一个时间步长,也是这个文本序列学习任务中输入句子的长度。在每个时间步 t,RNN 的隐藏状态 ht 根据之前的隐藏状态 ht-1 和当前步骤 xt 的输入计算:

其中 U 和 W 是网络的权重矩阵; g(·) 是非线性激活函数,例如元素级逻辑 sigmoid 函数。时间步 t 的输出计算为 yt = softmax(V ht),其中 V 是另一个权重参数。softmax 是一种激活函数,通常在网络的最后一层实现。

LSTM [40] 是 RNN 的一种变体,旨在处理梯度消失问题。然而,Hochreiter 和 Schmid-huber [40] 发现所提出的架构,它使用专门构建的内存单元来存储信息,更适合于发现和利用远程上下文。图 2 说明了单个 LSTM 存储单元。

对于 [54] 中使用的 LSTM 版本,g(·) 由以下复合函数实现:

其中 σ 是逻辑 sigmoid 函数,i、f、o 和 c 分别是输入门、遗忘门、输出门和单元激活向量,它们的大小都与隐藏向量 h 相同; U、W 和 V 是网络的权重矩阵。从单元到门向量(例如,Wi)的权重矩阵是对角的,因此每个门向量中的元素 m 仅接收来自单元向量的元素 m 的输入。

BiLSTM :使用两个 LSTM 根据令牌的过去和未来上下文来学习序列的每个令牌。如图 3 所示,一个 LSTM 从左到右处理序列;另一个从右到左。在每个时间步 t,基于先前隐藏状态 -→h t-1 和当前步骤 xt 的输入计算具有隐藏单元函数 -→h 的隐藏前向层。

我们提出的模型:如图 4 所示,我们利用一个完全连接的 softmax 层来输出来自两个类别的标签的后验概率,代表 Twitter 机器人或人类。

输入是一个包含 n 个token的序列,(x1,...,xn)。两个方向的预测由三层 BiLSTM 建模,隐藏状态为,用于层的输入token 。最后一层的隐藏状态 用于在 softmax 归一化后输出二进制标签上的概率。它们共享词嵌入层和 softmax 层,分别由 Θe 和 Θs 参数化。该模型经过训练以最小化两个方向的负对数似然:

4 实验结果

在本节中,我们展示了我们的实验设置和结果,将我们的神经模型的性能与现有工作 [5]、[6]、[8]、[11]、[12] 的性能进行了比较。

A. 现有的比较系统

戴维斯等人[8] 生成 1,000 多个特征并将它们分为六个主要类别:网络、用户、朋友、时间、内容和情感;

杨等人 [6] 使用 25 个特征并将它们分为六类:基于配置文件的特征、基于内容的特征、基于图形的特征​​、基于邻居的特征、基于时间的特征和基于自动化的特征;

米勒等人[12] 考虑由 126 个特征组成的向量,从账户和推文中提取;

艾哈迈德等人[11] 利用一组 14 种与 URL、主题标签、提及和转发相关的通用统计行为特征;

克雷斯奇等人[5]设计了两组用户行为特征:推文类型DNA和推文内容DNA;

值得注意的是,大多数最先进的垃圾邮件检测算法/系统都需要大量的数据需求特征。

图 5,现有工作需要基于 6 个 [5] 到 1000 多个特征 [8] 的特征工程。特征工程在数据收集、预处理和计算能力方面非常昂贵。我们提出的 RNN 模型不依赖任何特征工程,仅使用推文的上下文内容;

B. 数据集

我们使用公共注释数据集 cresci-2017 [55] 评估我们提出的模型,该数据集由 3,474 个人类账户以及 840 万条推文和 1,455 个机器人以及 300 万条推文组成。我们在 [56] 之后准备了两个测试集。测试集#1 和测试集#2 指的是人类账户分别与数据集social-bot-1 和数据集social-bot-3 中的账户混合的组。

Social-bot-1 是关于意大利政治候选人的转发者,而 social-bot-3 是关于在 Amazon.com 上销售的产品的垃圾邮件发送者。测试集#1 由 1,982 个帐户和 4,061,598 条推文组成,而测试集#2 由 928 个帐户和 2,628,181 条推文组成。数据集的统计数据详见表一。

C. 神经网络模型设置

根据实验的设计,我们测试了几组参数,以选择能够为实验提供最佳性能的参数。这些参数如下:

学习率:使用随机梯度下降算法训练模型,学习率设置为0.01;

• 网络结构:三个堆叠的 BiLSTM 层,包含 200 个循环单元和一个完全连接的 softmax 层;

• 训练时采用Dropout [57],最初设置为0.5,在训练过程中缓慢下降,直到最后达到0.1。

•epoch:30;

•Momentum:0.9;

•小批量:64。

D. 评估指标

为了评估我们提出的 RNN 方法的有效性,我们使用了四个标准指标:

• True Positives (TP):正确识别的垃圾邮件机器人的数量;

•True Negatives (TN):正确识别的人工账户数量;

• 假阳性(FP):被错误识别为垃圾邮件的人工账户数量;

• 假阴性(FN):被错误识别为人工账户的垃圾邮件程序的数量;

对于每个测试集,我们使用以下标准评估指标来比较分类器的性能:Precision; Precision; Precision; Accuracy; F-measure; Matthews Correlation Coefficient

上述每个指标都反映了预测性能的不同方面。准确度衡量有多少用户在两个类别中被正确分类,但它并没有表示正面类别是否比另一个类别更好地识别。此外,在某些情况下,某些预测模型的性能比其他模型更好,甚至更低的准确率。

高精确度表明许多被识别为垃圾邮件机器人的用户确实是真正的垃圾邮件机器人,但它没有提供任何关于未被识别为垃圾邮件机器人数量的信息。此信息由召回指标提供:召回率低意味着许多垃圾邮件机器人未被检测到。相反,特异性衡量的是识别人类用户的能力。最后,F-Measure 和 MCC 在一个单一的值中传达了预测的整体质量,并结合了其他指标。此外,MCC 被认为是 F-Measure 的无偏版本,因为它使用了混淆矩阵的所有四个元素。作为相关系数,MCC ≈ 1 表示预测非常准确,MCC ≈ 0 表示预测不比随机猜测好,MCC ≈ -1 表示预测与真实类严重不一致

E. 结果与讨论

表 II 显示了我们提出的神经模型的性能以及在 cresci-2017 数据集上报告的现有传统技术和算法的性能。在测试集#1 上,我们的召回分数优于最好的,Cresci 等人 [5],0.4%(绝对值)。在测试集 #2 上,我们的 F-Measure 超过了最好的 Cresci 等人 [5] 和艾哈迈德等人 [11],0.3%(绝对值);准确度得分与最佳得分相同,Cresci 等人 [5]。我们的大多数其他分数与现有工作的分数相当。

如表二所示,戴维斯等人 [8],杨等人 [6] 和米勒等人 [12] 在测试集#1 上取得了相当不令人满意的结果。 F-Measure 和 Mathews 相关系数 (MCC) 的低值分别小于或等于 0.435 和 0.174,主要是由于召回率低。反过来,这代表了将社交机器人预测为真实账户的趋势。至于测试集#2,表 II 中的结果表明 Miller 等人 [12] 在我们在本研究中进行基准测试的所有性能中取得了最差的性能。 Precision 和 Recall 的低值意味着不完整且不可靠的机器人检测。如表 II 所示,与其他四个系统(即 Davis 等人)相比,我们的方法在检测 Twitter bot 方面证明是有效的,测试集 #1 的 MCC = 0.920,测试集 #2 的 MCC = 0.857[8],杨等人 [6],米勒等人[12] 和艾哈迈德等人 [11]。

我们的模型优于 Cresci 等人当前最先进的算法[5] 关于几个指标,例如准确度和 F-measure(在测试集 #2 上)和召回率(在测试集 #1 上)。虽然我们的模型在其他一些指标上的表现略低于[5]中的算法,但与[5]相比,我们的模型具有许多明显的优势

无需手工制作的功能:我们的模型不依赖任何人工设计的功能。另一方面,Cresci 等人的技术需要两组(即一组六个)用户行为特征,并引入了一种仿生技术,通过所谓的“数字 DNA”序列对在线用户行为进行建模.数字 DNA 指纹识别过程有四个主要步骤: (i) 获取行为数据; (ii) 提取 DNA 序列; (iii) 比较 DNA 序列; ㈣ 评价。选择和收集好的手工特征是非常耗时和劳动密集型的。

不需要先验知识:我们的模型不需要有关用户资料、友谊网络或目标账户历史行为的先验知识或假设。我们只依赖用户推文的文本内容。另一方面,Cresci 等人的技术需要推文类型特征和推文内容特征,因此需要特征工程。基于特征收集、存储和预处理大量数据的成本很高。我们的模型可以避免这些成本。如果没有特征工程,我们的模型可以比其他算法更快、更早地实现和部署。

为了更深入地了解数据集,从而提高我们提出的模型的有效性,我们生成了一个词云,用于比较两个数据集中最常见的词,即人类账户和 social-bot-3,如图所示在图 6 中。

词云是一种可视化方法,通过使每个单词的大小与其频率成正比,显示单词在给定文本正文中出现的频率。值得注意的是,Twitter 上的亚马逊社交机器人通常更喜欢使用 Check awesome、Read Fascinating 和 Creative Writing 等夸张的词来吸引人们的注意力,以宣传他们的产品或服务,或者谈论特定领域的趋势。此外,对 social-bot-3 中 100 条随机选择的推文进行的人工分析表明,他们的大部分推文都包含指向外部网页的链接。这与一般人类帐户(在随机样本中)形成对比,后者使用诸如爱、生日快乐、哈哈、大声笑、谢谢和朋友等词来描述帐户所有者,并且其中大多数人很少发布指向外部网络的链接页。

总的来说,有希望的初步实验结果是由带有词嵌入技术的深度双向递归神经网络架构的有效和高效的建模能力,以及我们在本文中使用的大量公共注释的训练数据[55]而产生的。我们提出的模型在几个指标上都优于最先进的算法 [5],并且具有不使用任何特征工程或先验知识的显着优势。这将节省选择、收集、存储和预处理数据的时间和金钱。这一优势还能够在现实生活中更快、更轻松地实施和部署机器人检测方案。

5 结论

本文提出了一个 RNN 模型,特别是 BiLSTM,它使用词嵌入来区分 Twitter 机器人和人类账户。我们的模型不需要关于用户个人资料、友谊网络或目标账户历史行为的先验知识或假设。据我们所知,我们的工作是第一个开发带有词嵌入的 RNN 模型来检测仅依赖于推文且不需要大量特征工程的机器人。初步的模拟结果非常令人鼓舞。在公共数据集cresci-2017上的实验表明,与现有的工作相比,我们的模型可以达到类似的性能,而不需要手工制作的特征工程,这是很耗费人力和时间的。这一优势允许更快、更容易地实施和部署机器人检测方案。此外,我们提出的双向循环神经架构可以相对容易地适应新问题,例如,使用带有词嵌入的 BiLSTM 来检测网络钓鱼电子邮件、网页或短信。

论文阅读-Twitter Bot Detection Using Bidirectional LongShort-term Memory Neural Networks-TPS-ISA会议相关推荐

  1. 【论文阅读】Mastering the game of Go with deep neural networks and tree search

    [论文阅读]Mastering the game of Go with deep neural networks and tree search 1 本文解决了什么问题? 在所有的 完全信息博弈 中, ...

  2. 论文阅读:Adding Attentiveness to the Neurons in Recurrent Neural Networks

    目录 Summary Details (Implementation) 原来的 RNN 结构 变为 Element-wise-Attention Gate (EleAttG) 后 论文名称:Addin ...

  3. 论文阅读 - Posting Bot Detection on Blockchain-based Social Media Platform using MachineLearning - CCF B

    摘要 Steemit是一个基于区块链的社交媒体平台,如果作者的帖子被投票,他们可以以加密货币的形式获得作者奖励,这些奖励被称为STEEM和SBD (Steem blockchain Dollars). ...

  4. [论文阅读笔记58]Learning from Noisy Labels with Deep Neural Networks:A Survey

    1.题目 Learning from Noisy Labels with Deep Neural Networks: A Survey 作者团队:韩国科学技术院(KAIST) Song H , Kim ...

  5. 论文阅读笔记《SuperGlue:Learning Feature Matching with Graph Neural Networks》

    核心思想   本文提出一种基于图神经网络的特征点匹配方法,把图像中的特征点看作图的节点,通过注意力机制聚合特征信息,得到用于匹配的特征向量.然后把匹配问题看作一个可微的最优运输问题(different ...

  6. 【论文阅读笔记】Ristretto: Hardware-Oriented Approximation of Convolutional Neural Networks

    概念 MAC:multiplication-accumulation operations 2. Convolutional Neural Networks 2.2.1 Normalization l ...

  7. 【论文阅读】 Object Detection in 20 Years: A Survey

    [论文阅读]Object Detection in 20 Years: A Survey 摘要 论文介绍 1.目标检测 2.目标检测的里程碑 3.数据集 4.性能度量 摘要 本篇博客参考Object ...

  8. 基于dota的目标检测(旋转框)论文阅读Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors

    基于dota的目标检测(旋转框)|论文阅读Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors 文章目录 ...

  9. 论文阅读笔记 1.《Open Flow: Enabling Innovation in Campus Networks》(2022.12.22)

    论文阅读笔记 1.<Open Flow: Enabling Innovation in Campus Networks>(2022.12.22) 一.论文主要内容 二.对 OpenFlow ...

最新文章

  1. 解析激光雷达中时序融合的研究现状和发展方向
  2. leetcode算法题--Russian Doll Envelopes
  3. java jpa 字段 关联_jpaQuery中查询字段是关联表的查询方法以及@JoinEntity(joinEntityAlias =str)的作用和代码编写的规范...
  4. 001——数组(一)数组知识及foreach函数应用
  5. pytorch回归_PyTorch:用岭回归检查泰坦尼克号下沉
  6. nginx ngx_http_auth_basic_module(Basic Authentication)
  7. 两男子骑摩托车抢夺宴席礼金 警方:嫌疑人已被抓获
  8. 数据安全治理面临哪些挑战
  9. 菜鸟进阶Linux高手之路——第四天(下)
  10. java完全自学手册txt下载
  11. react实现动画电子倒计时组件
  12. Systemtap命令stap----安装
  13. 火灾自动报警系统 300W广播功率放大器
  14. 读书笔记:移动的帝国_日本移动互联网兴衰启示录
  15. html5中插入样式表方法,如何插入css样式?
  16. Python基础知识——变量与运算符
  17. 远程办公神器-如何在家里远程办公室的电脑,利用cpolar内网穿透
  18. sm-crypto配合hutool加解密报pad block corrupted错误
  19. 第一期:[开眼界] Android P预览版都有哪些设计新鲜事
  20. [bowtie2, libtbb.so.2]error while loading shared libraries: libtbb.so.2: cannot open shared object

热门文章

  1. 美颜sdk动态贴纸是什么?
  2. 转:PM产品设计九步法
  3. Android 仿QQ退出(点击返回键不退出app,点击icon直接进入上次退出的页面)
  4. pg数据库插件timescale时序库使用记录
  5. firefox 配置
  6. 最优传输系列(一):最优传输入门及Monge-Kantorovitch Problem
  7. 【从零学习openCV】IOS7根据人脸检测
  8. Keil5.15使用GCC编译器编译STM32工程
  9. 成都远石:“无人机倾斜摄影+地面激光扫描”数据解决方案
  10. python如何设置搜狗输入法中英文切换_2020秋季报告:手机输入法AI时代来临,百度输入法优势明显...