基于多模型融合的用户画像分析统计方法研究
摘 要
随着信息技术的快速发展和大数据技术的广泛应用,企业的营销和产品的设计,对精细化、精准化的要求越来越高。主流的电商平台、搜索引擎以及短视频平台均推出了基于用户画像的个性化推荐服务,这其中相当一部分是基于用户的搜索内容去构建用户画像,从而实现精准营销和个性化服务。很多平台和产品在新用户注册时都会引导其根据业务需求,填写个人基本信息,但是搜索引擎、输入法及视频网站等,用户信息填充的完整度非常低。针对以上问题,本文的主要工作和研究内容如下:
结合用户在使用搜索框输入的查询内容时用语喜好、表达关联性和内容主题等方面选取了多个维度的特征。使用词袋模型去构建所有已知单词的字典,并统计每个单词出现的次数,忽略词语出现的先后顺序,并基于该字典分别统计一元语法uni-gram及二元语法two-gram特征,用于表达出具有不同属性用户的用语喜好。再根据结果使用主题词嵌入模型(即TWE)训练生成每个查询内容的词向量。为了能够将不同用户的搜索记录使用固定长度的向量表示,使用Doc2Vec对每个用户的搜索记录进行处理,该方法会将构造好的向量加入到该文档的词向量训练过程同时进行训练。
在进行文本的转换得到特征表示内容后,分别选用了多种基础的机器学习算法,如Logistic回归、Random Forest算法以及XGB模型等,与文档-逆文档频率特征表示相结合来抽取用户用语喜好的差异,由于文档-逆文档频率特征具有稀疏性和特征维度高的特点,导致最终预测达不到预期效果。同时使用全连接神经网络模型与多种特征表示相结合的方式,来抽取查询的表达关联性信息,并在算法实现时进行多次的参数调优,但都未得到较好的效果。为了提升算法模型在构建用户画像时的精准度,研究探索使用多模型融合技术,在构建的第一层算法模型的基础上,进一步采用了xgboost融合技术,准确性显著提升。
多模型融合主要实现过程是将数据集按照一定的采样规则划分为若干份,之后构建多个基学习器,将所有学习器的预测结果汇总到一起,经过多层的融合,训练得到一个新的学习器——元学习器,从而计算出最终的预测结果。元学习器是归纳总结所有任务上训练经验的一种位于元层的模型,即每次训练基础学习器后,它都会综合新的经验,并更新其中的参数,用于指引基学习器的最优行为或探索某个特定的新任务,提取任务上和模型、训练相关的特征。最终经过模型融合后,模型的预测效果明显得到提升,泛化能力更强。
关键词:大数据 用户画像 文本特征 分类模型 多模型融合
ABSTRACT
With the rapid development of information technology and the wide application of big data technology, the requirements of enterprise marketing and product design for refinement and precision are getting higher and higher. Mainstream e-commerce platforms, search engines and short video platforms have all launched personalized recommendation services based on user profiles, of which a considerable part is to build user profiles based on user search content, so as to achieve precision marketing and personalized services. Many platforms and products will guide new users to fill in their basic personal information according to business needs when registering, but the integrity of user information filling is very low for search engines, input methods and video websites. In view of the above problems, the main work and investigate contents of this paper introduction as below:
In order to describe the data more comprehensively, a multi angle feature is constructed according to the user's word usage, semantic relevance and the topics contained in the search content. The word bag model is used to filter words appearing in multiple documents to form a vocabulary, and the one gram and bi gram features are counted to reflect the word usage habits of different categories of users. The Topical Word Embedding (TWE) model is used to train the word vector of each query word according to the results. In order to represent the search records of different users with fixed length vectors, Doc2Vec is used to process the search records of each user. This method will add the constructed vectors to the word vector training process of the document for training at the same time.
After the text features are extracted, traditional machine learning models, including logical regression, random forest model and XGB model, are used to combine with TFIDF features to extract the differences in users' word habits. Because the tfidf features are too sparse and the dimensions are too high, the final prediction results are not good. Meanwhile, the full connection neural network model is combined with multiple feature representations to extract the expression relevance information of the query, and the algorithm is implemented with multiple parameter tuning, but the results are not good enough. For purpose to improve the accuracy of the algorithm model in building user portraits, investigate and attempt to use of multi-model fusion technology. Based on the first layer of algorithm model, xgboost fusion technology is further used, which significantly improves the accuracy.
The main process of multi-model fusion is to divide the dataset into several samples according to certain rules, and then build multiple base learners to summarize the prediction results of all learners. After multi-level fusion, a new learner - meta learner is trained to calculate the final prediction result. Meta learner is a meta level model that summarizes training experience on all tasks. That is, after training the basic learner every time, it will synthesize new experience and update its parameters to guide the optimal behavior of the basic learner or explore a specific new task, and extract features related to the model and training on the task. Finally, after model fusion, the prediction effect of the model is significantly improved, and the generalization ability is stronger.
KEYWORDS:Big data;User portrait;Text features;Classification model;Multiple model fusion
第1章 绪论
1.1 研究背景和意义
1.2国内外研究现状
近年来不少国外学者对于用户画像进行了深入研究。研究大致分为两类,一类是对算法的改进,另一类是对模型的构建。
发展滞缓,研究成果较少。其二,用户画像研究中,所涉及到用户的数据,关系到用户的隐私问题,用户隐私的泄露,可能会造成人们对于网络数据安全的恐慌[13]。
目前用户画像技术的应用实践所遇到的问题,可以分为以下两个方面:
1.3论文主要工作
以搜狗搜索引擎的用户数据作为研究对象,进而构建出使用该引擎的用户画像,分别做了以下工作:
在数据预处理部分,主要对用户的搜索记录进行了缺失值处理、停用词处理以及分词处理。
缺失值处理:由于部分用户的特征信息存在缺失,因此构建了词袋模型,用于计算每个用户搜索记录的TF-IDF值,之后使用用户信息完整的作为训练样本,构建逻辑回归模型,用于填充部分用户缺失的特征信息。
为了使构建的用户画像模型更为精准,从语义相关性、用户用语喜好以及主题等多个方向构建了不同维度的特征,具体工作分为以下五个部分:
除了前几部分提到的特征外,还依据经验人工构造了一些其他的特征,如查询词语的平均长度、关键词的数目、英文查询词占比以及关键词的最大长度等特征,从而提高用户画像的精确度。
1.4论文的组织结构
将用户画像技术应用到搜索引擎个性化服务领域,构建了搜索引擎用户画像框架,构建多级模型,并使用模型融合算法将多个模型进行融合,从而提高模型准确率。
第一章:绪论。本文从研究背景以及研究的意义出发,对国内外关于用户画像技术的研究现状进行了梳理,并详细阐述了用户画像技术当下所面临的困难。
第五章:实验结果与分析。首先使用公式推导,评价指标的计算公式,通过对比不同算法模型的评价指标,来检验所提出的多模型融合技术的有效性。
第六章:总结与展望。对本文的研究内容进行总结和归纳,指明其中存在的不足之处,并提出未来的研究方向。
第2章 用户画像构建相关知识概述
2.1用户画像知识概述
用户画像的概念最早由“交互设计之父”Alan Cooper提出。用户画像是一种能够有效分析用户需求和刻画用户特征的方法,用户画像技术一经提出便在各个领域迅速应用[28]。用户画像常见的基本特征有年龄层次、学历层次、性别等,对这些特征进行分析、总结构建出来的用户模型,实际是就是对用户基本信息的标签化,用户画像也是真是用户的一种虚拟的表示。
Travis在对于用户画像技术的相关研究中提出了用户画像应包含的几种特性[29],主要涵盖真实性、独特性、目标性、基本性和移情性等。许鹏程提出了用户画像应包含的其他几个方面特性[30],包括时效性、交互性、可迭代性、知识性、区隔性以及聚类性等。由此可见,用户画像将海量的真实数据为基础,通过对用户的兴趣和行为等进行分析计算进而形成的虚拟用户模型,它需要满足以下几种特性:
- 时效性:
随着时间的迁移,用户的兴趣或需求可能会消失,即使没有消失,用户的兴趣程度以及需求的紧急程度,可能也会随着时间的迁移而降低或提升。这也意味着用户画像模型必须存在着一定的时效性,因此用户画像模型需要按照一定的周期进行更新,避免其准确性随着时间的变化而降低。
- 聚类性:
不同的用户之间存在着差异性,但有些用户往往也存在着某些共性。因此用户画像不仅要反应不同用户间的差异性,还要反应数据背后用户的共性特征。因此需要对用户的数据进行整合和分析,从而了解用户的兴趣、习惯等,由此对于不同的目标用户群体进行划分,从而获得不同用户群体的用户画像。
- 交互性:
企业可以利用不同的算法模型对用户数据进行挖掘,以体现出用户数据的价值,使用户的信息更加立体化,用户在于系统进行交互时,会持续地产生大量的用户数据,充分利于这些数据能够使用户画像更具客观性,同时能够大大的提升用户画像的有效性。因此用户画像技术的应用需要加强用户的信息反馈机制,同时让用户可以对用户画像的结果进行适当的反馈,从而进一步的优化用户画像模型,提升用户画像模型的有效性。
总体来说,用户画像的核心工作便是使用海量用户数据进行分析和挖掘,从而为不同的用户贴“标签”,这些标签往往是能够表示用户某一个维度特征的标识,通过这些标签对业务进行运营和分析,从而为企业的决策提供一定的支持。
图 2-1 用户画像示意图
Fig 2-1 User portrait
2.2文本特征表示的方法
使用的数据是不同用户的搜索记录,是一种非结构化的数据,不能够直接用于模型的计算,而文本特征表示的作用就是将这些非结构化的信息转换为结构化信息,从而完成情感判别、主题分析和文本分类等任务。
2.2.1词袋模型(Bag-of-words model)
Bag of Words,也被称为“词袋”,词袋模型主要是用来描述文本的一个数学模型,也是目前最为常用的一种文本特征提取方法 [32]。词袋模型主要是按照以下两个步骤,将文本转换为可以适用于机器学习算法模型的数值型向量。首先,需要从文本中提取出关键词,从而构成一个集合,同时可以完全忽略每一个单词出现的顺序以及文本的语法结构。之后选出一组没有顺序的单词用来表示文本,并转换为向量,从而实现文本特征的提取。
词袋模型的实现可以通过以下的例子展示:
例句:
(1)我很喜欢学习用户画像技术,同时我也喜欢研究用户画像技术。
(2)我十分热爱研究用户画像技术。
可以取两个文本中部分词语的并集作为参考词典,假设两个文本组成的词典为:
[我,喜欢,用户画像,技术,热爱,研究]
表 2-1 词袋模型文本特征表
Table 2-1 Text feature table of word bag model
我 |
喜欢 |
用户画像 |
技术 |
热爱 |
研究 |
续表 2-1 词袋模型文本特征表
Table 2-1 Text feature table of word bag model (continued)
文本1 |
2 |
2 |
2 |
2 |
0 |
1 |
文本2 |
1 |
0 |
1 |
1 |
1 |
1 |
从表2-1中可以清晰的看出,只要在集合中包含该词语,则计算出该词语的频次作为其特征值,否则其特征值置为0,而文本中每个词语都是毫无关联的,每个单词都具有独立性,因此文本中任意位置出现任意一个单词,都不会受到其他任何因素的影响[33]。在构建好每一个文本的词向量特征后,还可以对一些有意义的单词进行筛选,从而降低文本特征的稀疏程度,最终提高模型的精确性。
2.2.2N-gram
N-gram多元语法是人工智能自然语言处理研究方向中一个概念,可以基于一个预料库,使用N-gram方法计算不同样本之间的相关性。N-gram最早起源于信息论大师香浓的研究,他提出了一个疑问:给定一串单词,如“how are”,下一个最可能出现的单词是什么[34]。分别使用了,当N=1时的uni-gram方法和当N=2时的two-gram方法。假设有以下词语:我、喜欢、研究、用户画像、技术。则使用uni-gram和two-gram分别提取到的特征如表2-2所示。
表 2-2 uni-gram和two-gram特征提取示意表
Table 2-2 Schematic diagram of feature extraction of uni-gram and two-gram
N-gram |
特征提取 |
uni-gram |
我,喜欢,研究,用户画像,技术 |
two-gram |
我 喜欢,喜欢 研究,研究 用户画像,用户画像 技术 |
2.2.3词频-逆文档频率(TF-IDF)
TF-IDF常用于提取文本特征,也被称为词频-逆文本频率算法[35]。假设某一词语在某一文本中出现的频次较高,在其余文本中频次几乎为0,则认为这个词语具有较高的重要性,且该词语对于文本的区分度也很高。
文本特征提取步骤如下:
- TF值的计算公式如式(2-1)所示,其结果作为该词语在某一文本中的频次:
tfi,j=ni,jknk.j (2-1)
式中ni,j表示词语在某一文本中的次数,分母表示该文档中所有词语的总数目。
②IDF值的计算公式如式(2-2)所示,其结果用于表示某个词语的重要程度:
idfi=logDj:ji∈dj+1 (2-2)
分子和分母分别表示文档总的数量和包含该词语的文档的总数;分母加1是为了避免由于所有文档中未包含该词语导致的分母为0的异常情况处理。
③计算TF-IDF值,具体计算方式如式(2-3)所示。
TFIDF=TF*IDF (2-3)
2.2.4Word2Vec特征表示
Word2Vec是谷歌2013年发布的词向量工具,该工具通过计算文档库中的词语共现信息,将每一个词从高维度的词向量空间分布式的映射到一个低维度的空间,同时还会保留各个词向量的顺序关系,该工具可以有效的解决语义缺失以及数据稀疏的问题[36]。该工具由两个模型共同组成,两种模型的模型结构图如图2-2所示。
图 2-2 Word2Vec模型结构图
Fig 2-2 Word2vec model structure diagram
其中Skip-gram模型主要是结合词语的关联性,利用给定的中心词,通过给出前后文本可能会出现的词语的概率,把概率最大的词语作为输出结果。而CBOW模型可以看作是Skip-gram模型的逆过程,主要是结合前后语义关系去预测中心词。通过模型结构图可以发现,两个模型的结构基本相同。两个模型实际上都是基于神经网络的多分类问题,从自然语言的角度来说,Word2Vec关注的并不是模型本身,而是通过训练之后,所得到的各个词语的词向量特征。而这些词向量特征的维度要远远小于原来的文本特征维度,所以Word2vec从本质上来说属于一种数据降维操作。
2.2.5Doc2Vec特征表示
Doc2Vec模型是Mikolov团队在2014年在Word2Vec模型的基础上进行改进所提出的[37],Doc2Vec模型与Word2Vec模型十分相似,只不过Word2Vec模型的训练对象是词向量,而Doc2Vec模型的训练对象是整个文档。Doc2Vec由2个模型构成:一是基于分布式内存的DM模型,二是基于分布式词袋的DBOW模型。
其中Distributed Memory模型不仅考虑词语的顺序信息,还考虑到了词语的上下文语义信息。Distributed Memory模型的模型结构图如图2-3所示。
图 2-3 Distributed Memory模型结构图
Fig 2-3 Distributed memory model structure diagram
而Distributed Bag Of Words模型只专注于文档当中各个词语的语义信息,而不去考虑词语的顺序信息。该模型的原理与Distributed Memory模型相同,区别在于该模型利用采样到的文本窗口随机抽取一个词语,该窗口是经过多轮迭代任务,在随机梯度下过程中产生。Distributed Bag Of Words的模型结构图如图2-4所示。
本文同时采用了基于分布式内存DM和基于分布式词袋DBOW两种文本特征表示方法,以提升特征构建过程中信息结构的完整度。
图 2-4 分布式词袋模型原理图
Fig 2-4 Distributed bag of words model schematic diagram
2.3用户画像相关模型
本文研究的问题主要涉及分类任务,对用户画像中性别属性的构建是一个二分类问题,对学历和年龄段等属性的构建是一个多分类任务。在构建第一级模型时,分别尝试了多种不同的传统机器学习算法模型,包括Logistic模型、随机森林算法以及XGBoost算法,用于抽取不同的用户间的用词的差异程度;同时使用全连接神经网络算法计算不同的查询关键词间的表达关联性信息。之后使用两级的模型
2.3.1逻辑回归算法
逻辑回归算法是一种最为常见的分类算法,该算法主要是通过概率的思想来解决分类的问题[41]。在逻辑回归算法中,线性函数作为算法的输入,同时也可以作为该算法的线性边界,逻辑回归算法在进行分类时,通过sigmoid函数将输出规约为0-1区间内的概率值。
通过该函数,可以将逻辑回归模型的输出规约到(0,1)的区间内[42]。Sigmoid函数可通过公式(2-4)求得。
fx=11+e-x , x∈(-∞~∞) (2-4)
构建逻辑回归模型需要一个重要参数C,可以通过对正则化系数求倒数得到。通过调整该参,可以有效的防止模型在训练的过程中产生过拟合的现象。常见的正则化分为L1范式和L2范式,两种范式的计算方式见式(2-5)、(2-6)所示。
JωL1=C*Jω+j=1nωj j≥1 (2-5)
JωL2=C*Jω+j=1nωj2 j≥1 (2-6)
其中,J(ω)就是损失函数,可以通过公式清楚的看到,C可以用来控制正则化的程度。C值与损失函数成正比,与模型的正则化强度成反比,即当C值越小,损失函数也会越小,则对应的模型正则化越强。
逻辑回归算法与线性回归算法的原理十分相似,其主要流程包括以下三个主要步骤:
首先,构建一个预测函数hypothesis,然后通过输入的数据,对结果进行分类。该过程需要根据数据,判断使用线性函数或是非线性函数。
其次,构建一个损失函数Cost,用该函数可以计算出预测结果与真实结果的误差值。对所有的Cost计算平均值或求和,记为J(θ),用于表示所有预测结果与真实结果之间的误差。
最后,通过使用梯度下降算法,找到J(θ)的最小值,从而提高模型的精确度。
2.3.2随机森林算法
随机森林算法是2001年由Leo Breiman提出的[43],通过构建多个由随机变量构造出的决策树,形成一个随机森林,所以也是一种机器学习集成算法。随机森林模型借助Bootstrap重采样技术,随机有放回的采取k个训练样本集,每一份数据集都相互独立,但是不同的样本集之间可以有重复的样本。从而构建k棵决策树模型,每棵树都会使用一份样本进行训练,最后通过集成思想将多棵决策树的结果进行集成,从而确定最终的预测结果[44]。随机森林算法的构建过程如图2-5所示。
图2-5随机森林模型构建流程图
Fig 2-5 Random forests model building flow chart
在构建随机森林模型时,分别使用到了以下参数,其中参数n_estimators用于限定在构造随机森林时需要的决策树的数量,当该参数过小时,往往会导致模型对于数据的拟合效果较差,当模型的拟合效果达到最优时,即使增大该参数也无法对于模型效果产生过大的影响。由于本文的数据集,数据量过大,且构造的文本特征也比较多,为了防止决策树无限的生长,在构建随机森林模型时,需要使用参数max_depth,用于限制随机森林的最大深度。参数bootstrap表示的是构建随机森林模型时采用的采样方式,即是否采用有放回的抽样方式。
随机森林模型通过构建多棵决策树,最后通过不同决策树的结果进行分类投票,实现最终的决策[46]。具体的计算公式如式(2-7)所示。
Hx=argmaxi=1kIhix=Y (2-7)
式中的H(x)表示的是多棵决策树最终组合后模型,Y表示输出的变量也被称为目标变量。
结构,用于构建用户画像模型,以实现对用户不同属性的预测效果的提升。
2.3.3XGBoost算法
XGBoost是一个可以拓展的梯度提升算法框架,其核心基础是梯度提升算法,于2014年由华盛顿大学的留学生陈天奇提出 [47],XGBoost模型在训练时是以并行的方式执行的,通过该种方式可以大大的提高模型的训练速度,也能够较好的应对大批量的数据。
XGBoost算法可以由两种类型的基学习器构建而出。第一种类型是以线性学习器作为XGBoost的基学习器,通过该方式可以构成一个XGBLinear模型;另一种则是采用的弱分类器与随机森林模型相同,都是决策树模型,构成XGBTree,由于XGBTree的基学习器是树模型,因此具有较好的可解释性[48]。
在构建XGBTree模型时,由于基学习器使用的是决策树模型,因此对于最佳分裂点选择十分的关键。决策树在每一次分裂时,都会将原来的一个叶子结点分裂成两个叶子结点,而原来叶子结点上的样本也会按照一定的规则被分配到不同的结点,而每一个叶子结点进行分裂时,都需要计算分裂过程损失函数的增益信息[49]。分裂增益计算如式2-8所示:
Gain=ObjL+R-ObjL+ObjR
=-GL+GR22HL+HR+λ+γ--12GL2HL+λ+GR2HR+λ+2γ
=12GL2HL+λ+GR2HR+λ-GL+GR2HL+HR+λ-γ (2-8)
其中,Obj=-G22(H+λ) 为节点分裂时的最优目标函数;
L和R分别代表分裂后的左右两个叶子节点。
当Gain大于0时,说明分裂的过程中存在多个候选的分裂点,可以使用贪心算法选取分裂点,具体步骤如下所示:
1.对每个结点的每一个特征进行遍历
2.按照每一个特征值的数值大小进行升序或降序排列
3.获取每个特征字段最好的分裂点
4.计算分裂点的增益,最终得到最优的特征结果
一般情况下,很少使用线性学习器,其原因十分的简单,多个线性模型使用Stacking进行融合后实际上还是一个线性模型,可以通过公式2-9进行证明:
Fx=m=1Mbm(x) (2-9)
式(2-9)表示的是模型的集成过程,其中M表示的是基学习器的个数,bm表示的是第m个基学习器。假设有两个线性基学习器,那么模型的可以用以下公式2-10表示:
b1=β0+β1x , b2=θ0+θ1x
Fx=m=12bmx=β0+β1x+θ0+θ1x
=β0+θ0+(β0+β1)x (2-10)
其中,b1,b2 分别为2个不同的线性基学习器,Fx 是融合后的模型。
通过式(2-10)的转换后可以发现多个线性模型组合后实际上还是一个线性模型,与传统的线性模型不同的地方是模型的求解过程,XGBLinear是使用GBM框架来对模型进行求解。在本质上差别不大,只是求解的方式上有所区别,因此如果使用XGBLinear对于预测的结果提升不大,可以使用传统的线性模型替代。
2.3.4全连接神经网络算法
全连接神经网络的连接方式与其他的神经网络模型相比较为简单。主要由输入层、输出层以及隐藏层构成,通过各层网络中的神经元的数量差异,以及信息在不同网络层中的传递方式不同,从而完成对结果的预测[50]。
全连接神经网络模型由多个神经网络层构成,每一层网络结构相似,均存在多个不同的神经元,处在同一层的神经元不会相互连接,而层与层之间的神经元,则是通过全连接的方式进行连接,信号通过连接的神经元进行传递。全连接神经网络的结构图如图2-6所示。
图2-6 全连接神经网络模型结构图
Fig 2-6 Structure diagram of fully connected neural network model
Adadelta算法是Adagrad算法的改进版本,该算法通过渐变更新的滑动窗口来动态的调整学习速率,因此及时模型训练时进行了更新,而Adadelta优化器仍然在不断的学习[56]。Adadelta对于模型的优化过程,可以归纳为式2-11和2-12:
Eg2t=ρEg2t-1+1-ρgt2 (2-11)
∆θ=-αEg2t+ε⨂gt (2-12)
其中ρ用于表示指数衰减率,gt表示的是经过t轮迭代后的梯度,E[g2]t表示的是在第t轮迭代时,梯度衰减率的平均值[57]。随着梯度的增长学习率会也来越低,能够有效的解决SGD算法中,学习率始终不变的问题。
本文网络的输出层选用传统的Softmax激活函数,其好处是可以将输出值进行归一化处理,并且所有输出值的和为1,主要应用于分类问题的Softmax函数实现公式如式(2-13)所示。
(2-13)
其中,在Softmax 函数的分母中,将会计算所有指数值的总和,之后对所有类别进行归一化。它考虑了范围内所有类的值,这就是在最后一层使用它的原因。通过分析所有的值来对输入进行分类[51]。Softmax曲线如图2-7所示。
图 2-7 Softmax 曲线图
Fig 2-7 Softmax curve
全连接神经网络在训练时,可以分为以下几个步骤。首先,先将模型的参数进行初始化;其次,将优化器进行更新,之后进行小批度的梯度下降;其次,计算此时模型的损失函数值,从而判断目前的模型是否是最优的,如果比之前的模型效果都好,则会将模型的参数以及权重等信息保存到本地,之后更新学习率,否则直接将学习率进行更新,跳过模型保存步骤。在更新完学习率后,需要判断当前的迭代次数是否达到了最大迭代次数,还需要判断损失函数的值是否达到了期望的值,如果满足了以上两个条件中的任意一个,则完成全连接神经网络模型的训练,否则重新初始化模型的参数,并重复上述步骤,直达训练结束。
2.4 多模型融合技术
模型融合主要通过训练若干个基础模型,再按照特定的方法进行集成,以达到提升模型效果的目的。其主要的意义在于,通过模型融合,解决由于数据集数量不足引起的预测结果差的问题,提高最终的预测能力。
常见的模型融合算法的主要思想是将原始数据集按照一定比例划分成3部分,如图2-8所示。
图 2-8划分数据集
Fig 2-8 dataset partition
其中训练集用来训练各个基模型,而划分出来的验证集被输入到训练得到的基模型中,得出验证结果,并将其作为第二层模型的训练集数据,测试集用来测试整体模型的性能。
第一层模型的测试结果将作为第二层模型的预测集数据,由于两层模型训练所使用的数据有所不同,因此可以有效的避免信息泄露的问题。在模型融合过程中,不需要使用五折交叉验证方法,在时间复杂度上较低。其具体的构建思路如图2-9所示。
图 2-9 多模型构建思路
Fig 2-9 Multiple model construction method
Stacking算法是一种多模型融合算法,通过基学习器学习原数据,然后利用基学习器得到的输出,按照列的方式进行堆叠,构成一个n×p维度的新数据集,其中n是样本的数量,p表示生成的基学习器个数,然后将新的样本数据交给第二层模型进行拟合,从而提升模型对预测结果的准确性,同时提高模型整体的鲁棒性以及泛化能力[52]。
图 2-10 Stacking模型融合算法结构图
Fig 2-10 Structure diagram of stacking model fusion algorithm
Stacking模型融合算法结构图如图2-10所示。首先将数据集按照一定的采样规则,将数据集划分为若干份,之后构建多个基学习器,将所有学习器的预测结果汇总到一起,经过多层的融合,训练得到一个新的学习器——元学习器,从而计算出最终的预测结果[53]。元学习器是归纳总结所有任务上训练经验的一种位于元层的模型,即每次训练基础学习器后,它都会综合新的经验,并更新其中的参数,用于指引基学习器的最优行为或探索某个特定的新任务,提取任务上和模型、训练相关的特征。
在使用Stacking算法进行模型融合时,使用了五折交叉验证算法,从而降低模型产生过拟合的风险[54]。5折交叉验证算法的原理十分好理解,其主要思想就是将数据集随机拆分成5份,在训练过程中,每次随机选择80%作为训练集,对模型进行训练,使用剩下的20%对模型进行验证,通过计算每次模型训练的准确度,作为对算法精度的估计[55]。
基于多模型融合的用户画像分析统计方法研究相关推荐
- Kaggle基于黑色星期五交易数据的用户画像分析---PYTHON
这里写自定义目录标题 Kaggle基于黑色星期五交易数据的用户画像分析---PYTHON 1 前言 2 研究目的 3 数据说明与处理 3.1数据来源和说明 3.2数据预处理 3.2.1查看数据详情 3 ...
- ansys 内聚力模型_基于内聚力模型(CZM)的单筋拉拔数值分析方法研究
基于内聚力模型( CZM )的单筋拉拔数值分析方法研究 景剑 1 , 强峰 2 , 施凯 1 [摘 要] [摘 要]目前化学植筋粘结性能数值模拟中界面单元均以双弹簧单元 为主,但是模拟结果与相应的试验 ...
- 用户画像分析有哪些方法可以实现?
大家都知道,不管你是做社群运营.积分运营.公众号运营,或是小程序运营,只有当我们对用户的信息越了解,用户需求就可以把握得越精准,在这种情况上,我们的营销也自然水到渠成. 那么,如何可以把握用户需求越精 ...
- 毕业设计 - 题目:基于大数据的用户画像分析系统 数据分析 开题
文章目录 1 前言 2 用户画像分析概述 2.1 用户画像构建的相关技术 2.2 标签体系 2.3 标签优先级 3 实站 - 百货商场用户画像描述与价值分析 3.1 数据格式 3.2 数据预处理 3. ...
- 基于大数据技术的手机用户画像与征信研究
内容提要:手机用户画像是电信运营商实现"数据驱动业务与运营"的重要举措.首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通 ...
- 某农商行用户画像项目——用户画像分析部分
文章目录 四.用户画像分析 4.1 用户维度 4.1.1 个人属性 4.1.2 社会属性 4.1.3 用户行为 4.1.4 用户属性 4.2 用户标签 4.2.1 筛选变量 4.2.2 判断变量正负性 ...
- 数据分析方法之用户画像分析!
01 写在前面 我们经常在淘宝上购物, 作为淘宝方, 他们肯定想知道他的使用用户是什么样的, 是什么样的年龄性别, 城市, 收入, 他的购物品牌偏好, 购物类型, 平时的活跃程度是什么样的, 这样的一 ...
- 小红书用户画像分析_用户行为研究:如何做用户画像分析
在写征文之前,我想更正一个概念,就是用户行为研究和用户体验研究不是一回事,虽然没有天差地别那么浮夸,但是真的相差很多关键概念,可以说完全不是一回事,所以请勿混淆. 基本概念:用户画像就是根据用户特征. ...
- 推荐 :数据分析思维和方法—用户画像分析
01 写在前面 我们经常在淘宝上购物, 作为淘宝方, 他们肯定想知道他的使用用户是什么样的, 是什么样的年龄性别, 城市, 收入, 他的购物品牌偏好, 购物类型, 平时的活跃程度是什么样的, 这样的一 ...
最新文章
- CoordinatorLayout 和 AppBarLayout 实现的局部点击按钮实现滑动某一个固定的距离
- Linux上调整sshd进程的优先级
- Orecle基本概述(2)
- 基于.NetCore3.1搭建项目系列 —— 使用Swagger导出文档 (补充篇)
- 【kruskal】【倍增】严格次小生成树(P4180)
- 微信小程序 - 用户进入客服会话会在右下角显示可能要发送的小程序提示
- 扩充swap空间的两种方法
- 美国确诊超46万!美国州长竟然抢起高龄程序员了,什么情况?
- 【web前端面试题整理03】来看一点CSS相关的吧
- mq消息落地及业务处理踩坑记录
- Lytain:PCWin10纯净专业版重装与程序员的高效部署
- 大智慧交易系统测试软件,大智慧交易系统测试平台使用操作教程.doc
- mysql下载和安装详细教程
- 必须使用javadoc形式的注释
- maven项目编译中文乱码和myeclipse中文乱码和电脑乱码?
- 2020-06-03:抢红包设计
- sd卡受损格式化后还能恢复数据吗?
- 【flask】 flask
- 记录FPGA面试的准备
- WebRTC应用中如何检测回音
热门文章
- JavaSE学习笔记-08
- python3的各种经典案例,总共299个案例,直接可以运行(中:100个案例)
- 推荐|45个值得收藏的Python优质资源(附链接)
- 【深度学习-机器学习】分类度量指标 : 正确率、召回率、灵敏度、特异度,ROC曲线、AUC等
- 为什么需要克隆虚拟机,虚拟机又该怎样克隆呢?
- Python3 Django的补充
- 即时编译器的中间表达形式(IR)
- 五子棋智能算法——决策树编程实现(三)
- linux设置mysql防火墙端口映射_Linux防火墙默认是关闭3306端口,iptables实现端口转发、端口映射及双向通路...
- 睡眠排序算法c语言实现,Linux 进程必知必会