数据挖掘——相似文章推荐
相似文章推荐:在用户阅读某篇文章时,为用户推荐更多的与在读文章内容相类似的文章
相关概念:
推荐(Recommended):指介绍好的人或事物,希望被任用或接受。数据挖掘领域,推荐包括相似推荐和协同过滤推荐。
相似推荐(Similar Recommended): 指当用户表现出对某人或者某物的兴趣时,为他推荐与之相类似的人或者物,核心定理:人以群分,物以类聚。
协同过滤推荐(Collaborative Filtering Recommendation):指利用已有用户群过去的行为或意见,预测当前用户最可能喜欢哪些东西或对哪些东西感兴趣
相关文章推荐主要基于余弦相似度的计算原理。
余弦相似度(Cosine Similarity):用向量空间中两个向量夹角的余弦值作为衡量两个个体见差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这个特征叫做余弦相似性。
文章的余弦相似度:
素材:文章A、文章B
#对两篇文章进行分词, 得到 [A] 、 [B] 两个分词列表
#根据分词结果构建分词语料库,得到 [C] = [A] | [B]
#根据语料库分别统计A、B的词频(向量化,需要严格按照分词语料库单词的顺序)
#计算余弦值
具体实现:在构建语料库/中文分词/文档向量化之后
#计算余弦相似度 from sklearn.metrics import pairwise_distances #计算每行之间的距离,得到距离矩阵 distance_matrix = pairwise_distances(textVector,metric='cosine')#排序得到距离第2-6名的矩阵元素 sort = np.argsort(distance_matrix,axis=1)[:,1:6] similar5 = pd.Index(filepath)[sort].values#得到相似度前5的文章路径数据框 similarDF = pd.DataFrame({'filepath':corpos.filePath,'s1':similar5[:,0],'s2':similar5[:,1],'s3':similar5[:,2],'s4':similar5[:,3],'s5':similar5[:,4],})
转载于:https://www.cnblogs.com/rix-yb/p/9720999.html
数据挖掘——相似文章推荐相关推荐
- python数据挖掘实战笔记——文本挖掘(9):相似文章推荐
概念: 相似文本推荐:在用户阅读某篇文章的时候,为用户推荐更多与在读文章内容类似的文章. **推荐:**指介绍好的人或事物,希望被任用或接受.数据挖掘领域,推荐包括相似推荐及协同过滤推荐. **相似推 ...
- 今日头条的文章推荐机制是什么?
今日头条的文章推荐机制是什么? 木木博客2015-03-28 11:15:54阅读(3982)评论(3)分享到 众所周知,今日头条是个个性化的新闻推荐引擎,在短短两年多的时间内拥有了2.2亿用户,每天 ...
- 数据挖掘的好书_基于数据挖掘的书目推荐研究
龙源期刊网 http://www.qikan.com.cn 基于数据挖掘的书目推荐研究 作者:刘月学 来源:<创新科技> 2017 年第 04 期 [ 摘 要 ] 通过分析推荐书目的作用, ...
- Web前端开发人员和设计师必读文章推荐【系列七】
这篇文章主要收录了十二月份发布在梦想天空的优秀文章,特别推荐给Web开发人员和设计师阅读.梦天空博客关注前端开发技术,展示最新 HTML5 和 CSS3 技术应用,分享实用的 jQuery 插件,推荐 ...
- Web前端开发人员和设计师必读文章推荐【系列九】
这篇文章主要收录了最近两个个月发布在梦想天空的优秀文章,特别推荐给 Web 开发人员和设计师阅读.梦天空博客关注 前端开发 技术,展示最新 HTML5 和 CSS3 技术应用,分享实用的 jQuery ...
- 前端工程师和设计师必读文章推荐【系列三十三】
<Web 前端开发精华文章推荐>自2011年6月20号发布第一期以来,历经三年半,总共发布了30多期.今天这篇是2015年第2期(总第33期),希望你能在这里发现有用的资料. 梦想天空专注 ...
- Web前端开发人员和设计师必读文章推荐【系列六】
这篇文章收录了十一月份发布在梦想天空的优秀文章,特别推荐给Web开发人员和设计师阅读.梦天空博客关注前端开发技术,展示最新HTML5和CSS3技术应用,分享实用的jQuery插件,推荐优秀的网页设计案 ...
- 本周ASP.NET英文技术文章推荐[10/21 – 10/27]
这一篇是<本周ASP.NET英文技术文章推荐>系列的第一篇,在这个系列中,我将介绍5-10篇比较有价值的.本周发布的.与ASP.NET相关的英文技术文章,帮助各位朋友从良莠不齐的大量文章中 ...
- 前端工程师和设计师必读文章推荐【系列三十六】
<Web 前端开发精华文章推荐>自2011年6月20号发布第一期以来,历经五年半,总共发布了30多期.今天这篇是2017年第2期(总第36期),希望你能在这里发现有用的资料. 梦想天空专注 ...
最新文章
- 等待队列——休眠与唤醒
- php中curl模拟post提交多维数组
- 【C语言数据结构】单链表
- Application 类 简介
- js中的extend的用法及其JS中substring与substr的区别
- 教你一招用python发送QQ邮件
- svn添加到windows服务中
- deep learning 深度学习中英文版下载地址
- AVCaptureDevice的几个属性
- linux 将结果放入数组,linux-如何将值添加到bash数组?
- 使用Python解二元一次方程组
- Asterisk G729编码支持
- aria2 配置教程
- 计算机英语词汇汇总,计算机英语词汇汇总
- [渝粤教育] 西南科技大学 管理学原理 在线考试复习资料(6)
- java多数据库开发evn,Java,在多线程evnironments中通过散列统一划分传入的工作
- JupyterLab 的安装与使用
- 教你怎样用安全网关消灭蠕虫病毒(转)
- python 读取数据出现UnicodeDecodeError:: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid contin
- 【建立个人品牌】自媒体人必须知道的28个新媒体平台
热门文章
- H264/ACC数据使用librtmp推流到服务器
- oracle表空间如何压缩,Oracle里表空间的压缩
- html定位的所有属性,HTML CSS定位属性详解 嘿嘿嘿
- et200sp模块接线手册_西门子PN/PN耦合器学习应用系列(1)-外观及接线
- linux操作系统网络,网络安装linux操作系统
- java7最后战线_我的世界最后战线2.0整合包
- java ora 28040_Oracle 11g与112c中ORA-28040 错误解决
- yang模型中rpc_领域驱动模型(DDD)设计讲解
- mysqldb mysql config,安装mysqldb python界面时找不到mysql_config
- linux网络是文件吗,linux网络配置文件是什么意思