蛙蛙推荐:蛙蛙教你文本聚类 - 蛙蛙王子 - 博客园

蛙蛙推荐:蛙蛙教你文本聚类 - 蛙蛙王子 - 博客园

蛙蛙推荐:蛙蛙教你文本聚类

摘要:文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。

思路:计算两篇文档的相似度,最简单的做法就是用提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离。能计算两个文本间的距离后,用标准的k-means算法就可以实现文本聚类了。

测试:首先我们准备以下数据
===================
奥运 拳击 入场券 基本 分罄 邹市明 夺冠 对手 浮出 水面
股民 要 清楚 自己 的 目的
印花税 之 股民 四季
杭州 股民 放 鞭炮 庆祝 印花税 下调
残疾 女 青年 入围 奥运 游泳 比赛 创 奥运 历史 两 项 第一
介绍 一 个 ASP.net MVC 系列 教程
在 asp.net 中 实现 观察者 模式 ,或 有 更 好 的 方法 (续)
输 大钱 的 股民 给 我们 启迪
Asp.Net 页面 执行 流程 分析
运动员 行李 将 “后 上 先 下” 奥运 相关 人员 行李 实名制
asp.net 控件 开发 显示 控件 内容
奥运 票务 网上 成功 订票 后 应 及时 到 银行 代售 网点 付款
某 心理 健康 站 开张 后 首 个 咨询 者 是 位 新 股民
ASP.NET 自定义 控件 复杂 属性 声明 持久性 浅析
==================
很明显以上数据可以分为三类:asp.net,奥运和股民,我们就写程序来实现它,各种算法的原理网上都有,我就大概只贴代码,声明一下,部分代码是从网上直接抄的,k-means代码是我从一篇文章的java示例代码转换过来的,我给代码加了不少注释,希望能帮助大家理解。

以下是入口函数

posted on 2012-12-08 16:11 lexus 阅读(...) 评论(...) 编辑 收藏

转载于:https://www.cnblogs.com/lexus/archive/2012/12/08/2809012.html

蛙蛙推荐:蛙蛙教你文本聚类 - 蛙蛙王子 - 博客园相关推荐

  1. 蛙蛙推荐:一个程序员2012年技术学习总结 - 蛙蛙王子 - 博客园

    蛙蛙推荐:一个程序员2012年技术学习总结 - 蛙蛙王子 - 博客园 蛙蛙推荐:一个程序员2012年技术学习总结 - 蛙蛙王子 - 博客园 俗一吧,也总结一下,程序员,代码说话. posted on ...

  2. 教你怎样快速DIY自己的博客园SKIN

         授之鱼,不如授之渔.我共享100个根据自己审美眼光制作的Skin还不如教大家怎么自己动手做呢--毕竟大家审美眼光不一样,在加上我本人又是色盲实在作不出什么好外观来. 工欲善其事必先利其器.首 ...

  3. 蛙蛙推荐:蛙蛙教你文本聚类

    蛙蛙推荐:蛙蛙教你文本聚类 摘要:文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的.这 ...

  4. 教你文本聚类(参考http://www.kuqin.com/searchengine/20080511/8323.html)

    参考 蛙蛙池塘 的 教你文本聚类 一文http://www.kuqin.com/searchengine/20080511/8323.html   以 Java 代码的形式予以实现.一下为我对此文的理 ...

  5. Python爬虫入门教程:博客园首页推荐博客排行的秘密

    1. 前言 虽然博客园注册已经有五年多了,但是最近才正式开始在这里写博客.(进了博客园才知道这里面个个都是人才,说话又好听,超喜欢这里...)但是由于写的内容都是软件测试相关,热度一直不是很高.看到首 ...

  6. 手把手教你搭建属于自己的技术博客(小白教程)

    手把手教你搭建属于自己的技术博客 先放上我自己搭建的博客地址 https://sourl.cn/Tbk7yt 这里我使用的是 Hexo 框架 以及 Github pages 进行的搭建 文章目录 手把 ...

  7. 推荐一部python教程_Python爬虫入门教程:博客园首页推荐博客排行的秘密

    1. 前言 虽然博客园注册已经有五年多了,但是最近才正式开始在这里写博客.(进了博客园才知道这里面个个都是人才,说话又好听,超喜欢这里...)但是由于写的内容都是软件测试相关,热度一直不是很高.看到首 ...

  8. Python爬虫-博客园首页推荐博客排行(整合词云+邮件发送)

    1.前提: 总体思路,利用多线程(mutiSpider)爬取博客园首页推荐博客,根据用户名爬取该用户的阅读排行榜(TopViewPosts),评论排行榜(TopFeedbackPosts),推荐排行榜 ...

  9. java爬虫之爬取博客园推荐文章列表

    这几天学习了一下Java爬虫的知识,分享并记录一下: 写一个可以爬取博客园十天推荐排行的文章列表 通过浏览器查看下一页点击请求,可以发现 在点击下一页的时候是执行的 post请求,请求地址为 http ...

最新文章

  1. Oracle数据库安装响应文件,1.2.6 步骤6:配置应答文件,然后运行安装程序(2)...
  2. import关键字的使用
  3. electronjs设置宽度_electronjs 入门_2019年2月14日
  4. mysql+基本代码_PHP+MySQL扎实基本功十句话_php
  5. UDF函数 解码url
  6. CSS(刷漆)学习总结
  7. 8个微信小程序UI组件框架
  8. oeasy教您玩转vim - 39 - # 剪切粘贴
  9. 【心悟水浒】带团队懂管理
  10. 练习java文档ZoneId
  11. 计算IP地址所在网段
  12. 网点分布图如何制作,如何制作网点地图
  13. 前端CSS核心内容定位
  14. 两个乒乓球队进行比赛,各出3人。甲队为A,B,C三人,乙队为X,Y,Z3人。已抽签决定比赛名单。有人像队员打听比赛的名单,A说他不和X比,C说他不和X,Z比,请编程序找出3对赛手的名单
  15. 家乡菜之回锅茄子_wizard_新浪博客
  16. 数据挖掘与数据分析的区别
  17. “机器学习就是现代统计学”
  18. 如何用python画国旗?
  19. 2021年中国生鲜电商行业发展回顾及未来行业发展策略分析:要增强生鲜农产品的稳定性、降低运营成本[图]
  20. 新浪企业邮箱服务器怎么设置,新浪企业邮箱|客户端使用

热门文章

  1. python数据分析与可视化从入门到精通_零基础学Python爬虫、数据分析与可视化从入门到精通...
  2. mysql倒序获取最新10条后正序展示
  3. office 2016 for Mac打开时 出现隐藏模块中出现编译错误: link
  4. 安装火绒的情况下怎么关闭防火墙
  5. Fiddler抓包工具常见功能介绍,还不会的进来看
  6. 计算机工作自动化的特点,计算机内部自动化操作等特点.doc
  7. sscanf提取字符串数字
  8. 【Python处理EXCEL】--pandas导入Excel文件
  9. Python_作图添加水平线和垂直线_linspace语句介绍
  10. Mysql 主从间延迟,主从切换策略