文本聚类平移算法的几点问题
文本处理,我的最爱---题记

大概一个月前 10b lobster 也和我聊起过卢亮介绍过的平移算法, 详细的介绍可以看这里:卢亮的blog 。记得当时第二天就看到了carrot2的发布, carrot2 上使用了多种聚类的算法。

有些人对平移算法嗤之以鼻,比如这位。在我看来,一个算法有没有效果,要看这个算法的前提和假设,大炮打小鸟怎么瞄也不带劲儿。在文本处理领域中,比如,中文分词,特别是文本聚类的算法上从来没有一个算法可以解决所有问题,很多解决方案都是采用多个算法取长补短来达到综合效果的。

昨天写关于标签和书签的blog时想到,在改善新闻阅读器的文章分类也许平移算法用的上。周末便用了半天做了一个单向移动的平移算法。

平移算法,要考虑这个算法适用的范围,这个是前提。我实现的平移算法和卢亮的目的不同,类似于我的:未登录词识别

在算法的具体设计上,还需要考虑以下几个问题:
1、窗口大小,窗口借用了tcp发包的窗口的概念,就是确认有效匹配的长度;
2、平移的方向。我下面例子只实现了单向移动;
3、效率问题,平移算法涉及了大量的比较,找到一个最短的比较边界还挺重要;

下面是一份平移算法的原始结果,找出所有it公司的人名,感觉还可以。进一步处理后,就可以投入实际应用了:

B2C,移动不,Google在中国,IT公司,Web1.0,凭什么,任何关系,不好 ,鲍尔默,有三大,现在的, 网易,在中国没,视频网,的名义,是一种,新浪博客,200,ay合作,是个很,马云雅,联想CEO, 新浪,干什么,第一 ,大的一,2.0 ,思文凯,笔记本,eb 2.0,程天宇,王建宙,721,软件产业,在社区,离不开,更重要,Web 2.0,商业化,年博客网,陈彤新,陈一舟,徐静蕾,是一个,web,绝对领,马云网络,CEO马,未来5,网不是,搜索引擎,商业模式,爱立信,做企业,技术不,互联网上,Donews,000万,1000万,李善友,惠普CEO,两年后,投资者,与百度,方兴东互联网,年时间,于技术,的竞争,赫德我,Linux,思科CEO钱伯斯,Web,新联想,我们不,不排除,英特尔CEO,对互联网,杨元庆,鲍尔默微软,可怕的,eBay,互联网创新,泼冷水,投资游戏,把自己,上3G,而不是,互联网产,ube,动互联网,.0 ,思维 ,You,惠普CEO赫德,没有失,的时候,称目前,2.0,1.0是,戴尔CEO,价格战,评论马云, 但是,富豪榜,黄光裕,创业者,新浪的,IDG,我不是,刘克丽,李志高,eBay的,不存在,中国IT,TCL,倪光南,博客的,服务将,风险投资,中国互联网,是Web,0美元,祝志军,曹国伟新浪,张朝阳互联网,IT网站的,eb2.0,周鸿袆,年后要,中移动,WiMAX,周鸿祎风,姜奇平, YouTube,团队 ,igg,规模并购,的威胁,WAPI,掌门人,国公司,张朝阳,鲍尔默微软有,游戏是,Live,尼葛洛庞帝,IPTV,CDMA,曹国伟,犯的错,喻国明,微软C,李开复,丁磊网易将,人博客,广告是,什么都,2.0发展,公司 ,微软有, Web,施密特,国互联网,500,宫玉国,陈永正,在中国,低估了,CEO王,柳传志, 不会,盖茨Google,是未来,Web2.0,薪水一,娱乐的,盖茨公,李彦宏,错误 ,李进良,乔布斯,Xbox,.0的,吴世雄,软件业,IBM,Google CEO,张朝阳博客,5年内,总裁李,很杰出,微软的,新掌门,微软CEO鲍尔默,“抄袭”,500万,的商业,最好的,齐向东,3721,e搜索,微软 CEO,周鸿祎,称百度,中搜CEO陈沛,赛门铁克,小灵通,上市 ,是微软,周鸿祎与, 没有,国软件,庞升东我,新高 ,log,吕本富,陈天桥,中国最,Digg创始人,竞争对手,中国有,吕伟钢,杨致远,犯的错误,史玉柱,百度不,张向宁,lexa,中国3G,将取代,运营商,网站并购,成网络,3G标准,5年后,曹国伟新,王建宙中移动,最困难,CEO,有什么,施振荣,天使投资,王建宙中,00万,李焜耀,收购 YouTube,王雷雷,垄断的,博客不,有今天,英特尔,网络泡沫,李彦宏 ,06年,副总裁,IT网站,本市场,传统媒,Google施密特,王志东,蔡文胜,要坚持,一定能赢,杨元庆联想,没什么,模仿印度,将继续,Web ,网CEO,Google中国,潘石屹,来不是,新浪总编,马化腾, CEO,视频是,做娱乐,六间房,并不是,粉丝网,国际化,收购要,董事会,百度李彦宏,Google,默多克,金蝶徐少春,赛门铁克CEO,2.0 的,.0是,不看好,总编辑,李学凌,1.0,反流氓软件,做三件事,网民都,李东生,副总编,高群耀,是如何,张朝阳不,新兴市场,张本伟,盖茨的,王晓初,惠特曼,企业的,副总裁李,Google还,网络成,网络媒体,Blog,100, 不看好,电子商务,比尔·盖茨, 1.0,明星博客,陈天桥盛大,当当网,创始人W,罗林斯,CEO网络,董事长,联想C,王定标,马云称,古永锵,项立刚,尔CEO,新媒体,不可能, CEO谈,投资人,任正非,雄我不,是错误,后Google,创业的,MSN,郭凡生,微软副总裁,新技术, google,阚凯力,互联网, Web2.0,多的是, 汪延,江南春,中国电信,田溯宁,看好W,新浪总编辑陈彤,什么中国,流氓软件,门户网站,张瑞敏,创始人,的IT,时最易犯,三大因素推动互联网未来发展,将是新,争议人物,周韶宁,五年内,的生活,创新 ,过多少,李开复Google,Vista,10年,中国总裁,中国不, 2.0,马雪征,黄明生,方兴东,钦佩的,周鸿一,两年内,eBay合作,把自己当,中国网,汤美娟,雅虎中国,Mysee高燃,网CEO李,王吉鹏,网络游戏,Google收购YouTube,不是一,TOM,徐东英,

怎么样感觉还可以吧。

我正在实现一个新闻句子提取引擎,做好后放到新闻阅读器里,这样查看高燃语录(2005-2006语录)的时候,可能会更方便。

文本聚类平移算法的几点问题相关推荐

  1. 【文智背后的奥秘】系列篇——文本聚类系统

    版权声明:本文由文智原创文章,转载请注明出处:  文章原文链接:https://www.qcloud.com/community/article/131 来源:腾云阁 https://www.qclo ...

  2. SinglepassTextCluster项目:基于single-pass算法思想的自动文本聚类组件

    项目的背景 SinglepassTextCluster, an TextCluster tool based on Singlepass cluster algorithm that use tfid ...

  3. 六种常用的文本聚类算法介绍

    文本聚类算法介绍 分类和聚类都是文本挖掘中常使用的方法,他们的目的都是将相似度高的对象归类,不同点在于分类是采用监督学习,分类算法按照已经定义好的类别来识别一篇文本,而聚类是将若干文本进行相似度比较, ...

  4. 基于 K-means 算法实现的文本聚类(干货)

    k-means算法又称k均值,顾名思义就是通过多次求均值而实现的聚类算法.是一种无监督的机器学习方法,即无需知道所要搜寻的目标,而是直接通过算法来得到数据的共同特征.其具体算法思想如下图所示: 1.首 ...

  5. 文本聚类算法Java实现

    蛙蛙推荐:蛙蛙教你文本聚类 摘要:文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的.这 ...

  6. K-means算法及文本聚类实践

    K-Means是常用的聚类算法,与其他聚类算法相比,其时间复杂度低,聚类的效果也还不错,这里简单介绍一下k-means算法,下图是一个手写体数据集聚类的结果. 基本思想 k-means算法需要事先指定 ...

  7. 机器学习-无监督学习-聚类:聚类方法(二)--- 基于密度的聚类算法【DBSCAN文本聚类算法,密度最大值文本聚类算法】

    密度聚类方法的指导思想是,只要样本点的密度大于某阀值,则将该样本添加到最近的簇中. 基于密度的聚类算法假设聚类结构能够通过样本分布的紧密程度确定,以数据集在空间分布上的稠密程度为依据进行聚类,即只要一 ...

  8. 基于神经网络语言模型的中文新闻文本聚类算法

    一.新闻文本集  其中  通过TF-IDF排序 中的词(由大到小),选择其中的 t 个词作为关键字,,是对应关键字的TF-IDF值. 二.神经网络语言模型 输入:该词的上下文中相邻的几个词向量(词袋模 ...

  9. 【项目实战】Python基于KMeans算法进行文本聚类项目实战

    说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取. 1.项目背景 随着计算机技术的发展.Web 应用的逐步普及,大量的电子文本已经 ...

最新文章

  1. CentOS5.8 RHCS配置
  2. 集群与存储 LVS的集群
  3. leetcode47. 全排列 II(回溯)
  4. 10万量级30秒自动化配座,0现场故障:这届冬奥票务系统有点不一样
  5. 都说「跳一跳」是微信抄袭了育碧,万万没想到,他们在一起了!
  6. 兴业太阳能:将“绿色能源”带到国外
  7. Python 的多文件和注释
  8. javaweb课程设计房屋租赁系统
  9. 软件工程课程课后大作业
  10. asp.net报表制作视频教程
  11. 去除xp系统计算机多余的系统,WinXP电脑如何清理垃圾?
  12. fastlane实现Android自动化打包
  13. 【数据库作业10】用SQL语句来表示关系代数中的表达式
  14. 小米SN保修_一次真实但糟糕的小米笔记本售后
  15. 关于聪明与努力的文章.
  16. Ti ub954/953 Sensor调试心得
  17. ros串口/摄像头 别名及查看绑定
  18. win10如何升级成win11系统
  19. 贪心--2016cqround4火车运输
  20. ERROR in [copy-webpack-plugin] unable to locate ‘./src/lib/map‘ at ‘C:\Users\1\Desktop\node\lgx\src\

热门文章

  1. vs2015下pthread的使用
  2. NTLDR是做什么的,丢失了如何恢复
  3. 模式识别学习笔记-lecture2-统计判别1
  4. 盘点一下国内智能巡检机器人TOP5
  5. LightOJ 1079 Just another Robbery (概率dp+背包)
  6. 牛客小白月赛 20 E区区区间(线段树)
  7. mysql的左右连接 分页_Java 与 Mysql连接,并分页显示
  8. 汇市经典好文:Y先生稳定赚18.2万美金
  9. ZOJ3963 【gay gay 的贪心】
  10. 基于HMM的文本分词