数据挖掘(Data Mining)已经不是一个新鲜的概念,“尿布和啤酒” 这一经典案例也被很多人津津乐道: 美国一家大型超市利用数据挖掘技术来分析他们的销售纪录,居然发现尿布和啤酒的销售量之间存在相当大的关联性。经过进一步的调查,找到了产生这个现象的原 因,原来在美国,负责为孩子购买尿布的年轻父亲们,很多时候会顺带着给自己买些啤酒。沃尔马随后采取的措施是,将尿布和啤酒并排放在一起,结果两种产品的 销售量都到了增长。

在CIC,我们也使用一种特殊的数据挖掘技术,也就是文本挖掘(Text Mining),来从每天数以百万计的网络文章中寻找譬如“尿布和啤酒”的潜在规律和趋势。但是和一般意义上的数据挖掘不同, 文本挖掘的研究对象,即文本,是非结构化(Unstructured)的,即没有预先设定好的栏和位,告诉我们这篇文章是在说某年某月谁谁谁做了什么事, 这些信息,都必须使用包括文本向量模型(Vector Space Model),自然语言分析(Natural Language Processing)等技术在内的信息抽取(Information Retrieval)过程得到,然后才能放进结构化的数据库,以供进一步处理。

我们当然希望对于文本的处理结果能够相当准确,这个准确度可以用两个指标来衡量,1. 召回率(Recall),譬如我们想要寻找谈及产品A的文章,那么召回率就是在所有谈及产品A的文章中,多大比例可以被我们发现;2. 精确度(Precision),在我们所认为是谈及产品A的文章,有多少是确实满足我们期待而不是被错误划分进来的。

如果说能相当准确的处理少数文本还不算难,那么每天处理几百万篇文章,就是对整个软件系统的一大考验了,算法的高效,系统的稳定还有可扩展,都起着决定性作用。

除去以上这些,另一大挑战是来自中文。与西方文字不同,汉字字符是没有边界的。西方的文本挖掘技术不能直接应用在中文上,就如同不能直接应用在类似 这样一串字符串上一样 thisistobesegmentedfirstandthenwecandosomethingaboutit. 在汉字字串当中寻找特定信息,我们需要首先进行分词,缺少这个过程,就会产生让人啼笑皆非的错误。譬如寻找包含“可乐”的句子,结果“我可乐坏了”也被当 作结果。

中国网民的用语习惯,会让文本挖掘的过程更为复杂,我们需要知道什么时候“粉丝”,“玉米”不是食物,而是一些特定人群;我们也需要知道“小黑”可能不是一条狗,而是ThinkPad笔记本;当然,我们也得弄清楚“KK” 这款车是指雪佛兰的Spark还是丰田的Camry,抑或是东风雪铁龙的富康。

同时,我们也需要超越绝大多数现有搜索引擎所采用的单纯基于特定关键字的查找匹配方式,而在一定程度上去实现基于语义(Semantic)的搜索,即不论文中出现的是“笔记本”,“本本”,还是“laptop”,当我们在查找“笔记本”时,这篇文章都应该作为结果返回。

面对这么多困难,如果有人觉得CIC的技术人员一定过的苦不堪言,那么他可错了。面向中文网络的文本挖掘实在是有趣极了。首先,迎接那些挑战,解决 各类难题本身就很刺激。同时,有机会和我们的分析团队合作也是相当有意思的事情,我们面向各行各业,消费电子,汽车,运动产品,饮料,汽车,甚至网游等 等,通过挖掘和分析,散布在海量文本当中的蛛丝马迹就可能被拼凑起来,而形成一个完整的故事。我们或许能够发现不为人知的联系,或者预测到潜在的品牌危 机。

对于一个热爱新知的人来说,从事这项技术的研究与开发,可以接触到各类学科的知识,计算机科学,语言学,统计学,社会学,大众传媒等。我们研究文字 的信息熵,计算文本矢量的相似性,用动态规划法(Dynamic Programming)对中文进行正确的分词,用概率理论分析词跟词的关联,计算文本向量矩阵的特征向量(Eigenvector),用分布式系统来实 现大规模的计算和存储...... 如果这些听起来还不够让人兴奋,那么或许我们还可以去看看文本挖掘和量子物理的共同点。

如果有人问我互联网时代,继门户,搜索引擎,Web2.0之后,The next big thing是什么,我的回答会是,不论具体的应用为何,这个应用一定离不开文本挖掘,从海量的网络文本当中,在语义层面寻找富有价值的信息。这类应用,被纽约时报称为Web3.0,网络的应用.正在从手册(Catalog),向智能的向导(Guide)演变。

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/CICTech/archive/2008/04/16/2296453.aspx

文本挖掘技术在CIC的应用--转载相关推荐

  1. Web文本挖掘技术研究

    转载出处:http://blog.sina.com.cn/s/blog_4ad7c25401000bpc.html 王继成 潘金贵 张福炎 摘 要 作为从浩瀚的Web信息资源中发现潜在的.有价值知识的 ...

  2. GJM:移动App入侵与逆向破解技术-iOS篇 【转载】

    GJM:移动App入侵与逆向破解技术-iOS篇 [转载] 转载: URL http://dev.qq.com/topic/577e0acc896e9ebb6865f321 如果您有耐心看完这篇文章,您 ...

  3. apache kafka技术分享系列(目录索引)--转载

    原文地址:http://blog.csdn.net/lizhitao/article/details/39499283 kafka开发与管理: 1)apache kafka消息服务 2)kafak安装 ...

  4. 基于R语言的文本挖掘技术

    文本挖掘 2 绪论 目前我们可以获取的大部分信息是以文本的形式存储在文本数据库中的,由来自各种数据源的大量文档组成,如新闻文档.研究论文.书籍.数字图书馆和web页面.由于电子形式的文本信息飞速增长, ...

  5. 超宽带技术的定位原理(转载)

    超宽带技术的定位原理: 通过布设基站在室内(外),携带标签在定位目标上:标签发射超宽带信号,基站接收信息并通过网线或WIFI网传输到交换机与服务器,在服务器软件中运用TODA和AOA定位算法进行位置解 ...

  6. 用 Java 技术创建 RESTful Web 服务--转载

    简介 JAX-RS (JSR-311) 是为 Java EE 环境下的 RESTful 服务能力提供的一种规范.它能提供对传统的基于 SOAP 的 Web 服务的一种可行替代. 在本文中,了解 JAX ...

  7. JXTA技术与应用发展(转载)

    一.概述 美国Sun公司自从1995年向世界推出了Java语言以来,每年都会在Java领域里推出新的技术,从JavaCard.J2ME到J2EE.JINI.JavaTV,推动了Java技术的发展和应用 ...

  8. 20大5G技术【5G通信技术,转载自微信公众号网优雇佣军】

    20大5G技术[5G通信技术] 5G网络技术主要分为三类:核心网.回传和前传网络.无线接入网. 核心网 核心网关键技术主要包括:网络功能虚拟化(NFV).软件定义网络(SDN).网络切片和多接入边缘计 ...

  9. VMware、KVM、Docker之虚拟化技术框架和原理——【转载自微信公众号开源linux】

    说起虚拟化你会想到什么?从我们常用的虚拟机三件套VMware.VirtualPC.VirutalBox到如今大火的KVM和容器技术Docker? 这些技术是什么关系,背后的技术原理是怎样的,又有什么样 ...

最新文章

  1. 从小屏到大屏,触控技术的现在与未来
  2. HDL输入设计详解攻略
  3. SAP Spartacus Visible Focus
  4. 【APICloud系列|30】UILoading 模块demo源码的实现
  5. 【问题解决】无法创建新的堆栈防护页面
  6. 前端学习(2000)vue之电商管理系统电商系统之绘制基本面板的结构
  7. linux oracle em使用,Linux平台下启动oracle 11g EM控制台
  8. 大数据与大量数据处理_我们如何处理和使用如此大量的数据?
  9. 想要转人工智能,程序员该如何学习?
  10. 华数机器人旋转编程_华数工业机器人编程 MOVE运动指令
  11. 工作效率的提升——如何高效沟通,有效降低沟通成本
  12. 700 boost yeezy_公司级Adidas Yeezy Boost 700上脚测评
  13. quick-cocos2dx3.5 mac模拟器改进
  14. 8种zk-SNARK构建的比较
  15. L1-054 福到了 (15 分)
  16. 医疗管理系统-预约管理
  17. linux操作系下RAR的使用
  18. 很厉害的 SQL函数Group_concat用法,
  19. 论文投稿-图片处理技巧
  20. 视觉软件 VisionPro 定位引导1(CogCalibNPointToNPointTool工具)

热门文章

  1. 【文章】论文写作知识积累
  2. [云炬ThinkPython阅读笔记]2.2 变量名
  3. 科大星云诗社动态20210223
  4. 通过History Trends Unlimited通过统计服务器上Chrome浏览器Top10网页历史访问量(2021.11.23)
  5. 0x80004005错误代码解决方法_记一次win10更新升级失败的解决
  6. C语言使用fopen的两点注意事项
  7. asp.net ajax中文乱码的解决?2010-01-19 12:06
  8. ICMP协议抓包分析-wireshark
  9. shell高级编程--引用
  10. 使用结构体的形式使一个函数返回多个数据