摘要:Web数据挖掘是目前数据挖掘领域中的一个很重要的研究领域,文章首先分析了Web数据挖掘所面临的问题,然后简要介绍了Web数据挖掘的几个分类,最后简单阐述了在Web2.0到来之时,Web数据挖掘所面临的机遇与挑战。
关键词:Web数据挖掘;内容挖掘;结构挖掘;使用记录挖掘;用户性质挖掘;Web2.0

论文下载

An Overview of Web Data Mining
WANG Ting1
(1. Department of Electronic and Computer Science, Guilin University of Technology, Guilin 541004, China)

免费书籍资料下载

Abstract:   Today, WebData Mining is one of the most important fields in Data Mining. This paper analyzed the problems of WebData Mining at the beginning, and then introduced the different subfields of WebData Mining, and at last, explained the opportunities and challenges of WebData Mining in the coming period of Web2.0.
Keywords: Webdata mining; Content mining; Structure mining; Usage mining; Character mining; Web2.0

互联网资源

1   引言
数据挖掘(Data Mining,DM)是从大量数据中提取或“挖掘”知识,是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。[1] 随着网络的不断发展,因特网目前已成为一个巨大的、分布广泛的和全球性的信息服务中心。从海量的网络信息中寻找有用的知识,早已成为人们的迫切需求。各种 类似Google、Baidu等的搜索引擎也层出不穷,Web数据挖掘的应用在现实中不断体现。
Web数据挖掘建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行决策和管理,减少决策的风险。
Web数据挖掘涉及多个领域,除数据挖掘外,还涉及计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术。[2] 本文主要论述Web数据挖掘以及Web2.0的出现给Web数据挖掘带来的影响。

数据挖掘研究院

2   Web数据挖掘面临的问题
Web的巨大、分布广泛和内容多样使得目前的Web挖掘面临着众多问题和挑战。首先,对有效的数据仓库和 数据挖掘来说,Web上的数据过于庞大。而且,Web上的数据具有极强的动态性,不仅数量增长快而且更新十分迅速。但是面对如此大量的Web上的信息,有 调查却表明:99%的Web信息对于99%的用户是无用的。这样看来,面对网络上形形色色各式各样的用户群体,许多由Web搜索引擎所检索到的资料将会被 淹没。
另外,由于Web页面缺乏同一的结构,其结构又比任何传统文本文档都要复杂,所以要实现基于Web的数据挖掘和信息检索在目前来说是非常具有挑战性的。

数据挖掘知识

3   Web数据挖掘的分类
Web数据挖掘是一项具有挑战性的课题。它实现对Web存取模式,Web结构和规 则,以及动态的Web内容的查找。一般来说,Web数据挖掘可分为四类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘。其 中,Web内容挖掘、Web结构挖掘和Web使用记录挖掘是Web1.0时代就已经有了的,而Web用户性质挖掘则是伴随着Web2.0的出现而出现的。 Web数据挖掘的分类如图1所示。

图1 Web数据挖掘的分类

免费书籍资料下载

3.1 Web内容挖掘
Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其对象包括文本、图像、音频、视频、多媒体和其他各种类型的数 据。这些数据一般由非结构化的数据(如文本) 、半结构化的数据(如HTML 文档) 和结构化的数据(如表格) 构成。对非结构化文本进行的Web挖掘,称为文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域。Web挖掘中另一个比较重要的技术领域是Web 多媒体数据挖掘。
目前,关于Web内容挖掘的研究大体以Web文本内容挖掘为主。Web内容挖掘一般从资源查找和数据库两个不同的方面进行研究。
从 资源查找的方面来看,Web内容挖掘的任务是从用户的角度出发,怎样提高信息质量和帮助用户过滤信息。主要是对非结构化文档和半结构化文档的挖掘。非结构 化文档主要指Web上的自由文本,如小说、新闻等。Web上的半结构化文档挖掘指在加入了HTML、超链接等附加结构的信息上进行挖掘,其应用包括超链接 文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。
从数据库的观点进行Web内容挖掘主要是试图建立Web站点的数据模型并加以集成, 以支持复杂查询,而不只是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web知识库来实现。
对 文本数据进行挖掘的文档分类和模型质量评价方法与传统的数据挖掘方法相类似,分类算法主要应用朴素贝叶斯(Naive Bayes Classifier)。对模型的质量评价主要有分类的正确率(Classification Accuracy)、准确率( Precision)和信息估值( Information Score)。

HAMMER_SHI

Web 多媒体数据挖掘从多媒体数据库中提取隐藏的知识、多媒体数据关联、或者是其他没有直接储存在多媒体数据库中的模式。多媒体数据挖掘包括对图像、视频和声音 的挖掘。多媒体挖掘首先进行特征提取,然后再应用传统的数据挖掘方法进行进一步的信息挖掘。对网页中的多媒体数据进行特征的提取,应充分利用HTML的标 签信息。[3]
3.2 Web结构挖掘
由于有用的知识不仅包含在Web页面的内容中,而且也包含在页面的结构中。所以Web结构挖掘是从站点的组织结构和页面结构中推导出知识,对Web页面间的结构进行挖掘,找出数据链的结构进行分类、聚类,从而发现页面间的关系,进而改进搜索引擎的性能。
Web 结构挖掘的对象是Web本身的超链接,即对Web文档的结构进行挖掘。Web结构挖掘的基本思想是将Web看作一个有向图,他的顶点是Web页面,页面间 的超链就是图的边。然后利用图论对Web的拓扑结构进行分析。常见的算法有HITS ( Hypertext Induced Topic Search) 、PageRank、发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。Web结构挖掘的算法一般可分为查询相关算法和查询无 关算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此 值。HITS和PageRank分别是查询相关算法和查询独立算法的代表。

免费书籍资料下载

3.3 Web使用记录挖掘
Web使用记录挖掘也叫Web日志挖掘或Web访问信息挖掘。它是通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。
Web使用记录数据除了服务器的日志记录外, 还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、等一切用户与站点之间可能的交互记录。
Web使用记录挖掘方法主要有以下两种:
(1) 将网络服务器的日志文件作为原始数据,应用特定的预处理方法进行处理后再进行挖掘;
(2) 将网络服务器的日志文件转换为图表,然后再进行进一步的数据挖掘。通常,在对原始数据进行预处理后就可以使用传统的数据挖掘方法进行挖掘。
3.4 Web用户性质挖掘
Web 用户性质挖掘是伴随着Web2.0的出现而出现的。基于RSS、Blog、SNS、Tag以及WiKi等互联网软件的广泛应用,Web2.0帮助人们从 Web1.0时代各大门户网站“填鸭”式的信息轰炸,过渡到了“人人对话”,每个普通用户既是信息的获取者,也是信息的提供者。[4]面对Web2.0的 诞生,Web数据挖掘技术又面临着新的挑战。
如果说Web使用记录挖掘是挖掘网站访问者在各大网站上留下的痕迹,那么Web用户性质挖掘则是要去 Web用户的老巢探寻究竟。在Web2.0时代,网络彻底个人化了,它完全允许客户用自己的方式、喜好和个性化的定制服务创造自己的互联网,它一方面给予 互联网用户最大的自由度,另一方面给予有心商家有待发掘的高含金量信息数据。通过对Web用户自建的RSS、Blog等Web2.0功能模块下客户信息的 统计分析,能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关Web2.0下的数据挖掘正在进一步的研究 中。

互联网资源

4   结束语
Web数据挖掘是当今世界上的热门研究领域,其研究具有广阔的应用前景和巨大的现实意义。目前国内的Web数据挖掘尚处于学 习、跟踪和探索阶段。Web数据挖掘有许多问题有待于进一步的研究和深化。Web2.0的出现给Web数据挖掘提出了新的要求。基于Web2.0的数据挖 掘目前还处于起步阶段,它必将成为Web数据挖掘中很重要的一个研究领域。

电脑常识

参考文献
[1] Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2004:3-4
[2]涂承胜,鲁明羽,陆玉昌. Web挖掘研究综述[J].计算机工程与应用,2003,39(10):91-93
[3]薛鸿民,Web数据挖掘技术研究[J].现代电子技术.2006,29(15):99-101
[4]高祥华,Web2.0中的技术及应用[J].中国科技信息.2006,(13):127-128

Web数据挖掘技术综述相关推荐

  1. Web开发之一:Web UI技术综述

    一.什么是UI?什么是UI设计师?    1.什么是UI        按照Wiki的解释: In the industrial design field of human–machine inter ...

  2. 2017年Web前端技术综述

    Web前端应用发展的历史大概经历了三个阶段:第一个阶段使用的是简单的静态页面,第二个阶段使用得是ASP.JSP.PHP等动态脚本语言,第三个阶段是Web2.0阶段,其核心技术是AJAX,同时伴随着SP ...

  3. 系统架构案例分析——(1)Web开发技术综述

    1.技术目录 (保持更新) 2.服务器集群发展 (1)单机到数据库与Web服务器分离 (2)应用服务器集群诞生 集群产生的问题: ①用户请求如何转发  →  负载均衡问题 ②如何维护Session一致 ...

  4. Web 挖掘技术总结 (参考太多,都没列出来)

    Web挖掘技术 一.数据挖掘 数据挖掘是运用计算机及信息技术,从大量的.不完全的数据集中获取隐含在其中的有用知识的高级过程.Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用. ...

  5. Web 挖掘技术总结

    Web挖掘技术 一.数据挖掘 数据挖掘是运用计算机及信息技术,从大量的.不完全的数据集中获取隐含在其中的有用知识的高级过程.Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用. ...

  6. XML与Web数据挖掘

    面向Web的数据挖掘是一项复杂的技术,由于Web数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向Web的数据挖掘成了一个难以解决的问题.而XML的出现为解决Web数据挖掘的难题带来了机会. 面向Web ...

  7. Web前端技术 Web学习资料 Web学习路线 Web入门宝典(不断更新中)

    (此文档于2019年3月停止再更新,后续更新移步至:https://github.com/liuyuqin1991/polaris) 学习路线 第一章 技术(核心单独列章节) 1.Node Node. ...

  8. Web数据挖掘在电子商务中的应用

    摘要:在电子商务中,运用数据挖掘技术对服务器上的日志文件等Web数据进行客户访问信息的Web数据挖掘.了解客户的访问行为,从而调整站点结构.市场策略等,使电子商务活动具有针对性.  关键词:电子商务: ...

  9. pHP分析网站日志,通过用数据挖掘技术来分析Web网站日志?

    Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站 ...

最新文章

  1. linux软件安装不完全傻瓜手册
  2. html纯css页面滑动效果,纯css3滑动按钮动画效果
  3. Linux之Sed详解
  4. 关于Unity中水和雾的使用
  5. hdu 4506(快速幂+找规律)
  6. php面向对象公共类,PHP面向对象(一):类与类的实例化
  7. jquery工具箱旋转动画效果
  8. POJ 计算几何(3)
  9. 央视曝光紫砂锅名单_大家看今天中午《每周质量报告》没,美的牌 紫砂锅含有剧毒。家里有这牌子...
  10. 经济专业为什么学python_既然有了会计学专业,为什么还要有税收学专业?
  11. ES6的一个基础类,支持私有属性和方法,支持event和mix
  12. 如何给Arduino项目添加音乐播放功能
  13. 小米路由器怎么设置无盘服务器,小米路由器怎么设置?
  14. 2019零售业9大新知洞察发布,零售服务在线采购节启动
  15. 【Rosalind】Mortal Fibonacci Rabbits
  16. 驱动器中的软盘不对_在“提示”框中:基于位置的待办事项提醒,DIY软盘驱动器音乐以及易于访问的产品手册...
  17. 用pandas生成excel文件示例,并调整excel的格式或样式
  18. CF1375G Tree Modification
  19. GAE 博客——B3log Solo 0.2.1 发布了!
  20. matlab中和 |和||的区别

热门文章

  1. 这次,黄铮亲手“砍了一刀”拼多多
  2. Nginx——nginx作为静态资源web服务(CDN场景)
  3. 关于ascii编码的原理,特征及用途
  4. PHP软件库源码+支持CDKey卡密充值
  5. 近红外二区(磷化铟/硫化锌)InP/ZnS量子点波长在650-900 nm,齐岳供应
  6. 直流电机,伺服电机和步进电机的区别
  7. 上海大厂Android面试经历:史上最通俗计算机网络分层详解,通用流行框架大全
  8. 【错误记录】Git 使用报错 ( error: Cannot delete branch ‘dev‘ checked out at ‘D:/Git/git-learning-course‘)
  9. 新博客, 新方向, 新动力, 心坚持
  10. webdriver启动浏览器、设置profile加载插件步骤详解