第一章 绪论

“我们虽然淹没在信息的海洋中,但是却渴求所需的知识。”   美国作家,奈斯比特《大趋势》。

为什么会出现这种情况呢?主要原因之一是缺乏有效的大数据搜索、挖掘与知识获取手段。

何谓大数据?研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策了、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;大数据通常用来形容大量的额非结构化和半结构化数据。

大数据的主要特点:

1)数据量巨大

2)数据多样化

3)数据速度变更快

面对大数据的新特点,如何解决大数据规模大、速度快、多样化以及价值密度低等挑战? 采用大数据分析方法学,即从客观存在的全量超大规模、多源异构、实时变化的微观数据中,利用自然语言处理、信息检索、机器学习等技术抽取知识。转化为智慧的方法学。

Web搜索

Web搜索,又称网络信息检索,其理论基础是信息检索技术。信息检索是对信息按照一定的方式组织、存储,从大量的大数据中找到满足用户信息需求的知识,尤其是对非结构化或半结构化文本的检索(在这一点,信息检索与基于数据库的检索不同。在数据库领域,数据之间有特定关系并按照这种关系进行结构化存储,检索时可按照这种逻辑关系直接找到需要的信息),其主要目的是研究如何从海量文档集中高效检索出于用户需求相关的文档,其研究涉及海量信息采集、表示、组织、内容分析与知识挖掘、索引、访问、表现等方面。

一般地,搜索引擎主要包括信息采集、信息加工、信息检索检索结果提供这几个部分。其中,信息采集模块以一定的策略在因特网等信息原中采集相关信息;信息加工主要指对网页资源进行信息抽取与去噪、内容分析(包括文本分析、分词处理、主题词抽取)、建立倒排索引、根据内容分析的结果编制摘要、完成信息分类等;信息检索模块则根据用户的检索提问对检索项与索引项进行匹配运算以获取对应的检索结果集,有些系统为方便用户使用还提供了高级检索功能、支持自然语言提问等;检索结果提供则是在进行必要的相关分析后以超链等形式给出检索结果。

【学习笔记】大数据搜索与挖掘相关推荐

  1. 大数据时代之大数据搜索与挖掘

    在企业日益发展的今天,数据.文档.资料的不断扩充,大大增加了我们查找搜索的难度,如何才能在最短时间找到我们需要的资料成为大型企业经常遇到的问题,我们统称这些为大数据搜索.(www.lingjoin.c ...

  2. DAMA数据治理学习笔记-大数据和数据科学

    大数据和数据科学 定义 对多种不同类型的数据进行收集(大数据)和分析(数据科学.分析.可视化),以此来为在分析的初始阶段未知的问题找到答案 目标 发现数据和业务的联系 支持将数据源迭代集成到企业中 发 ...

  3. 学习笔记 - 大数据导论

    1 数据仓库 1.1 数据仓库(Data Warehouse) 简称DW.数据仓库顾名思义,是⼀个很⼤的数据存储集合,出于企业的 分析性报告和决策支持⽬的而创建,对多样的业务数据进⾏筛选与整合.它为企 ...

  4. 大数据学习笔记—大数据概论

    大数据概论 一. 大数据的概念 二.大数据的特点(4V) 三. 大数据的应用场景 四.大数据的发展前景 五.大数据部门的业务流程/组织结构 一. 大数据的概念 大数据(big data),指无法在一定 ...

  5. 学习笔记-大数据基础实训(python语言+可视化)

    实训指导书 一.实训目的 利用python从指定接口爬取广东省各个地市的气象数据,存储并进行数据分析和可视化 二.实训任务列表 给定以下3个接口: 1.http://www.nmc.cn/f/rest ...

  6. 1-spark学习笔记-大数据概述

  7. 四位顶级AI大牛纵论:深度学习和大数据结合的红利还能持续多久?

    这轮 AI 热潮的很大一个特点就是底层技术方面在打通,虽然说过去对通用人工智能大家曾经有过很高的期望,但一直没有落地.这次,深度学习给大家带来了很多机会,使得我们在底层技术方面有了越来越多的共性.然而 ...

  8. 学习笔记之数据可视化(二)—— 页面布局(下)

    续上一章 2.7 地图区域(.map) 2.7.1 实现步骤: 2.8 用户统计模块 2.8.1 布局: 2.8.2 柱状图 2.9 订单模块 2.9.1 订单区域布局 2.9.2 订单区域(orde ...

  9. 学习笔记之数据可视化(二)——页面布局(上)

    ~续上一章 2. 项目页面布局 2.1 基础布局 2.1.1 PC端屏幕宽度适配设置 2.1.2 主体容器viewport背景图片 2.1.3 HTML结构 2.1.4 css样式代码 2.2 边框图 ...

最新文章

  1. Present ViewController详解
  2. Android setOnPageChangeListener 过时了怎么办?
  3. XpShop v2.2发布,免费下载
  4. gettimeofday
  5. qt使用 QMediaPlay 简单播放音乐
  6. 2019年最流行的七大编程语言:学习编程,你会选择哪一种语言呢?
  7. ym—— Android网络框架Volley(终极篇)
  8. 深入玩转K8S之智能化的业务弹性伸缩和滚动更新操作
  9. SQL Server系统数据库–模型数据库
  10. WPF开发为按钮提供添加,删除和重新排列ListBox内容的功能
  11. Kafka如何保证不丢数据?
  12. 地表净辐射通量数据、太阳辐射量数据、降雨量数据、气温数据、日照时长、水汽压分布、风速风向数据、地表温度
  13. OpenStack还是OpenStack,云已不是那朵云!
  14. fastboot驱动安装问题——文件哈希值不在指定目录
  15. 浮点数开方运算的快速计算
  16. html5 电子白板 直播,HTML5 canvas教程 如何实现电子白板
  17. 动手实现天气预报App(二)——显示天气信息
  18. 使用turtle 绘制正方形和圆
  19. 使用Python将多张图片生成视频,并添加背景音乐及字幕
  20. Levenshtein 自动机(拼音纠错)

热门文章

  1. 【深度学习】李沐的深度学习笔记来了!
  2. 打谱CTF recover
  3. SAP UI5 应用在 Business Application Studio 里的构建单步分析
  4. 人工智能和机器学习在医疗领域中的应用
  5. 蓝桥杯Java必备基础知识总结大全【3W字】持续更新中
  6. 【C语言入门】%f 和 %lf 的区别
  7. SDL下播放声音文件
  8. ASO马甲包:马甲包上架注意事项
  9. 池州学院数学与计算机足球队,池州学院数学与计算机科学系.ppt
  10. 计算机默认应用程序怎么取消,如何取消默认打开的QQ浏览器