现代信息检索——基本概念
文章目录
- 1. 什么是信息检索
- 1.2. 信息检索与其他学科领域的关系
- 1.3. 信息检索技术的应用
- 1.4. 信息检索的分类
- 2. 信息检索的现实需求
- 3. 信息检索的工具
- 4. 重要检索工具平台
1. 什么是信息检索
所谓信息检索,就是给定信息需求,然后从信息库中找出与需求最匹配的信息。详细地说,信息检索通常涉及信息的获取、存储、组织和访问。是一个从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。
从信息的数据形式上看,数据一般分为“非结构数据”和“结构化数据”两种。所谓非结构化数据,主要是自由文本,结构化数据有表单、数据库等等。
1.2. 信息检索与其他学科领域的关系
- 自然语言处理 (Natural Language Processing, NLP)
自然语言处理是一门对文本进行浅层、深层处理的学科(也称计算语言学) - 数据挖掘 (Data Mining, DM)
数据挖掘是对结构化和非结构化信息进行分类、聚类、预测等分析处理的学科 - 机器学习 (Machine Learning, ML)
机器学习是从数据中学习到知识或规律的学科
1.3. 信息检索技术的应用
信息检索可以用在:搜索(Google、百度)、智能问答(Siri、微软小冰等)、推荐(京东、淘宝)、数据挖掘、情报处理、舆情分析、内容安全等等领域
1.4. 信息检索的分类
- 个人信息检索
主要是个人相关信息的组织、整理、搜索等。主要应用有桌面搜索(Desktop Search)、个人信息管理(Personal Information Management, PIM)、个人数字记忆(Personal Digital Memory) - 企业级信息检索
主要是在企业内容文档的组织、管理、搜索等。企业级信息检索是内容管理(Content Management)的重要组成部分。包括局域网、内网搜索。 - Web信息检索
在超大规模数据集上的检索
2. 信息检索的现实需求
信息检索系统在近些年发展起来的根本原因是:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易。
- 搜索引擎已经成了不可或缺的工具,Yahoo、Google、Baidu等。
- 互联网五大盈利模式:(1)计算广告,搜索广告、展示类广告、开屏广告、视频流广告;(2)商品售卖如京东、淘宝;(3)虚拟产品如网课、地图API;(4)平台佣金,如美团、滴滴;(5)增值服务,如网盘等各类会员;(6)金融服务等,或多或少都依赖信息检索技术的支撑;
- 目前搜索引擎公司甚至整个互联网正常运转的计算广告的核心技术是信息检索技术;
- 用户(国家、企业、个人等)需要信息检索技术:互联网的不只是搜索引擎才需要信息检索技术,电子商务(如亚马逊网站、淘宝等)、社交网(微博、Facebook、twitter、校内网)、数字图书馆、大规模数据分析(金融证券行业等)、各类政务系统、商务系统等都需要信息检索技术;
3. 信息检索的工具
信息检索工具:
- SMART:向量空间模型的C工具;
- Lemur、Indri:包含各种信息检索模型的C++实验平台,可以直接对TREC语料进行处理;
- Terrier:格拉斯哥大学开发的信息检索Java实验平台,除基础IR模型外,还包含DFR模型;
- PyTerrier, Terrier的Python版本,整合了近期提出的基于BERT的排序模型;
- Anserini:标准语料实验工具,基于Python,强调“一键复现”。
深度学习工具
- TensorFlow: Google发布的深度学习开源工具平台;
- Theano:蒙特利尔大学开发的基于Python的深度学习工具;
- Keras:由Google工程师François Chollet将TensorFlow / Theano作为Backend的集成工具,近期微软也开发了Keras的Backend工具CNTK;
- Pytorch:Facebook发布的另一个基于Python的深度学习工具。
4. 重要检索工具平台
- Lucene:一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎;
- ElasticSearch:基于Lucene的搜索服务器,用Java开发,并作为Apache许可条款下的开放源码发布,是企业级搜索引擎;
- Sphinx:C++检索工具,实现了BM25概率模型,和MySQL集成较好;
- Xapian: C++检索工具,实现了BM25概率模型,易定制;
- Nutch:开源爬虫+Lucene;
- Larbin:C++采集工具;
- Mahout:分布式数据挖掘平台 Java。
现代信息检索——基本概念相关推荐
- 972信息检索 | 第一章 信息检索概述
文章目录 第一章 | 信息检索概述 信息检索基本概念 信息检索的含义 信息检索的种类 信息检索的原理 信息检索的历史 手工检索(1876-1945) 机械信息检索(1945-1954) 脱机批处理检索 ...
- 现代信息检索(原书第2版)
<现代信息检索(原书第2版)> 基本信息 原书名:Modern Information Retrieval:The Concepts and Technology behind Searc ...
- 【CIPS 2016】(11-12章)信息检索、信息推荐与过滤 (研究进展、现状趋势)
CIPS 2016 笔记整理 <中文信息处理发展报告(2016)>是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府.企业.媒体等对中文 信息处 ...
- 现代信息检索(Modern Information Retrieval)
当年好像看到过这门课程,现在还挺后悔没有选修啊,看内容的确应该很不错.赶紧把书买了,回来好好学习学习,希望不晚, 下面是课程相关网页http://ir.ict.ac.cn/ircourse/ 现代信息 ...
- 独家 | 一文读懂自然语言处理NLP(附学习资料)
前言 自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科.在此领域中探讨如何处理及运用自然语言. 对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起.基于统计的自然语 ...
- 53.大数据之旅——java分布式项目14-信息检索技术之Lucene,Solr
信息检索技术 概念介绍 全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法.全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统. 全文检索主要对非结构化数据的数据检索. ...
- 【自考一次过】《信息资源管理》第4章 信息系统资源内容管理
信息系统资源内容管理 ⛳️ 信息需求 概念 信息用户 特征 需求层次 类型 决策与信息需求 ⛳️ 信息源 ⛳️ 信息采集的原则(七原则) ⛳️ 信息采集方法(九种方法) ⛳️ 信息采集的途径 ⛳️ 信 ...
- 创新杯论文——面向中文专利信息的关系数据库检索优化策略研究及应用
面向中文专利信息的关系数据库检索优化策略研究及应用 目 录 1 引言... 3 2 中文专利信息检索优化概述... 4 2.1 中文信息检索的概念... 4 2.2 ...
- 第三章, 邮箱:老当益壮
这一章介绍一些具体的工具和技术来分析邮件--Internet上一类典型的数据,尽管社交网络的好处还需要几年才能显现--来如下的问题: 谁发送的邮件最多 存在一个在一天中的特定时间(或一周中的某一天)发 ...
- 机器学习及其在信息检索中的应用
机器学习及其在信息检索中的应用 --记李航研究员讲座 12月28号,我们迎来了新的一期"前沿研究讲座",本次讲座的主讲人是李航博士.李老师目前是微软亚洲研究院信息检索与挖掘组(I ...
最新文章
- 医疗行业的AI应用,要避免“垃圾进、垃圾出”
- 有关nginx location规则
- newman api
- Ajax Tutorials
- 使用 Jenkins 自动部署 java-web 应用到 Docker 容器(全过程)
- linux下获取占用CPU资源最多的10个进程,可以使用如下命令组合: ps aux|head -1;ps aux|grep -v PID|sort -rn -k +3|head linux下
- Java IO学习--(五)字节和字符数组
- 亲情可以冷酷到什么地步?大家有亲身经历的吗?
- xlwings,让excel飞起来!
- ffmpeg视频播放、格式转化、缩放等命令
- java的hbox,Java HBox.setPrefHeight方法代码示例
- 学习:java设计模式—Adapter模式
- 【高等数学】常用函数的n阶导数
- Unity中游戏的存档与读档
- matlab中numden函数,numden函数 MATLAB里面numden函数有什么用?
- 5.2 lilyglyphs包
- Informerd详解(2)与C#百度地图定位显示项目学习
- 腾讯企业邮箱发件接口返回Recipient address rejected: ERS-RBL.
- ​PNAS:alpha频率经颅电刺激调控大脑默认网络
- C# 关于默认打印纸张的设置