Atitit 自然语言处理(NLP)的应用 与 搜索引擎 目录 1.1. 搜索引擎并不是自然语言处理(NLP)的唯一应用。 2 1.2. NLP的应用 2 1.3. 社交网站信息流, 2 1.4.
Atitit 自然语言处理(NLP)的应用 与 搜索引擎
目录
1.1. 搜索引擎并不是自然语言处理(NLP)的唯一应用。 2
1.2. NLP的应用 2
1.3. 社交网站信息流, 2
1.4. 语音助手,诸如苹果 Siri。 3
1.5. 垃圾邮件程序,比如 Google 的垃圾邮件过滤程序 3
1.6. 机器翻译 3
1.7. Ocr 3
1.8. automated chat bots, 3
1.9. article summarizers, 3
1.10. multi-lingual translation 3
1.11. opinion identification from data 3
1.12. 文本相似(BM25) 3
2. Nlp常见功能 3
2.1. 词频统计 3
2.2. 分词 4
2.3. 同义词 反义词 4
2.4. NLTK词干提取单词词干提取就是从单词中去除词缀并返回词根。 4
2.5. 从文本中理解和提取重要信息 4
2.6. ,其主要任务包括语音识别和生成 4
2.7. 、文本分析、 4
2.8. 情感分析、机器翻译 4
2.9. 词云、情感分析和LDA主题建模。 4
2.10. 文本分类(Naive Bayes) 4
2.11. 转换成拼音(Trie树实现的最大匹配) 4
2.12. 繁体转简体(Trie树实现的最大匹配) 4
2.13. 提取文本关键词(TextRank算法) 5
2.14. 提取文本摘要(TextRank算法) 5
2.15. Tokenization(分割成句子) 5
2.16. text classification, 5
2.17. entity detection, 5
2.18. machine translation, 5
2.19. question answering, 5
2.20. concept identification. 5
3. 现在有许多开源的自然语言处理(NLP)库。比如: 5
4. Ref 6
- 搜索引擎并不是自然语言处理(NLP)的唯一应用。
有很多公司热衷收集所有这些数据,以便更好地了解他们的用户和用户对产品的热情,并对他们的产品或者服务进行合适的调整。
这些海量数据可以揭示很多现象,打个比方说,巴西人对产品 A 感到满意,而美国人却对产品 B 更感兴趣。通过NLP,这类的信息可以即时获得(即实时结果)。例如,搜索引擎正是一种 NLP,可以在正确的时间给合适的人提供适当的结果。
但是搜索引擎并不是自然语言处理(NLP)的唯一应用。还有更好更加精彩的应
- NLP的应用
以下都是自然语言处理(NLP)的一些成功应用:
- 搜索引擎,比如谷歌,雅虎等等。谷歌等搜索引擎会通过NLP了解到你是一个科技发烧友,所以它会返回科技相关的结果。
- 社交网站信息流,
- 比如 Facebook 的信息流。新闻馈送算法通过自然语言处理了解到你的兴趣,并向你展示相关的广告以及消息,而不是一些无关的信息。
- 语音助手,诸如苹果 Siri。
- 垃圾邮件程序,比如 Google 的垃圾邮件过滤程序
- ,这不仅仅是通常会用到的普通的垃圾邮件过滤,现在,垃圾邮件过滤器会对电子邮件的内容进行分析,看看该邮件是否是垃圾邮件。
- 机器翻译
- Ocr
- automated chat bots,
- article summarizers,
- multi-lingual translation
- opinion identification from data
- 文本相似(BM25)
- Nlp常见功能
- 词频统计
- 分词
正如所料,Mr. 是一个词,也确实被 NLTK 当做一个词。NLTK使用 nltk.tokenize.punkt module 中的 PunktSentenceTokenizer 进行文本分词。这个标记器经过了良好的训练,可以对多种语言进行分词
- 同义词 反义词
- NLTK词干提取单词词干提取就是从单词中去除词缀并返回词根。
(比方说 working 的词干是 work。)搜索引擎在索引页面的时候使用这种技术,所以很多人通过同一个单词的不同形式进行搜索,返回的都是相同的,有关这个词干的页面。
词干提取的算法有很多,但最常用的算法是 Porter 提取算法。NLTK 有一个 PorterStemmer 类,使用的就是 Porter 提取算法。
- 从文本中理解和提取重要信息
- ,其主要任务包括语音识别和生成
- 、文本分析、
- 情感分析、机器翻译
- 词云、情感分析和LDA主题建模。
- 文本分类(Naive Bayes)
- 转换成拼音(Trie树实现的最大匹配)
- 繁体转简体(Trie树实现的最大匹配)
- 提取文本关键词(TextRank算法)
- 提取文本摘要(TextRank算法)
- Tokenization(分割成句子)
NLP 的任务包括
- text classification,
- entity detection,
- machine translation,
- question answering,
- concept identification.
- 现在有许多开源的自然语言处理(NLP)库。比如:
- Natural language toolkit (NLTK)
- Apache OpenNLP
NLTK 也很容易入门,实际上,它将是你用到的最简单的自然语言处理(NLP)库
另外, jieba分词提供的基于TextRank的关键词提取工具。 snownlp也实现了关键词提取和摘要生成。
- Ref
(9+条消息)Python NLTK 自然语言处理入门与例程 - hzp666的博客 - CSDN博客.html
Atitit 自然语言处理(NLP)的应用 与 搜索引擎 目录 1.1. 搜索引擎并不是自然语言处理(NLP)的唯一应用。 2 1.2. NLP的应用 2 1.3. 社交网站信息流, 2 1.4.相关推荐
- NLP能否像人脑一样工作?CMU、MIT三篇论文详解机器和大脑范畴下NLP的关系
本文转载自公众号机器之心 作为计算机科学领域与人工智能领域的重要研究课题,自然语言处理已经在各领域展开了广泛的研究与探讨.随着研究的深入,一些学者开始探讨机器中的自然语言处理和大脑中的自然语言处理是否 ...
- 如何在NLP领域做成一件事by周明ACL计算语言学会候任主席(附PDF公号发“NLP做事”下载rar讲座PPT等10文件)...
如何在NLP领域做成一件事by周明ACL计算语言学会候任主席(附PDF公号发"NLP做事"下载rar讲座PPT等10文件) 周明ACL候任主席 数据简化DataSimp 今天 数据 ...
- 如何在NLP领域做成一件事by周明ACL计算语言学会候任主席(附PDF公号发“NLP做事”下载rar讲座PPT等10文件)
如何在NLP领域做成一件事by周明ACL计算语言学会候任主席(附PDF公号发"NLP做事"下载rar讲座PPT等10文件) 周明ACL候任主席 数据简化DataSimp 今天 数据 ...
- 搜索引擎登录工具_“搜索引擎营销”有多重要!你知道吗?
搜索引擎营销 搜索引擎营销分两种:SEO与PPC/SEO即搜索引擎优化,是通过对网站结 构(内部链接结构.网站物理结构.网站逻辑结构).高质量的网站主题内容.丰富而有价值的相关性外部链接进行优化而使网 ...
- Atitit db analysis statistics tonjyi fsy数据库统计分析目录1. Atitit 数据库表与注释文档与统计(表,说明) 11.1. 获取表列表 数据库包含哪些
Atitit db analysis statistics tonjyi fsy数据库统计分析 目录 1. Atitit 数据库表与注释文档与统计(表,说明) 1 1.1. 获取表列表 数据库包 ...
- seo搜索引擎优化,seo搜索引擎优化名词解释
什么是SEO什么是搜索引擎优化 SEO是SearchEngineOptimization)翻译为搜索引擎优化.搜索引擎优化(SearchEngineOptimization,简称SEO)是一种利用搜索 ...
- 搜索引擎发展趋势:对SNS社交网站的收录
谷歌推出新算法为google+铺路 11月3日,谷歌宣布对搜索引擎算法进行重大升级,推出了名为"freshnessalgorithm"的新算法.这次的算法加入了对时间因素的考量,提 ...
- 如何高效实现搜索引擎爬虫进行数据挖掘-搜索引擎爬虫(SERP)集成测试与分享
身处大数据时代中,我们面对海量的互联网数据,如何自动高效地获取感兴趣的信息并为我们所用是一个非常重要的问题,以下就针对这个重要的搜索引擎爬虫问题来做一个技术分享. 什么是SERP和搜索引擎爬虫:搜索引 ...
- 搜索引擎简介及常见搜索引擎介绍
搜索引擎是在互联网上访问的软件,它根据用户的查询搜索信息数据库.该引擎提供与用户尝试查找的内容最匹配的结果列表.今天,互联网上有许多不同的搜索引擎,每个引擎都有自己的能力和特点.有史以来开发的第一个搜 ...
- python搜索引擎 django_Django之whoosh搜索引擎
一:搜索引擎简介 一:搜索引擎介绍 django是python语言后台web开发的一个框架,配合一些插件可为web网站实现很方便的搜索功能 django搜索引擎使用whoosh是一个纯python开发 ...
最新文章
- 300 Longest Increasing Subsequence
- poj 1085 Triangle War 博弈论+记忆化搜索
- 算法笔记_028:字符串转换成整数(Java)
- linux命令fdisk,Linux fdisk 命令使用详解
- 【C语言】第八章 地址操作与指针 题解
- linux shell脚本举例,Shell脚本去重的几种方法实例
- SQL Server数据库指标
- Python--day26--封装和@property
- JAVA三大器之拦截器
- win7 64位系统HP LaserJet P1008 / HP LaserJet P1008 P1007 驱动安装成功,但无法打印的原因...
- 【ANSYS命令流】结构分析单元与材料模型
- 分页控件AspNetPager的用法
- unity android录制视频教程,Unity3d 录屏功能教程指南 | Cross Platform Replay Kit
- IDEA中Tomcat重新加载的几种方式
- 将CSDN文章内容转成PDF文件使用教程
- 使用expdp和impdp导出导入本地oracle数据.dmp文件
- 苏宁2021“轻装上阵”,张近东:聚焦零售优势业务,增利减亏
- c语言程序设计教程这本书,C语言程序设计教程资料(20201209225632).pdf
- 网页调用腾讯qq在线客服
- JDK17的安装教程
热门文章
- 网页英文 错位_网页错位原因解决方法
- linux的yum命令无法使用在哪里下载_Centos Linux下载rpm软件包(基础环境篇)-从零到无 - 飞翔的小胖猪...
- kdd数据集_learning from imbalanced data sets—第一章——KDD与数据科学概述
- js对象合并属性_深入 JS 对象属性
- linux安装qt_Ubuntu Qt 安装教程--快速下载连接(网盘)
- 想听懂用户的声音,至少得先学会数据分析吧
- fedora 23 vlc 以root运行的方法
- 3DSmax里的nurms toggle命令中文版是什么意思
- apache安装步骤(redhat)
- SQL Server触发器更新原理