自然语言处理(NLP)

Siri工作流程: 1. 听 2. 懂 3.思考 4. 组织语言 5.回答

  1. 语音识别
  2. 自然语言处理 - 语义分析
  3. 业务逻辑分析 - 结合场景 上下文
  4. 自然语言处理 - 分析结果生成自然语言文本
  5. 语音合成

自然语言处理

自然语言处理的常用处理过程:

先针对训练文本进行分词处理(词干提取, 原型提取), 统计词频, 通过词频-逆文档频率算法获得该词对整个样本语义的贡献, 根据每个词对语义的贡献力度, 构建有监督分类学习模型. 把测试样本交给模型处理, 得到测试样本的语义类别.

自然语言处理工具包 - nltk

文本分词

import nltk.tokenize as tk
# 把一段文本拆分句子
sent_list = tk.sent_tokenize(text)
# 把一句话拆分单词
word_list = tk.word_tokenize(sent)
# 通过文字标点分词器 拆分单词
punctTokenizer = tk.WordPunctTokenizer()
word_list = punctTokenizer.tokenize(text)
"""
demo02_tokenize.py  分词器
"""
import nltk.tokenize as tk
import nltk
doc = "Are you curious about tokenization? \Let's see how it works! \We neek to analyze a couple of sentences \with punctuations to see it in action."
# print(doc)nltk.download('punkt')
sent_list = tk.sent_tokenize(doc)
for i, sent in enumerate(sent_list):print('%2d' % (i+1), sent) word_list = tk.word_tokenize(doc)
for i, word in enumerate(word_list):print('%2d' % (i+1), word) tokenizer = tk.WordPunctTokenizer()
word_list = tokenizer.tokenize(doc)
for i, word in enumerate(word_list):print('%2d' % (i+1), word)

下面是分词器实现的分词效果:

1 Are you curious about tokenization?2 Let's see how it works!3 We neek to analyze a couple of sentences     with punctuations to see it in action.1 Are2 you3 curious4 about5 tokenization6 ?7 Let8 's9 see
10 how
11 it
12 works
13 !
14 We
15 neek
16 to
17 analyze
18 a
19 couple
20 of
21 sentences
22 with
23 punctuations
24 to
25 see
26 it
27 in
28 action
29 .1 Are2 you3 curious4 about5 tokenization6 ?7 Let8 '9 s
10 see
11 how
12 it
13 works
14 !
15 We
16 neek
17 to
18 analyze
19 a
20 couple
21 of
22 sentences
23 with
24 punctuations
25 to
26 see
27 it
28 in
29 action
30 .

python实现自然语言处理之文本分词相关推荐

  1. python提取高频词_seo与python大数据结合给文本分词并提取高频词

    最近研究seo和python如何结合,参考网上的一些资料,写的这个程序. 目的:分析某个行业(例如:圆柱模板)用户最关心的一些词,根据需求去自动调整TDK,以及栏目,内容页的规划 使用方法: 1.下载 ...

  2. python与自然语言处理 2结巴分词

    特点 1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析:      b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义:      c,搜索引 ...

  3. python jieba词频统计英文文本_python实战,中文自然语言处理,应用jieba库来统计文本词频...

    模块介绍 安装:pip install jieba 即可 jieba库,主要用于中文文本内容的分词,它有3种分词方法: 1. 精确模式, 试图将句子最精确地切开,适合文本分析: 2. 全模式,把句子中 ...

  4. 自然语言处理NLP中文分词,词性标注,关键词提取和文本摘要

    NLP相关工具包的介绍 1.1 jieba "结巴"中文分词,理念是做最好的 Python 中文分词组件. 支持三种分词模式: (1)精确模式,试图将句子最精确地切开,适合文本分析 ...

  5. 自然语言处理之中文分词(基于Python)

    人生苦短,我用python 除了给你生孩子,python都能给你做到. 这句话所言不假,python拥有丰富的库,能完成各种各样的的功能. 只有你想不到的,没有python做不到的.下面我们来看看py ...

  6. 【自然语言处理与文本分析】中文分词的基本原理,如何进行词性标注 使用HMM算法提高准确率

    分词(中文) 本次内容 分词: N-Gram vs.中文分词 分词的难点 法则式分词 统计式分词 词性标注: 词性标注简介 词性标注的难点 词性的种类及意义 保留某些词性的词 分词: N-Gram v ...

  7. 利用python对一段英文文本进行分词,分句

    这两天一直在学习用python进行自然语言处理这本书,当然开始的开始就是要学习python这门脚本语言,遇到了利用自己的语言对一段英文文本进行分词这个问题,找了好多资料都没有找到具体的解答,自己修修改 ...

  8. python 利用jieba读取txt文本进行分词后存入新txt

    python 利用jieba读取txt文本进行分词后存入新txt import jieba txt = open("news.txt",encoding='UTF-8').read ...

  9. 《用Python进行自然语言处理》第3章 加工原料文本

    1. 我们怎样才能编写程序访问本地和网络上的文件,从而获得无限的语言材料? 2. 我们如何把文档分割成单独的词和标点符号,这样我们就可以开始像前面章节中在文本语料上做的那样的分析? 3. 我们怎样编程 ...

最新文章

  1. 使用putty远程linux服务
  2. 500 - Internal server error.
  3. C/C++ 踩过的坑和防御式编程
  4. Qt Creator使用帮助模式
  5. AdaBoost 和 Real Adaboost 总结
  6. SparkSQL之External Data
  7. LED音乐频谱之点阵
  8. 伴鱼:借助 Flink 完成机器学习特征系统的升级
  9. 过拟合解决方法python_欠拟合、过拟合及其解决方法
  10. [Oracle]GoldenGate官方文档
  11. Leetcode 147 Insertion Sort List
  12. 文件上传之IIS6.0解析漏洞
  13. JAVA 滑块拼图验证码
  14. datavideo切换台说明书_datavideo洋铭 SE-650 HD4通道切换台,高清导播切换台
  15. CCF SCI JCR 中科院分区 会议期刊等级总结
  16. 破解Windows系统密码---利用PE系统破解
  17. Word to PDF Converter v3.0 算法分析及注册机
  18. 软件c#语言调用摄像头,C#中如何使用AForge实现摄像头录像功能
  19. Android--DES加密解密
  20. 刺客信条奥德赛ce修改技能点_刺客信条奥德赛特长加点

热门文章

  1. Unity3D中实现人物的第一人称视角
  2. 推荐一款很好的全平台电子书软件:StartReader
  3. springboot 04 jsr303验证
  4. IDEA中如何使用Vim?看完本教程,让你用IDEA用到爽~(建议收藏)
  5. 字符串输出后面有乱码
  6. Moloch 数据常用字段解析(持续更新)
  7. [USB 启动盘_1]-支持 BIOS/UEFI 启动的个人常用必备 PE 系统启动盘制作工具 —— 电脑店装机维护工具套装以及全网最详细的 U 盘启动方式详解
  8. 如何理解线性判别分类器(LDA)?
  9. Hystrix断路器原理及实现(服务降级、熔断、限流)
  10. abb机械手故障代码20082_ABB工业机器人常见的故障和如何处理这些故障的详细