先来介绍一下相关的python基础:
list:list是python中最基础的数据结构相对于其他语言中的数组:
例子:

>>>list=[1,2,3,4]
>>>print (list)

结果:

python是一种解释性语言,会在对其计算的同时检查其中的变量类型,我们在声明这些变量时无需对其进行初始化和类型声明,但在这里list中的包含一些整数对象,不能直接关联到print上,后者只能接受String类型的对象,所以要将列表元素转换为String类型。
例子:

>>>print('First element:'+str(list[0]))
>>>print('Last element:'+str(list[-1]))
>>>print('First three element:'+str(list[0:2]))
>>>print(‘Last three element:’+str(list[-3:0]))

结果:

First element:1
Last element:4
First element:1,2,3
Last element:2,3,4

常见的对字符串操作的函数:
split():一个能基于默写分隔符来对于字符串进行切割的方法。如果你没有为其提供具体参数则默认空格为其分隔符。

>>>mystring="Monty Python! And the holy Grail !\n"
>>>print (mystring.split())

结果:

['Monty', 'Python!', 'And', 'the', 'holy', 'Grail', '!']

strip():一个可以从字符串中删除其尾随空白符(如‘n’,'nr')的方法
例子:

>>> print(mystring.strip())
Monty Python! And the holy Grail !

通过rstrip()和lstrip()可以选择剥离字符串左边还是右边尾部的空白符
upper()/lower():可以用来改变字符串中字母的大小写
例子

>>> print(mystring.upper())
MONTY PYTHON! AND THE HOLY GRAIL !

replace()可以替换目标字符串中的某个子串
例子:

>>> print(mystring.replace('!',','))
Monty Python, And the holy Grail ,

在NLP中正则表达式是另一个非常重要的技能。正则表达式(regular expression)能对字符串进行有效地匹配的模式,能从大量凌乱的文本数据中提取出有意义的信息。
正则表达式一般有:
(句号):用于匹配除换行字符外的任意单字符。
w:用于匹配某一字符或者数字,相当于[a-z A-Z 0-9]
W:用于匹配任意非单词性字符
s:用于匹配任意单个空白字符,包括换行,返回制表等,相当于[nrt]
S:用于匹配单个任意非空白字符。’
t:用于匹配制表符。
n:用于匹配换行符。
r:用于匹配返回符。
d:用于匹配十进制数字。
^:用于匹配相关字符的开始位置。
$:用于匹配先关字符串结尾位置。
:用于低效特殊字符的特殊性。如要匹配$符号,则在前面加上.
下面是一个使用字符串的子串搜索模块re来查找字符对象的例子。

import re
mystring="Monty Python! And the holy Grail !\n"
if re.search('Python' ,mystring):print("we found Python")
else:print("No")

结果:

We found Python

findall()是一个用于对字符串进行全部模式查找的函数。他会按照给定模式对字符串进行查找,并列出其中所有匹配的对象:

import re
mystring="Monty Python! And the holy Grail !\n"
print(re.findall("!",mystring))

结果:

['!', '!']

findall()返回两个对象的列表。

NLTK基础教程学习笔记(一)相关推荐

  1. NLTK基础教程学习笔记(二)

    Python基础: 字典(dictionary)也是最常用到的一种数据结构.在其他语言中被称为关联数组/存储.字典是一种键值索引型的数据结构,其索引键可以是一种不可变的类型,例如字符串和数字常被用来充 ...

  2. linux磁盘符变化autofs,Linux基础教程学习笔记之Autofs自动挂载

    Linux基础教程学习笔记之Autofs自动挂载 Autofs自动挂载: yum -y install autofs vim /etc/auto.master  在文件中添加下面行 /home/gue ...

  3. 网络存储 linux 访问,Linux基础教程学习笔记28——使用Samba访问网络存储

    Linux基础教程学习笔记28--使用Samba访问网络存储 SMB用于Windows和类Linux系统直接的文件共享 安装samba client包: [root@linuxidc~]# yum i ...

  4. 黑马程序员最新版JavaWeb基础教程-学习笔记

    da@黑马程序员最新版JavaWeb基础教程-学习笔记 day06-HTML&CSS HTML HTML(HyperTest Markup Language):超文本标记语言 是一门语言,所有 ...

  5. Python基础教程学习笔记:第一章 基础知识

    Python基础教程 第二版 学习笔记 1.python的每一个语句的后面可以添加分号也可以不添加分号:在一行有多条语句的时候,必须使用分号加以区分 2.查看Python版本号,在Dos窗口中输入&q ...

  6. 【莫烦Python】Python 基础教程——学习笔记

    文章目录 本笔记基于p1-p29[莫烦Python]Python 基础教程 大家可以根据代码内容和注释进行学习. 安装 我的:python3.8+anaconda+VS code print() pr ...

  7. Learn the object-c on MAC(中译本: Object-C 基础教程 ) 学习笔记

    [comments to this book]Object-C 基础教程 这本书翻译的水平很高,浅显易懂. 隐藏的self. 在使用instance method的时候,self会隐含的指向接收消息的 ...

  8. 二十一世纪大学英语读写基础教程学习笔记(原文)——5 - Shipwrecked in Antarctica(沉船南极洲)

    Unit 5 - Shipwrecked in Antarctica(沉船南极洲) Ernest Shackleton made many great achievements in his life ...

  9. 二十一世纪大学英语读写基础教程学习笔记(原文)——10 - The Future(未来)

    Unit 10 - The Future(未来) What will our future be like? What might happen in the year 2144? How far c ...

最新文章

  1. 2022-2028年中国异戊二烯橡胶产业竞争现状及发展规模预测报告
  2. LeetCode-动态规划背包题-1049. 最后一块石头的重量 II
  3. envoy重试_具有Envoy代理的微服务模式,第二部分:超时和重试
  4. 用Emit技术替代反射
  5. 修改Extmail和Extman的源代码增加公司部门和中文名字段
  6. pyinstaller安装_如何打包Python Web项目,实现免安装一键启动?
  7. 重磅 | Windows 10内部版本及核心源代码泄露,一共32TB
  8. MySQL基础教程5-数据库基础回顾
  9. 《Linux程序设计》第4版 核心笔记
  10. 阿里云负载均衡SLB简介
  11. java文字淡入淡出显示特效,jQuery超酷文字淡入淡出显示特效
  12. 前鹅厂面试官亲手整理出的高频必问软件测试基础面试题(1)!!!
  13. 电子商务计算机和英语作文,电子商务的优缺点英语作文_电子商务英语作文
  14. 感谢同事的临别赠言,愿自己一路顺风
  15. Linux中使用sendmail发送邮件,指定任意邮件发送人
  16. [RK3568 Android11] 开发之开发者选项中添加USB OTG模式切换(一)
  17. 关于安装了非正版Office软件(原电脑有正版)后不能使用原正版office解决方法!!!
  18. java spark 主成分分析算法(pca)
  19. 龙芯开始支持主流开发栈: Java, .Net以及NodeJS
  20. AES加密解密(含python解析工具)

热门文章

  1. MySQL笔记1:考察内链接、左连接、右连接。
  2. 计算机系统的储存器结构
  3. 小公司如何提高效率?
  4. STM32中I2C总线上数据的读、写。
  5. 如何选择最佳技术来加速文件传输!
  6. 为什么你不该用Timer
  7. 爱数的诗和远方:云端数据运营服务
  8. SQL Server 2008, 2008 R2, 2012 and 2014 完全支持TLS1.2加密传输
  9. 作为程序员我给csdn博客添加打赏功能
  10. 图解Android - 如何看Android的UML 图?