NLTK包和语料库的准备

import pandas as pd
raw = pd.read_table('../data/金庸-射雕英雄传txt精校版.txt', names=['txt'], encoding="GBK")
print(len(raw))
raw

#  章节判断用变量预处理
def m_head(tmpstr):return tmpstr[:1]def m_mid(tmpstr):return tmpstr.find("回 ")raw['head'] = raw.txt.apply(m_head)
raw['mid'] = raw.txt.apply(m_mid)
raw['len'] = raw.txt.apply(len)
raw.head(50)

#  章节判断
chapnum = 0
for i in range(len(raw)):if raw['head'][i] == "第" and raw['mid'][i] > 0 and raw['len'][i] < 30:chapnum += 1if chapnum >= 40 and raw['txt'][i] == "附录一:成吉思汗家族":chapnum = 0raw.loc[i, 'chap'] = chapnumraw.head(50)

#  删除临时变量
del raw['head']
del raw['mid']
del raw['len']
raw.head(50)

rawgrp = raw.groupby('chap')
chapter = rawgrp.agg(sum)  # 只有字符串的情况下,sum函数自动转为合并字符串
chapter = chapter[chapter.index != 0]
chapter

NLTK包和语料库的准备相关推荐

  1. Py之nltk:nltk包的简介、安装、使用方法、代码实现之详细攻略

    Py之nltk:nltk包的简介.安装.使用方法.代码实现之详细攻略 目录 nltk包的简介 nltk包的安装 nltk包的使用方法 nltk包的代码实现 nltk包的简介 NLTK is a lea ...

  2. nltk包下载慢的解决方案(总结)

    nltk是常用的自然语言工具包,但是由于默认的服务器是基于https的,很难连接.在下载nltk包的尤其是使用nltk.download()图像化界面的时候,经常会碰到无法连接的情况,或者连接很慢.下 ...

  3. nltk安装,语料库nltk下载

    安装了anaconda,已经自带安装了nltk包,但是并没有安装nltk_data语料库,所以只有了算法,没有素材 nltk.download()下载连接不上或者网速太慢,用云盘下载zip到C盘: 链 ...

  4. python ai语义分析_易百教程人工智能python补充-NLTK包

    自然语言处理(NLP)是指使用诸如英语之类的自然语言与智能系统进行通信的AI方法. 如果您希望智能系统(如机器人)按照您的指示执行操作,希望听取基于对话的临床专家系统的决策时,则需要处理自然语言. N ...

  5. Python nltk包

    注意:新手在使用nltk的时候,要记得下载对应的处理包,并放到指定目录下面 nltk 什么是nltk? 本文 nltk.__version__ == 3.5 install nltk pip3 ins ...

  6. nltk安装punkt等语料库时报SSL错误完美解决方案及离线安装方法

    nltk是NLP领域中一个比较通用的国际分词工具,但是使用时往往依赖语料库数据包,需要安装到本地,以下介绍在线安装和离线安装两种方式: (ps:对NLP感兴趣的朋友可以相互学习,我的微信号:Joney ...

  7. nltk安装出错,nltk_data语料库下载

    首先,安装nltk要有nltk库和nltk数据包,下载方法网上也很全面.但本文是在在使用nltk中的语料库omw-1.4(主要用于词性还原),无法找到对应文件. 环境: pycharm 3.1 Ana ...

  8. 基于python的语料库数据处理电子版_基于 Python 自然语言处理工具包在语料库研究中的运用...

    基于 Python 自然语言处理工具包在语料库研究中的运用 刘 旭 [摘 要] 摘要:国内当前以语料库为基础的研究,在研究工具方面,多以 AntConc . PowerGREP 为主,使用 Pytho ...

  9. montypython买火柴_python nltk 笔记(持续更新)

    1 基础对象与方法 1.1 nltk.text.Text >>> from nltk.book import * *** Introductory Examples for the ...

最新文章

  1. Matlab大气湍流退化模型
  2. ORACLE中高效SQL的写法
  3. python任务调度框架_Python任务调度模块APScheduler
  4. TextView 显示图像+文字的方法
  5. 【LeetCode笔记】437. 路径总和III(Java、双重递归、二叉树)
  6. Linux start-kernel
  7. report 和report on的区别
  8. Windows 修改注册表实现键位修改
  9. linux 锐捷 自动,Linux 锐捷自动交互认证
  10. 详细理解JS的三座大山
  11. 【GPT4】微软 GPT-4 测试报告(1)总体介绍
  12. Android开发之监听或获取手机短信内容
  13. 在法国读计算机研究生的日子开始了
  14. pillow之new和paste
  15. 【转】翻译中的黄金词组
  16. 使用 Amazon SES API 发送原始电子邮件
  17. Python3.9全部73个内置函数说明
  18. css 首字下次,css first-letter实现首字(字母)下沉效果
  19. 微项目:名片管理系统
  20. 讲座“计算机与手机导购”

热门文章

  1. 第五届全国大学生计算机系统能力培养大赛 | 赠书
  2. 为什么铺天盖地都是Python的广告?
  3. 深度残差收缩网络:借助注意力机制实现特征的软阈值化
  4. Python之父退休,C语言之父与世长辞,各大编程语言创始人现状盘点
  5. 专访NIPS主席:如何保证论⽂评审的公平性?| 人物志
  6. 一键fxxk,代码修复神器拯救你
  7. 迈吉客受邀参加《创意中国》, 85%超高支持率晋级年度盛典
  8. 关于Redis缓存,这3个问题一定要知道!
  9. SpringBoot集成Quartz实现定时任务的动态创建、启动、暂停、恢复、删除。
  10. delete后加 limit是个好习惯么 !