导语

内容提要

管新潮著的《语料库与Python应用/语料库翻译学文库》以如何在语料库的教与学及其应用、语料库科研中习得Python能力的逻辑关系为线索,描述了Python的价值、意义和作用,并将内容组合成可有效助力于Python能力习得的三个层次。第一层次是掌握与语料库相关的基础性代码;第二层次是活学活用这些基础性代码;第三层次是以创新方式运用这些代码去解决与语料库相关的较为复杂的问题。Python是语料文本处理的利器,需要在一定的理念指导下方可充分理解其在特定领域内所呈现的特征,而本书的首要目标就是帮助读者去运用这一“语言+技术”理念,其次才是Python技术本身。

本书的适用读者是那些设想从语料库中挖掘出更多信息的文科生、文科教师或相关的研究人员。

目录

第1章 绪论

1.1 语料库与Python

1.1.1 语料库的若干维度

1.1.2 语料库的技术实现

1.2 本书概要

上篇 语料文本的基础性代码

第2章 语料文本的读取及其运行结果的输出

2.1 概述

2.2 语料文本的读取

2.2.1 读取NLTK固有语料库

2.2.2 读取自制语料库

2.2.3 读取非独立存储的语料文本

2.2.4 读取docx格式的语料文本

2.2.5 读取xlsx格式的语料文本

2.3 语料文本运行结果的输出

2.3.1 操作界面直接输出结果

2.3.2 输出txt文件格式

2.3.3 输出xlsX文件格式

2.4 中文语料文本的读取和结果输出

2.4.1 自制语料库

2.4.2 非独立存储的语料文本

第3章 语料库应用的基础性代码

3.1 概述

3.2 停用词的使用

3.2.1 不同语种的停用词

3.2.2 自有停用词的设置

3.3 文本降噪代码

3.3.1 具体代码的功用

3.3.2 组合使用代码的功用

3.3.3 降噪与文本计数

3.4 语料文本的语言学处理代码

3.4.1 字母大小写转换

3.4.2 词形还原

3.4.3 文本分句或分词

3.4.4 词性标注

3.5 语料库词频排序

3.5.1 简单词频排序

3.5.2 降噪处理后词频排序

3.5.3 清除停用词后排序

3.6 语料库检索与统计

3.6.1 上下文关键词检索

3.6.2 类符形符比

3.6.3 N连词提取

3.6.4 指定词检索与统计

3.7 中文语料文本的处理方法

3.7.1 上下文关键词检索

3.7.2 中文停用词

第4章 数据可视化

4.1 概述

4.2 表格绘制

4.3 图形绘制

4.3.1 词频图形绘制

4.3.2 柱状图和点状图绘制

4.4 词云图绘制

4.4.1 英文文本词云图

4.4.2 中文文本词云图

第5章 代码运行错误分析

5.1 概述

5.2 错误分析案例

5.2.1 输入输出错误(10Error)

5.2.2 对象属性错误(AttributeError)

5.2.3 数据类型错误(TypeErrQr)

5.2.4 变量名称错误(NameError)

5.2.5 索引错误(IndexError)

5.2.6 缩进错误(IndentationError)

5.2.7 参数类型错误(ValueError)

5.2.8 语法错误(SyntaxError)

5.2.9 Unicode解码错误(UnicodeDecodeError)

5.2.10 关键字错误(KeyError)

中篇 基础性代码的组合使用

第6章 算法、代码与编程

6.1 篇章结构l

6.2 算法和代码

6.2.1 算法

6.2.2 代码

6.3 选择不同代码的影响

6.3.1 分词处理方式对后续文本分析的影响

6.3.2 不同的降噪效果

6.3.3 链表、字符串、元组和字典对比

6.3.4 停用词的功用

6.4 Python与既有语料库工具的关系

第7章 基础性代码的语料库组合应用

7.1 以Excel文件格式输出术语(类符)

7.1.1 简单输出术语

7.1.2 按词频输出术语

7.2 以Excel文件格式输出表格

7.3 语篇 词汇密度的计算

7.4 语篇 词汇复杂性的计算

7.5 语篇 词长分布的计算

7.6 NL,TK固有语料库

7.6.1 总统就职演说语料库

7.6.2 华尔街杂志语料库

7.6.3 其他相关语料库介绍

下篇 Python探索路径

第8章 Python的语料库拓展应用

8.1 概述

8.2 单语语料导入Excel工作簿

8.3 KWIC检索功能的拓展

8.4 语篇词形还原

8.5 术语提取效果的改进

8.6 语篇段落对齐

8.7 应用语言学文献计量研究的数据提取

8.8 专业通用词的提取路径探索

附录1 与本书相关的加载模块与函数命令对应表

附录2 Python2和Python3部分代码对比

附录3 部分NLTK固有语料库

附录4 汉英对照术语表

索引

语料库与python应用_语料库与Python应用/语料库翻译学文库相关推荐

  1. python 切片_全面解读Python高级特性切片

    大家好,欢迎来到Crossin的编程教室! 众所周知,我们可以通过索引值(或称下标)来查找序列类型(如字符串.列表.元组-)中的单个元素,那么,如果要获取一个索引区间的元素该怎么办呢? 切片(slic ...

  2. 学习python课程_想学习Python吗? 这是我们的免费4小时互动课程

    学习python课程 Python is a popular, versatile and easy-to-learn language. It's the go-to language for AI ...

  3. 2018年python薪资_最好的Python:2017和2018年至今我最喜欢的文章集

    2018年python薪资 我打算发布此收藏集 (My intention with publishing this collection) Last year I only used Medium ...

  4. python股市_如何使用python和破折号创建仪表板来主导股市

    python股市 始终关注大局 (Keep Your Eyes on the Big Picture) I've been fascinated with the stock market since ...

  5. 有趣的超短python代码_有趣的python精短程序

    python可以简单优美,也很有趣,下面是收集的例子: 1.一句话开始一个http的文件服务器: $ python -m SimpleHTTPServer Serving HTTP on 0.0.0. ...

  6. 少儿编程python教材_少儿编程|Python环境安装

    一.为什么要学Python? 小学 山东,浙江,北京地区小学已将Python内容纳入教材 高中 浙江省已将信息技术教材编程语言替换为Python 大学 计算机二级考试加入"Python 语言 ...

  7. 微软发布的python教程_微软发布Python 教程《Develop with Python on Windows》

    微软近日上线了一套 Python 教程<Develop with Python on Windows>,文档内容包括设置 Python 开发环境.在 Windows 与 WSL 子系统中安 ...

  8. python竞赛_浅谈Python在信息学竞赛中的运用及Python的基本用法

    浅谈Python在信息学竞赛中的运用及Python的基本用法 前言 众所周知,Python是一种非常实用的语言.但是由于其运算时的低效和解释型编译,在信息学竞赛中并不用于完成算法程序.但正如LRJ在& ...

  9. python程序_正确配置Python应用程序

    让我们来讨论一下如何配置Python应用程序,特别是那些可能存在于多个环境中的应用程序--开发环境.模拟环境.生产环境等等-- 应用程序中使用的工具和框架并不是特别重要,因为我将在下面概述的方法是基于 ...

最新文章

  1. IOS时间传递机制简记
  2. docker 系列之 配置阿里云镜像加速器
  3. python解决鸡兔同笼问题
  4. Windows 搭建 C/C++ 开发环境之Eclipse
  5. Pandas数据可视化工具:图表工具-Seaborn
  6. 9511王锋刘婧捐100万元,支持中国科大计算机学院
  7. mysql驱动profilesql_java连接mysql的驱动配置问题
  8. 线性代数【二】:矩阵的概念与计算
  9. 怎么把ide改成ahci_怎么将IDE硬盘改为AHCI模式
  10. 隐藏计算机关机键,关机快捷键有哪些?电脑Windows快捷关机最全方法图文详解
  11. 2021年阳江市高考成绩查询,阳江市召开2020年高考总结暨2021年新高考备考动员会...
  12. DNA非编码区突变,DNA外显子突变,DNA内含子突变的区别,什么是DNA突变,什么是基因突变
  13. Opencv入门第一课打开窗口
  14. 【Linux】详解linux中 Nginx 常见502错误问题解决办法
  15. C++ pair 和make_pair
  16. 湖南多校对抗赛(2015.03.28) H SG Value
  17. 【性能】tcmalloc 使用和原理
  18. security放行 spirng_Spring Security的核心拦截器
  19. HNUST OJ 2294 火柴棒等式3.0
  20. 【新功能】SAP Learning Hub部分电子书支持下载啦

热门文章

  1. SetWindowLong代码设置窗体borderStyle风格 TOOLWINDOW
  2. Ubuntu18.04截屏编辑工具flameshot
  3. 高通平台手机开发之Bring-up
  4. 使用 FUSE 开发自己的文件系统
  5. 從零開始學 ReactJS:最完整的 React 生態系入門教程
  6. Python 日期计算:计算某日期前几天,后几天的日期,也可以计算小时,分钟之后的日期时间
  7. 成人教育计算机教育论文,【计算机教育论文】成人计算机教育应把握原则(共3460字)...
  8. div和div之间画横线,如何在两个div之间画一条线?
  9. python语音开发库-各种 Python 库/模块/工具
  10. java 微信开发图片发送,微信开发?Java上传Base64图片