统计“3_人民日报语料”文本中的字符数和词数,把文件分别保存为 ansi, UTF8,UTF16,unicode 格式;

首先,统计文件的字符数,有两种方法。第一种是将文件复制到word中,word自动统计;第二种是在python中,将文本内容读取到字符串中,去除换行符和空格,字符串的长度就是字符的数目。然后统计文件中的单词数目,因为所给文件已经做好了分词处理,因此将文本读取到字符串中,用python中的split()函数将字符串转换成list,这样list的长度就是单词的数目。最后要做的是将文件转换成不同的编码,可以采用记事本、notepad++、sublime text等软件进行处理。

1.统计“3_人民日报语料”文本中的字符数

方法一:将文字复制到word文档中,word自动统计文本字符数:

方法二 python处理

#coding=utf-8
try:file_read = open("3.txt","r") #打开人民日报语料s = file_read.read().decode("UTF-8-SIG") #将文件读取到变量s中,并将其转换为unicode编码s = s.replace('\n', '') #除去其中的换行符s = s.replace('\r', '') #除去其中的换行符s = s.replace(" ", '') #除去其中的空格file_read.close() #关闭文件print "The total number of characters is "+str(len(s)) #输出结果 字符串s的长度就是总共的字符数
except Exception, e:print e.message

2.统计“3_人民日报语料”文本中的词数

python处理
#coding=utf-8
try:file_read = open('3.txt')     #打开文件s = file_read.read().decode("UTF-8-SIG")  #读取文件s = s.split()#因为语料已经做好了分词,所以只需split()即可print "Total number of words is "+str(len(s))  #list  s 的长度就是字数
except Exception, e:print e.message

3.把文件分别保存为 ansi, UTF8,UTF16,unicode 格式;

(1)UTF16或UTF8

sublime

(2)ansi或utf8

notepad++

(3)unicode或ansi或utf8

记事本

(4)UTF16

python

#coding=utf-8
import codecs
import chardet
file_name = '3.txt'
file_utf_16_name = '3_utf_16.txt'
try:file_read = open(file_name)   #打开文件file_utf_16 = codecs.open(file_utf_16_name, mode='w', encoding='utf-16') #创建要写入UTF-16编码的文件,此处要调用codecs包text = file_read.read()      #读取文件内容file_utf_16.write(text.decode("UTF-8-SIG")) #将转换成unicode的内容写入文件file_read.close()    #关闭文件file_utf_16.close()  #关闭文件fs = open(file_utf_16_name, 'r')check = chardet.detect(fs.read())  #以上两行是对utf-16编码的文件的验证print 'the encoding of '+file_utf_16_name+' is ' + check.get('encoding') #输出结果
except Exception, e:print e.message

统计“3_人民日报语料”文本中的字符数和词数,把文件分别保存为 ansi, UTF8,UTF16,unicode 格式相关推荐

  1. android信息中字符个数,在android中指定编辑文本中的字符数

    Jayabal.. 10 使用以下xml属性设置允许的最大字符数和数字 android:digits android:maxLength 例如: android:id="@+id/et_na ...

  2. python读word文档计算字数,Python 实现word count 简单计算源代码中的字符数、词数、行数。...

    1.PSP PSP2.1 PSP阶段 预估耗时 (分钟) 实际耗时 (分钟) Planning 计划 20 30 · Estimate · 估计这个任务需要多少时间 20 30 Development ...

  3. 在“3_人民日报语料”中统计“日语借词”的词频;

    3. 在"3_人民日报语料"中统计"日语借词"的词频; pyhton方法 # -*- coding: utf-8 -*- import json japanes ...

  4. 去掉“3_人民日报语料”中每行前边的数字编号,改成“1, 2,......”

    2. 去掉"3_人民日报语料"中每行前边的数字编号,改成"1, 2,......" pyhton处理 #coding=utf-8 index = 19 file ...

  5. 解析统计文本文件中的字符数、单词数、行数。

    用android 编程解析统计文本文件中的字符数.单词数.行数(作业) 主要代码 ... private void analysis() { String str = " "; i ...

  6. python excel处理重复行并统计个数_python统计一个文本中重复行数的方法

    python统计一个文本中重复行数的方法 这篇文章主要介绍了python统计一个文本中重复行数的方法,涉及针对Python中dict对象的使用及相关本文的操作,具有一定的借鉴价值,需要的朋友可以参考下 ...

  7. python统计重复的数_python统计一个文本中重复行数的方法

    本文实例讲述了python统计一个文本中重复行数的方法.分享给大家供大家参考.具体实现方法如下: 比如有下面一个文件 2 3 1 2 我们期望得到 2,2 3,1 1,1 解决问题的思路: 出现的文本 ...

  8. 【C语言】(错题整理) 寻找完数、字符串中各类字符数的统计、最大公约数和最小公倍数、回文数计算 (循环、函数相关内容)

    目录 一.循环 1.寻找完数(计算因子例题) 2.字符串中各类字符数的统计 3.最大公约数和最小公倍数 求最大公约数: 最小公倍数:最小公倍数=两整数的乘积÷最大公约数 二.函数 1.回文数计算 本篇 ...

  9. 第4关:字符串中各类字符数的统计-------C语言程序设计技术(循环结构程序设计1)

    第4关:字符串中各类字符数的统计-------C语言程序设计技术(循环结构程序设计1) #include<stdio.h>int main(void){ /*********Begin** ...

最新文章

  1. Redis和Memcache的区别是什么
  2. 人工智能语音技术支持“多情感程度”调节,细腻演绎“人声”
  3. GHDDI | 新冠药物门户网站
  4. python 颜色空间转换_python实现色彩空间转换
  5. try catch用法_synchronized用法总结
  6. 2020 华为杯 数模 B题 数据挖掘
  7. python初始化方法对应的变量是全局变量嘛_在Python中初始化全局变量的正确方法...
  8. 【BZOJ2813】奇妙的Fibonacci
  9. unity 随机数_Unity 雨水滴到屏幕效果
  10. 最新emoji表情代码大全_如何给微信公众号菜单添加emoji(亲测有效)
  11. 2020年了,Windows Me还能用吗?
  12. 卓越的社会化营销人的6个习惯
  13. selenium不定位元素直接操作键盘之Keys.CONTROL
  14. wangEditor 粘贴从 word 复制的带图片内容的最佳实践
  15. TMS320F28335与10位数模转换器TLC5615的SPI通讯问题1(DAC数模转换原理篇)
  16. CorelDraw论坛cdr2022V24.0.0301简体中文包
  17. 大厂面试:一个四年多经验程序员的BAT面经(字节、阿里、腾讯)
  18. 百度ueditor上传图片时如何设置默认宽高度
  19. DVD转VCD,MPG文件参考
  20. spring-scop (单例模式?)

热门文章

  1. pytorch torch.norm(input, p=2) → float、torch.norm(input, p, dim, out=None) → Tensor(求范数)
  2. 【哲学】不可知论是什么?agnosticism
  3. 为什么csdn搜索自己文章时,加了英文分号的搜索不了?“ ' ”
  4. python如何判断一段代码运行是否超出一定时间,如果超出则抛出异常?(检测函数运行是否超时,规定时间内执行,限制时间)eventlet模块 (eventlet.timeout.Timeout)
  5. tensorflow tf.is_gpu_available() (判断GPU是否可用)
  6. python 内置函数 sum()函数 求和函数
  7. python sklearn.decomposition.PCA 主成分分析, 原理详解
  8. Springboot中使用Google 的Kaptcha工具实现验证码校验
  9. python多态的概念_python中的多态
  10. 进程隐藏工具hidetoolz源码_linux最好用的资源监控工具-glances