首先附上可以正常输出中文的完整代码。汉字乱码输出的解决方法是pd.read_csv函数要多携带一个参数encoding='gbk',指明编码方式。

import pandas as pd
import os
import jieba.analysepinglun = " "  # 全部评论内容组合__all__ = []for filename in os.listdir(os.path.dirname(__file__)):#遍历全部文件if filename.endswith("csv"):#选出csv# print(filename) 此处输出的是文件名file = pd.read_csv(filename, encoding='gbk')#打开csv文件,并指明编码方式为gbkfor index, row in file.iterrows():x = row['content']#content为一列的列名pinglun = pinglun + str(x)print(pinglun)  # 所有评论拼在一起
keywords = jieba.analyse.extract_tags(pinglun, topK=5, withWeight=False, allowPOS=())
for keywords, weight in jieba.analyse.extract_tags(pinglun, withWeight=True):print('%s %s' % (keywords, weight))

使用pandas包自带的方法遍历本级目录下的全部csv文件并输出文件中的内容并进行词频分析,输出结果中的中文却出现乱码的现象。

这是因为在csv文件中,使用的是GB-2312汉字编码,Python中默认的编码格式是 ASCII 格式,在没修改编码格式时无法正确打印汉字,只能输出乱码。

 只需要注意一处代码的使用,即可避免这个问题。即pd.read_csv函数要多携带一个参数,指明编码方式,即可输出正常汉字。

file = pd.read_csv(filename, encoding='gbk')

python读csv文件中文乱码问题简单解决(附python遍历目录下csv文件并输出内容的代码)相关推荐

  1. Python2写csv文件中文乱码问题及解决方法详解

    导读 python2最大的坑在于中文编码问题,遇到中文报错首先加u,再各种encode.decode,这篇文章给大家介绍Python2写csv文件中文乱码问题及解决方法,感兴趣的朋友跟随小编一起看看吧 ...

  2. 【已解决】对JSP页面传值中文乱码的简单解决方法

    很多java程序员在日常的工作中总会遇到对JSP页面传值中文乱码的情况,一些朋友由于操作不当,造成了很大的麻烦.本文将为大家讲解关于对JSP页面传值中文乱码的简单解决方法的内容. 方法/步骤 方法一: ...

  3. Python遍历目录下的文件(os.walk 、os.listdir的用法)

    Python遍历目录下的文件(os.walk .os.listdir的用法) 最近想从一个目录转移一些文件到另外一个目录,因为文件有指定的后缀,所以想着用python来转移,不做cv工程师,那就涉及到 ...

  4. Linux和Windows的遍历目录下所有文件的方法对比

    首先两者读取所有文件的方法都是采用迭代的方式,首先用函数A的返回值判断目录下是否有文件,然后返回值合法则在循环中用函数B直到函数B的返回值不合法为止.最后用函数C释放资源. 1.打开目录 #inclu ...

  5. File类(常用方法、遍历目录下的文件、listFiles()方法和删除文件及目录)

    File类 File类的常用方法 Filie类常用的构造方法 File(String pathname) //通过指定的一个字符串类型的文件路径来创建一个新的File对象 File(String pa ...

  6. php 遍历 目录,PHP采用自定义函数实现遍历目录下所有文件的方法

    目录的遍历是PHP程序设计中经常会用到的一个功能,很多PHP项目都有这一功能模块.今天本文就来实例解析一下PHP采用自定义函数实现遍历目录下所有文件的方法.具体方法如下: 方法一:使用readir() ...

  7. JAVA:遍历目录下的文件

    在实际应用中如何查看指定路径下的文件数目,java提供了一种list()函数用于遍历此路径下的所有文件.注意,在遍历的过程中需要指定文件的类型! import java.io.*; import ja ...

  8. windows遍历目录下所有文件

    From: http://blog.csdn.net/benbon/article/details/1911230 在windows中遍历目录下的所有文件主要是使用FindFirstFile和Find ...

  9. Linux下遍历目录下的文件

    方法1: http://tag.csdn.net/Article/ef431d9b-68b3-419f-9f85-1fb9279f904a.html //ListFile.cpp #include & ...

  10. idea 不打开文件提示错误_解决IDEA误删out目录下的文件导致404无法访问的问题

    前言 有时候IDEA下写Web项目时可能会遇到如下问题: 误删out目录下的文件导致开启服务器后无法访问页面的问题 新增加一个页面或添加一张图片,在项目编译运行后,未能自动更新到out\artifac ...

最新文章

  1. WinForm 限制同一个进程只能打开一次
  2. webpack的安装和使用
  3. servlet url-pattern配置中 / 和 /* 的区别 记录
  4. docker 日志_Filebeat 采集 Docker 日志
  5. 深度操作系统 Deepin 20 BETA 发布
  6. oracle错误 无监听程序,oracle_无监听程序_错误
  7. 嵌入式linux系统移植的四大步骤_嵌入式linux内核裁剪与移植步骤教程
  8. 遗传算法的C语言代码
  9. 老Java程序员花一天时间写了个飞机大战,很舒服!
  10. php计算QQ音乐guid,QQ音乐API分析2017
  11. 状态机和UCOSII编程的比较
  12. 5316. 竖直打印单词(print-words-vertically)
  13. JAV----------数组操作
  14. 苹果开发者:如何将准备好的应用上传到iTunes Connect
  15. rtmp/rtsp测试地址 2019/11/22日亲测可用
  16. 白嫖小程序云存储空间,手撸你的专属云盘
  17. Docker部署ELK(配置密码登录)及Elastalert企业微信告警配置
  18. 简单的Django系统模板
  19. Vue Router路由守卫
  20. 多语言多用户商城系统 中英文电商系统困境及解决思路

热门文章

  1. 解锁三星bl锁有几种方法_三星Note5解锁教程_三星Note5 CROM解BL锁的方法
  2. 【转】死链-百度百科
  3. 数据库练习题(比较基础)
  4. Java开发面试必问项。标识符、字面值、变量、数据类型,该学了
  5. adobe服务器无响应,链接不到adobe服务器
  6. 第三章作业题3--队列
  7. 各种排序算法耗时比较
  8. Ubuntu14.04 安装Firefox flash插件
  9. java实现1 12 123 1234 12345 123456 输出
  10. 携程网络防火墙自动化运维之道