本来其实是想爬豆瓣电影上10几万条评论的,但后来ip被封了,换代理ip之类的还不熟练,还在学习中,所以先做时光网上10页评论的分析吧,虽然时光网上粗粗一看评论就短了很多,水了很多。主要是继续练习BeautifulSoup的应用以及将爬取的内容内容保存到本地后做简单的分词和词频分析。

from urllib import request

from bs4 import BeautifulSoup

url='http://movie.mtime.com/227434/reviews/short/new.html'

url2='http://movie.mtime.com/227434/reviews/short/new-{}.html'

with open('Coco.txt','w',encoding='utf-8') as outputfile:

req=request.Request(url)

content=request.urlopen(req).read().decode('utf8')

soup=BeautifulSoup(content,'html.parser')

comments=soup.find_all('h3')

for comment in comments:

word=comment.get_text()

print(word)

outputfile.write('{} \n'.format(word))

这次的爬虫比较简单,首先观察时光网上《寻梦环游记》的评论页的URL,除了第一页是new.html以外&#x

怎么用python爬小说统计词频_python小练习爬取《寻梦环游记》评论并做词频统计...相关推荐

  1. 爬取寻梦环游记的评论生成词云

    本文从豆瓣电影中爬取寻梦环游记的评论作为生成词云的文本数据,废话不多说,走起. 准备数据 由于豆瓣的爬虫监测是比较严格的,一旦发现爬虫就会被BAN,但是我们可以通过预先登陆获取Cookies结合sle ...

  2. python爬ppt和风景_Python小工具爬取PPT模板

    报错,求楼主解决,谢谢 D:\pptdown目录已存在 Traceback (most recent call last): File "site-packages\urllib3\conn ...

  3. 用python爬取小说的总结_python如何使爬取的小说更利于观看

    python使爬取的小说更利于观看的方法: 1.使用追加模式将文章写入txt文本 关于文件的写入, 'w' 的方式 是覆盖写, 没有就创建, 那么我们写小说就不需要用这个, 使用 'a' 追加写的模式 ...

  4. python英文文本词频统计代码_Python小程序:文本词频统计(英文+中文)

    在学习了组合数据类型和文件操作之后就可以做出下面的文本词频统计的小程序了: 1. 下面是英文文本的词频统计,统计了作者的一篇英文论文 #文本词频统计:英文文本 def gettext(): #从文件中 ...

  5. python爬取微博评论并做词频分析_爬取李子柒微博评论并分析

    爬取李子柒微博评论并分析 微博主要分为网页端.手机端和移动端.微博网页版反爬太厉害,因此选择爬取手机端. 1 需求 爬取李子柒微博中视频的评论信息,并做词频分析. 2 方法 2.1 运行环境 运行平台 ...

  6. python爬虫知乎图片_python爬虫(爬取知乎答案图片)

    python爬虫(爬取知乎答案图片) 1.⾸先,你要在电脑⾥安装 python 的环境 我会提供2.7和3.6两个版本的代码,但是本⽂只以python3.6版本为例. 安装完成后,打开你电脑的终端(T ...

  7. python爬虫小说设计过程_Python制作爬虫采集小说

    开发工具:python3.4 操作系统:win8 主要功能:去指定小说网页爬小说目录,按章节保存到本地,并将爬过的网页保存到本地配置文件. 被爬网站:http://www.cishuge.com/ 小 ...

  8. python爬虫能扒什么_Python爬虫实例扒取2345天气预报

    寒假里学习了一下Python爬虫,使用最简单的方法扒取需要的天气数据,对,没听错,最简单的方法.甚至没有一个函数封装.. 网址:http://tianqi.2345.com/wea_history/5 ...

  9. python爬取小说功能实现_Python实现的爬取小说爬虫功能示例

    本文实例讲述了Python实现的爬取小说爬虫功能.分享给大家供大家参考,具体如下: 想把顶点小说网上的一篇持续更新的小说下下来,就写了一个简单的爬虫,可以爬取爬取各个章节的内容,保存到txt文档中,支 ...

最新文章

  1. java中的内部接口
  2. 电商网站的积分要不要年末清零?
  3. 潘正磊:再过三五年 AI会变成开发人员的基本概念
  4. 机器学习的练功心法(二)——引入
  5. 苹果mac视频剪辑软件:Final Cut Pro
  6. Navicat for MySQL 64位破解版
  7. QML_虚拟键盘使用
  8. Robotcup2D学习记录四
  9. MFC 控件类型和状态
  10. 计算几何入门 1.3:凸包的构造——增量构造法
  11. 如何检查后台服务(Android的Service类)是否正在运行?
  12. 一剂拯救“国足”的终极药方:全面 AI 化
  13. 管家婆软件生产管理的简单方案
  14. c语言read怎么一行一行读,使用read从标准输入中读取一行
  15. 【Mac 教程系列第 16 篇】如何查看 Apple 产品的真伪
  16. 实现无损视频/GIF/图像放大(翻译)
  17. Xilinx MIG核读写DDR3内存,连续读写内存的正确方法(时序)及代码
  18. Python 采集某网站音乐
  19. 欧姆龙rxd指令讲解_欧姆龙指令表
  20. 尝试使用P45+L5420录屏直播,非常卡

热门文章

  1. 《奔跑吧Ansible》
  2. SkeyeVSS综合安防监控Onvif、RTSP、GB28181视频云无插件直播点播解决方案之系统参数配置日志管理
  3. 可视化实例(三)Tableau基础绘图介绍——横向条形图、双轴折线图、直方图
  4. 有道难题2010有道谜题标准答案
  5. zigbeeBDBCommissioning(八)
  6. 子域名查询 端口信息
  7. 【图片新闻】近日一架美军F/A-18E战斗机在星球大战峡谷附近坠毁
  8. 给黑白照片上色的方法有哪些?这几个方法能给照片上色
  9. 怎样知道android的手机号码,查自己手机号码怎么查 教你五种方法【图文教程】...
  10. moto+早期android手机,王者归来 MOTO近期Android手机汇总