最近网剧《白夜追凶》在很多朋友的推荐下,开启了追剧模式,自从琅琊榜过后没有看过国产剧了,此剧确实是良心剧呀!一直追下去,十一最后两天闲来无事就抓取豆瓣的评论看一下

相关代码提交到github上

个人github上相关python的项目:https://github.com/bytename/learnPy

#-*-coding:utf-8-*-

import requests

from lxml import etree

import jieba

header ={

"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

"Accept-Encoding":"gzip, deflate, br",

"Accept-Language":"zh-CN,zh;q=0.8,en;q=0.6",

"Connection":"keep-alive",

"Host":"movie.douban.com",

"Referer":"https://movie.douban.com/subject/26883064/reviews?start=20",

"Upgrade-Insecure-Requests":"1",

"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36"

}

def getPageNum(url):

if url:

req = requests.get(url,headers=header)

html = etree.HTML(req.text)

pageNum = html.xpath(u"//div[@class='paginator']/a[last()]/text()")[0]

return pageNum

def getContent(url):

if url:

req = requests.get(url, headers=header)

html = etree.HTML(req.text)

data = html.xpath(u"//div[@class='short-content']/text()")

return data

def getUrl(pageNum):

dataUrl= []

for i in range(1,int(pageNum)):

if pageNum >= 1:

url ="https://movie.douban.com/subject/26883064/reviews?start=%d" %(((i - 1) *20),)

dataUrl.append(url)

return dataUrl

if __name__ == '__main__':

url = "https://movie.douban.com/subject/26883064/reviews?start=0"

pageNum =getPageNum(url)

data = getUrl(pageNum)

datas = []

dic = dict()

for u in data:

for d in getContent(u):

jdata = jieba.cut(d)

for i in jdata:

if len(i.strip()) > 1:

datas.append(i.strip())

for i in datas:

if datas.count(i) > 1:

dic[i] = datas.count(i)

for key,values in dic.items():

print "%s===%d" %(key,values)

抓取了评论并分词统计:

C:\Anaconda2\python.exe D:/PycharmProjects/LearnPy/lesson01/SpriderDouBan.py

Building prefix dict from the default dictionary ...

Loading model from cache c:\users\rc\appdata\local\temp\jieba.cache

Loading model cost 0.379 seconds.

Prefix dict has been built succesfully.

结合体===2

星期一===2

出来===21

第二===2

还要===3

应该===28

刘副队===3

案件===33

发生===7

成分===3

诚然===2

惊喜===7

两天===5

正常===10

全剧===4

看似===2

关系===5

坐等===2

仿佛===2

有理有据===2

python 豆瓣评论删除_Python抓取豆瓣《白夜追凶》的评论并且分词相关推荐

  1. Python实例:网络爬虫抓取豆瓣3万本书(1)

    花了些时间看了Python一整本书,写了些小例子,因为是有经验的人自学,所以很多都是跳过的. 不过学习还是得在实践中去,学一门语言还得运用中去. 去下一些例子下来,去运行,调试时最好的了. <网 ...

  2. Project 2 :Python爬虫源码实现抓取豆瓣电影爱情电影Top200并保存到文件

    基于python3.6-pycharm编写的,都已经调试过了,欢迎大家提出交流意见. 关于一些基础的数据网页分析(比如为什么是这个url)没有过多赘述,看不懂的自行百度. 源码可以直接拷贝运行. 转载 ...

  3. python爬虫实例-运用requests抓取豆瓣电影TOP250(详解)

    目录 开发工具 目标 网页分析 正则匹配分析 代码实例 总结 开发工具 python版本: python-3.8.1-amd64 python开发工具: JetBrains PyCharm 2018. ...

  4. python异步协程,抓取豆瓣top250电影海报。

    # 利用正则及异步协程 爬取豆瓣top250电影图片 # author:xyislove # 欢迎各位大神修改指导 from asyncio import tasks import re from f ...

  5. Python实例:网络爬虫抓取豆瓣3万本书(5)

    第五步没有什么心的知识点. 直接看代码吧. # -*- coding:utf-8 -*- # 提取各标签列表页到excel import time import os.path from tool.E ...

  6. python公众号文章_Python 抓取微信公众号文章

    起因是刷微信的时候看到一篇文章,Python 抓取微信公众号文章保存成pdf,很容易搜到,就不贴出来了 先用chrome登陆微信公众号后台,先获取一下自己的cookie,复制下来就行,解析一下转换成 ...

  7. python微信点赞脚本_Python爬取微信公众号评论、点赞等相关信息

    微信公众号爬虫方案分析(爬取文艺相处公众号) 之前考虑过使用搜狗微信来爬取微信公众号信息,不过搜狗提供的数据有诸多弊端,比如文章链接是临时的,文章没有阅读量等指标,所以考虑通过手机客户端利用 Pyth ...

  8. python类百度百科_Python抓取百度百科数据

    抓取策略 确定目标:确定抓取哪个网站的哪些页面的哪部分数据.本实例抓取百度百科python词条页面以及python相关词条页面的标题和简介. 分析目标:分析要抓取的url的格式,限定抓取范围.分析要抓 ...

  9. python足球大数据分析_Python 抓取欧洲足球联赛数据进行大数据分析

    摘要: 背景 Web Scraping 在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤 数据的采集和获取 数据的清洗,抽取,变形和装载 数据的分析,探索和预测 数据的展 ...

最新文章

  1. 学习篇之软件测试——初
  2. 【微软公有云系列】Hyper-v(WinSer 2012 R2)网络虚拟化(三)租户隔离
  3. 微软向.NET开发者开放Windows Phone 7 Market
  4. 【CV秋季划】模型优化很重要,如何循序渐进地学习好?
  5. linux网络相关常见问题
  6. 前端常见知识点四之webscoket
  7. STM32 CAN错误管理
  8. 如何解决无法显示隐藏文件文件夹
  9. 创建二叉树的代码_解二叉树的右视图的两种方式
  10. Linux shell实例精讲 (一)
  11. 机器学习Scikit-Learn安装
  12. uber_像Uber这样的Android Google地图样式
  13. oracle样例数据库,创建和准备Oracle样例数据库
  14. java vector pair_STL: list ,set ,pair.map的使用
  15. 喜大普奔,润乾全功能中文开源BI来了
  16. android电话本导入iphone,如何将Android电话簿导入iPhone手机
  17. php小写转大写,php怎么实现英文小写转大写
  18. 《朗读者》中那些让人受益终生的句子
  19. 梯度下降,随机梯度下降,代码实现
  20. 批量查询快递单号筛选出代收单号

热门文章

  1. cad计算机中怎么用除号,cad如何输入乘除一些符号
  2. 力扣-生成每种字符都是奇数个的字符串
  3. 超级帅气免费空间申请(100M/PHP/MYSQL/FTP/无限流量)! --转载
  4. vscode 格式化插件以及配置
  5. mac安静执行脚本_Desktop Goose for Mac在屏幕上到处乱跑的抖音网红桌面宠物鹅
  6. 展望Nodejs 2016和新年祝福
  7. 玩核雕四“看”三“注意”
  8. 神州信息笔试 2020年9月28日
  9. nestjs+mysql+prisma + swagger项目搭建
  10. mysql分页缓冲池占用很高怎么解决_缓冲池(buffer pool),这次彻底懂了!!!