自己写的豆瓣高分电影爬取程序
使用request和re正则库

#豆瓣电影评分榜单import requests
import redef getHTMLText(url):try:hd = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}r = requests.get(url,timeout=30,headers=hd)r.raise_for_status()r.encoding=r.apparent_encodingreturn r.textexcept:return""cid = 20
for i in range(10):print("第"+str(i)+"页的电影\n")print("电影名称     评分")url="https://movie.douban.com/j/search_subjects?type=movie&tag=豆瓣高分&sort=rank&page_limit=20&page_start="+str(cid)data = getHTMLText(url)pat1 = '"title":"(.*?)"'pat2 = '"rate":"(.*?)"'Movie_title=re.compile(pat1,re.S).findall(data)Movie_rate=re.compile(pat2,re.S).findall(data)for j in range(len(Movie_title)):print(Movie_title[j],Movie_rate[j])#print(Movie_title[1],"\t",Movie_rate[1])cid+=20

学习心得:

Fiddler抓取HTTPS:
抓包器:需要设置代理服务器,并导入Fiddler的证书
目的:可以直接使用或观察抓包数据,可以跳过网站的保护

手法:通过查看增加的包来判断是什么,(比如有\u的一般都是中文编码,可以在Python中解码读出来)
可以观察出不同网址中url的区别,腾讯视频的评论全都放在同一个url里面的。可以通过规律直接抓包!

Request库的爬取:
手段不同,但是核心原理和步骤相同。

Scrapy:
准备lmxl,pywin32,wheel
使用指令去完成爬虫

豆瓣高分电影爬取学习心得相关推荐

  1. python爬虫教材推荐 豆瓣_Python爬虫入门教程:豆瓣Top电影爬取

    基本开发环境Python 3.6 Pycharm 相关模块的使用requests parsel csv 安装Python并添加到环境变量,pip安装需要的相关模块即可. 爬虫基本思路 一.明确需求 爬 ...

  2. 爬虫——豆瓣top250电影爬取实验

    1.获取头部 我们首先需要去到目标网址豆瓣top250上,点开'检查'选项,获取头部信息,具体见下图: 我们赋值user-agent和host的信息,这是一个爬虫隐身的最好方法. 于是有以下代码: h ...

  3. Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除)

    Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除) import requests from bs4 import BeautifulSoup import ti ...

  4. python爬虫 豆瓣影评的爬取cookies实现自动登录账号

    python爬虫 豆瓣影评的爬取cookies实现自动登录账号 频繁的登录网页会让豆瓣锁定你的账号-- 网页请求 使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...

  5. 【宅男宅女们的福音】电影天堂最新电影爬取及搜索脚本

    多线程电影天堂最新资源爬取脚本.电影搜索脚本 PS:方便大家使用写到了HTML中生成表格. 线程可以在脚本里直接改,测试线程为30时IP可能会被限制访问.[阳光电影是电影天堂的马甲] 环境: Pyth ...

  6. python爬虫实现豆瓣数据的爬取

    本文利用urllib在python3.7的环境下实现豆瓣页面的爬取! 用到的包有urllib与re两个模块,具体实现如下! import urllib.request import re import ...

  7. python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)

    ''' 爬取豆瓣电影排行榜 设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: 模块 ...

  8. Python爬虫——豆瓣评分8分以上电影爬取-存储-可视化分析

    本文就豆瓣8分以上电影进行爬取-存储-可视化分析. 不足之处欢迎在评论区指出讨论. 当然,如果觉得不错,要帮助的话,还请点个赞. 目录 数据爬取 分析网页 动态网页和静态网页 获取信息 获得二级信息 ...

  9. python selenium爬虫豆瓣_Scrapy+Selenium爬取豆瓣电影评论

    首先需要对目标网站进行分析,具体的分析这里不详细介绍.目标网站:豆瓣某个电影评论页面 https://movie.douban.com/subject/1292052/reviews,这个电影是肖申克 ...

  10. python爬取豆瓣短评_爬取并简单分析豆瓣电影短评

    导语 利用Python爬取并简单分析豆瓣电影短评. 说起来挺逗的,去年爬豆瓣短评的时候还是可以爬个几万条数据的,昨天我还想着终于可以起个唬人的标题了,什么爬取了xxx电影的xxx万条数据. 于是昨晚写 ...

最新文章

  1. 中盐总公司:盐业公司24小时配送保供应
  2. Codeforces Round #579 (Div. 3) F1. Complete the Projects (easy version) 排序 + 贪心
  3. [转帖]AjaxControlToolkit.TabContainer 自定义样式续
  4. Qt Creator 使用技巧
  5. nginx 如何处理请求系列3-server_name指令
  6. hdu 变形课 1181 这道题数据真实若爆了
  7. “鱼”和“熊掌”也能兼得——省时省心
  8. Google发布了Google Sketchup,完全免费
  9. 解决Win7 64位安装 Microsoft .NET Framework 4 失败的情况
  10. PHP 登录注册附带邮箱手机号验证
  11. 边缘检测-Canny
  12. 苹果手机升级13无法开机_苹果手机升级系统后无法开机怎么办?快拿出你的小本本来做笔记吧...
  13. LaTeX标点符号基础
  14. 将数字1到9填入下面圆圈里,每个数字只使用一次,使得三角形三条边之和相等
  15. 辗转相除法——求最大公约数(易懂详解)
  16. 计算机网络(自顶向下)笔记
  17. g54y6huj6yh
  18. Excel如何为单元格内的部分文字添加超链接
  19. SpringMVC——快速入门
  20. linux、windows双系统系统盘制作及安装

热门文章

  1. 重庆大学和北京交通大学计算机学院,北京交通大学录取分为何比一些985高?真是能上985就不上211吗?...
  2. Android10.0应用图标隐藏方案(7.0-10.0)
  3. python实现动态桌面壁纸(精简)
  4. android 锤子桌面壁纸,锤子桌面使用技巧|锤子桌面 1.5.1 安卓版_久友下载站_壁纸美化...
  5. 方正锐利重磅升级到12.0版本,包装印前处理更加便捷、高效!
  6. 联想服务器修改显存,如何调整用于显卡的共享内存
  7. 蓝桥ROS机器人之51单片机C代码编译和下载
  8. 计算机查用户名,怎样查自己电脑用户名_查自己电脑用户名命令
  9. 关于QtCreator中三种不同编译版本 debug、release、profile 的区别
  10. 使用SPSS对数据异常值进行探索分析