豆瓣高分电影爬取学习心得
自己写的豆瓣高分电影爬取程序
使用request和re正则库
#豆瓣电影评分榜单import requests
import redef getHTMLText(url):try:hd = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}r = requests.get(url,timeout=30,headers=hd)r.raise_for_status()r.encoding=r.apparent_encodingreturn r.textexcept:return""cid = 20
for i in range(10):print("第"+str(i)+"页的电影\n")print("电影名称 评分")url="https://movie.douban.com/j/search_subjects?type=movie&tag=豆瓣高分&sort=rank&page_limit=20&page_start="+str(cid)data = getHTMLText(url)pat1 = '"title":"(.*?)"'pat2 = '"rate":"(.*?)"'Movie_title=re.compile(pat1,re.S).findall(data)Movie_rate=re.compile(pat2,re.S).findall(data)for j in range(len(Movie_title)):print(Movie_title[j],Movie_rate[j])#print(Movie_title[1],"\t",Movie_rate[1])cid+=20
学习心得:
Fiddler抓取HTTPS:
抓包器:需要设置代理服务器,并导入Fiddler的证书
目的:可以直接使用或观察抓包数据,可以跳过网站的保护
手法:通过查看增加的包来判断是什么,(比如有\u的一般都是中文编码,可以在Python中解码读出来)
可以观察出不同网址中url的区别,腾讯视频的评论全都放在同一个url里面的。可以通过规律直接抓包!
Request库的爬取:
手段不同,但是核心原理和步骤相同。
Scrapy:
准备lmxl,pywin32,wheel
使用指令去完成爬虫
豆瓣高分电影爬取学习心得相关推荐
- python爬虫教材推荐 豆瓣_Python爬虫入门教程:豆瓣Top电影爬取
基本开发环境Python 3.6 Pycharm 相关模块的使用requests parsel csv 安装Python并添加到环境变量,pip安装需要的相关模块即可. 爬虫基本思路 一.明确需求 爬 ...
- 爬虫——豆瓣top250电影爬取实验
1.获取头部 我们首先需要去到目标网址豆瓣top250上,点开'检查'选项,获取头部信息,具体见下图: 我们赋值user-agent和host的信息,这是一个爬虫隐身的最好方法. 于是有以下代码: h ...
- Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除)
Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除) import requests from bs4 import BeautifulSoup import ti ...
- python爬虫 豆瓣影评的爬取cookies实现自动登录账号
python爬虫 豆瓣影评的爬取cookies实现自动登录账号 频繁的登录网页会让豆瓣锁定你的账号-- 网页请求 使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...
- 【宅男宅女们的福音】电影天堂最新电影爬取及搜索脚本
多线程电影天堂最新资源爬取脚本.电影搜索脚本 PS:方便大家使用写到了HTML中生成表格. 线程可以在脚本里直接改,测试线程为30时IP可能会被限制访问.[阳光电影是电影天堂的马甲] 环境: Pyth ...
- python爬虫实现豆瓣数据的爬取
本文利用urllib在python3.7的环境下实现豆瓣页面的爬取! 用到的包有urllib与re两个模块,具体实现如下! import urllib.request import re import ...
- python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)
''' 爬取豆瓣电影排行榜 设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: 模块 ...
- Python爬虫——豆瓣评分8分以上电影爬取-存储-可视化分析
本文就豆瓣8分以上电影进行爬取-存储-可视化分析. 不足之处欢迎在评论区指出讨论. 当然,如果觉得不错,要帮助的话,还请点个赞. 目录 数据爬取 分析网页 动态网页和静态网页 获取信息 获得二级信息 ...
- python selenium爬虫豆瓣_Scrapy+Selenium爬取豆瓣电影评论
首先需要对目标网站进行分析,具体的分析这里不详细介绍.目标网站:豆瓣某个电影评论页面 https://movie.douban.com/subject/1292052/reviews,这个电影是肖申克 ...
- python爬取豆瓣短评_爬取并简单分析豆瓣电影短评
导语 利用Python爬取并简单分析豆瓣电影短评. 说起来挺逗的,去年爬豆瓣短评的时候还是可以爬个几万条数据的,昨天我还想着终于可以起个唬人的标题了,什么爬取了xxx电影的xxx万条数据. 于是昨晚写 ...
最新文章
- 中盐总公司:盐业公司24小时配送保供应
- Codeforces Round #579 (Div. 3) F1. Complete the Projects (easy version) 排序 + 贪心
- [转帖]AjaxControlToolkit.TabContainer 自定义样式续
- Qt Creator 使用技巧
- nginx 如何处理请求系列3-server_name指令
- hdu 变形课 1181 这道题数据真实若爆了
- “鱼”和“熊掌”也能兼得——省时省心
- Google发布了Google Sketchup,完全免费
- 解决Win7 64位安装 Microsoft .NET Framework 4 失败的情况
- PHP 登录注册附带邮箱手机号验证
- 边缘检测-Canny
- 苹果手机升级13无法开机_苹果手机升级系统后无法开机怎么办?快拿出你的小本本来做笔记吧...
- LaTeX标点符号基础
- 将数字1到9填入下面圆圈里,每个数字只使用一次,使得三角形三条边之和相等
- 辗转相除法——求最大公约数(易懂详解)
- 计算机网络(自顶向下)笔记
- g54y6huj6yh
- Excel如何为单元格内的部分文字添加超链接
- SpringMVC——快速入门
- linux、windows双系统系统盘制作及安装
热门文章
- 重庆大学和北京交通大学计算机学院,北京交通大学录取分为何比一些985高?真是能上985就不上211吗?...
- Android10.0应用图标隐藏方案(7.0-10.0)
- python实现动态桌面壁纸(精简)
- android 锤子桌面壁纸,锤子桌面使用技巧|锤子桌面 1.5.1 安卓版_久友下载站_壁纸美化...
- 方正锐利重磅升级到12.0版本,包装印前处理更加便捷、高效!
- 联想服务器修改显存,如何调整用于显卡的共享内存
- 蓝桥ROS机器人之51单片机C代码编译和下载
- 计算机查用户名,怎样查自己电脑用户名_查自己电脑用户名命令
- 关于QtCreator中三种不同编译版本 debug、release、profile 的区别
- 使用SPSS对数据异常值进行探索分析