php 抓取 豆瓣电影,爬取 豆瓣电影Top250
目标
学习爬虫,爬豆瓣榜单,获取爬取静态页面信息的能力
代码
import requests
from bs4 import BeautifulSoup
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return '产生异常'
if __name__ == '__main__':
i = 0
urls = ['https://movie.douban.com/top250?start='+str(n)+'&filter=' for n in range(0,250,25)]
for url in urls:
r = getHTMLText(url)
soup = BeautifulSoup(r,'html.parser')
titles = soup.select('div.hd a')
rates = soup.select('span.rating_num')
pics = soup.select('img[width="100"]')
for title,rate,pic in zip(titles,rates,pics):
data={'title':list(title.stripped_strings),
'rate':rate.get_text(),
'pic':pic.get('src')}
i+=1
fileName=str(i)+'_'+data['title'][0]+' '+data['rate']+'分.jpg'
pic1 = requests.get(data['pic'])
with open('G:\\test\\'+fileName,'wb') as photo:
photo.write(pic1.content)
print(data)
爬取结果
php 抓取 豆瓣电影,爬取 豆瓣电影Top250相关推荐
- Python爬虫——豆瓣评分8分以上电影爬取-存储-可视化分析
本文就豆瓣8分以上电影进行爬取-存储-可视化分析. 不足之处欢迎在评论区指出讨论. 当然,如果觉得不错,要帮助的话,还请点个赞. 目录 数据爬取 分析网页 动态网页和静态网页 获取信息 获得二级信息 ...
- html登录界面设计代码_Python登录豆瓣并爬取影评
Cookie是为了交互式web而诞生的,它主要用于以下三个方面: 会话状态管理(如用户登录状态.购物车.游戏分数或其它需要记录的信息) 个性化设置(如用户自定义设置.主题等) 浏览器行为跟踪(如跟踪分 ...
- python爬虫之xpath和lxml应用—爬取豆瓣评分爬取
python爬虫之豆瓣评分爬取 1 第一步 获取网页源码 2 第二步 获取电影信息 3 第三步 保存数据 4 综合 ''' 需求:爬取电影的名字 评分 引言 详情页的url,每一页都爬取并且把数据保存 ...
- python豆瓣影评_教你用python登陆豆瓣并爬取影评
教你用python登陆豆瓣并爬取影评 一起来 日常学python 这是我的第二篇原创文章 在上篇文章爬取豆瓣电影top250后,想想既然爬了电影,干脆就连影评也爬了,这样可以看看人们评价的电影,再加上 ...
- [python]豆瓣网爬取图书图片信息教程
[python]豆瓣网爬取图书图片信息教程 1.准备工作:已经爬取了图片的URL,图书的相关信息,以便后期进行标记. 画圈处为图片链接和图书ID(用于匹配图片) 2.定义url数组和id数组 作用同上 ...
- 猫眼电影经典电影爬取
使用request.xpath爬取网址 >爬取该网址:猫眼电影之经典影片 >爬取内容,如图所示: 主要爬取:电影类型.主演.时间.片名和评分 >代码如下: import reques ...
- 【宅男宅女们的福音】电影天堂最新电影爬取及搜索脚本
多线程电影天堂最新资源爬取脚本.电影搜索脚本 PS:方便大家使用写到了HTML中生成表格. 线程可以在脚本里直接改,测试线程为30时IP可能会被限制访问.[阳光电影是电影天堂的马甲] 环境: Pyth ...
- 网络抓取与网络爬取的区别
网络抓取,从其自身的含义到在商业领域使用的各种情况,以及未来商业领域的无限潜能来看,都相对复杂.当然,还有另一个常见的术语--网络爬取.可能别人会说两种说法意义相同,但其实还是有细微差别的,今天我们就 ...
- python如何全网爬取_如何爬取全网1200本Python书|爬虫实战篇
这是菜鸟学Python的第98篇原创文章 阅读本文大概需要3分钟 引用 前面写了一篇文章关于爬取市面上所有的Python书思路,这也算是我们数据分析系列讲座里面的一个小的实战项目.上次代码没有写完,正 ...
- Scrapy爬取2-接口爬取
上一篇文章:https://blog.csdn.net/weixin_44826986/article/details/124138028 1.爬取流程 1.1 接口导入 我们以demo.py为基础进 ...
最新文章
- torch.nn.BCELoss用法
- 第二篇:Mysql---约束条件、修改表的结构、键值
- Redpine的Lite-Fi解决方案获Wi-Fi CERTIFIED认证
- GML、SVG、VML的比较
- 每日一题(C语言基础篇)3
- [转载]关于webbrowser,innet,xmlhttp获取网页源码的比较!
- 从“做什么”到“怎么做”,说说一只蚊子
- 在php定界符中,PHP中的定界符 - ho俊的个人空间 - OSCHINA - 中文开源技术交流社区...
- @objc private 定义函数
- 来自资深程序员的 3 条锦囊:永远不要辞职,除非……
- Draco使用笔记(1)——图形解压缩
- 点仙人掌(cactus)
- Linux CentOS7.0 使用root登录桌面
- 威尔士和英格兰同属英国,但为啥还要在世界杯上进行PK?
- springboot基础(72):Redisson分布式锁
- 大学计算机基础教学大纲,大学计算机基础教学大纲
- 制作STG游戏的初步构思
- 分享的山 换个地图打开成了海
- 爱康云前端项目结构和开发规范
- 微信公众号开发 短视频 去水印 抖音 快手
热门文章
- NLP中的Embedding方法总结
- Atcoder Beginner Contest 297
- Html文件怎么设置背景墙图片,岩板做背景墙怎么固定
- sqlyong导出大批量数据 备份数据库
- uniapp实现表单提交带图片上传 在做表单提交的时候,我们可能面临有图片上传,放在原生的html就好解决,form标签加上
- xcode 可以打开xmind_解决问题,99%的xmind使用者不会的技巧
- 超火玩法云蹦迪-挤地铁-冲马桶—获取地址
- 对偶上升法 (Dual Ascent)
- Fortran开发环境在Win7 64位下配置:Compaq Visual Fortran6.5 or 6.6
- matlab求解系统的差分方程图形,用MATLAB仿真散系统差分方程.doc