目标

学习爬虫,爬豆瓣榜单,获取爬取静态页面信息的能力

代码

import requests

from bs4 import BeautifulSoup

def getHTMLText(url):

try:

r = requests.get(url,timeout=30)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return '产生异常'

if __name__ == '__main__':

i = 0

urls = ['https://movie.douban.com/top250?start='+str(n)+'&filter=' for n in range(0,250,25)]

for url in urls:

r = getHTMLText(url)

soup = BeautifulSoup(r,'html.parser')

titles = soup.select('div.hd a')

rates = soup.select('span.rating_num')

pics = soup.select('img[width="100"]')

for title,rate,pic in zip(titles,rates,pics):

data={'title':list(title.stripped_strings),

'rate':rate.get_text(),

'pic':pic.get('src')}

i+=1

fileName=str(i)+'_'+data['title'][0]+' '+data['rate']+'分.jpg'

pic1 = requests.get(data['pic'])

with open('G:\\test\\'+fileName,'wb') as photo:

photo.write(pic1.content)

print(data)

爬取结果

php 抓取 豆瓣电影,爬取 豆瓣电影Top250相关推荐

  1. Python爬虫——豆瓣评分8分以上电影爬取-存储-可视化分析

    本文就豆瓣8分以上电影进行爬取-存储-可视化分析. 不足之处欢迎在评论区指出讨论. 当然,如果觉得不错,要帮助的话,还请点个赞. 目录 数据爬取 分析网页 动态网页和静态网页 获取信息 获得二级信息 ...

  2. html登录界面设计代码_Python登录豆瓣并爬取影评

    Cookie是为了交互式web而诞生的,它主要用于以下三个方面: 会话状态管理(如用户登录状态.购物车.游戏分数或其它需要记录的信息) 个性化设置(如用户自定义设置.主题等) 浏览器行为跟踪(如跟踪分 ...

  3. python爬虫之xpath和lxml应用—爬取豆瓣评分爬取

    python爬虫之豆瓣评分爬取 1 第一步 获取网页源码 2 第二步 获取电影信息 3 第三步 保存数据 4 综合 ''' 需求:爬取电影的名字 评分 引言 详情页的url,每一页都爬取并且把数据保存 ...

  4. python豆瓣影评_教你用python登陆豆瓣并爬取影评

    教你用python登陆豆瓣并爬取影评 一起来 日常学python 这是我的第二篇原创文章 在上篇文章爬取豆瓣电影top250后,想想既然爬了电影,干脆就连影评也爬了,这样可以看看人们评价的电影,再加上 ...

  5. [python]豆瓣网爬取图书图片信息教程

    [python]豆瓣网爬取图书图片信息教程 1.准备工作:已经爬取了图片的URL,图书的相关信息,以便后期进行标记. 画圈处为图片链接和图书ID(用于匹配图片) 2.定义url数组和id数组 作用同上 ...

  6. 猫眼电影经典电影爬取

    使用request.xpath爬取网址 >爬取该网址:猫眼电影之经典影片 >爬取内容,如图所示: 主要爬取:电影类型.主演.时间.片名和评分 >代码如下: import reques ...

  7. 【宅男宅女们的福音】电影天堂最新电影爬取及搜索脚本

    多线程电影天堂最新资源爬取脚本.电影搜索脚本 PS:方便大家使用写到了HTML中生成表格. 线程可以在脚本里直接改,测试线程为30时IP可能会被限制访问.[阳光电影是电影天堂的马甲] 环境: Pyth ...

  8. 网络抓取与网络爬取的区别

    网络抓取,从其自身的含义到在商业领域使用的各种情况,以及未来商业领域的无限潜能来看,都相对复杂.当然,还有另一个常见的术语--网络爬取.可能别人会说两种说法意义相同,但其实还是有细微差别的,今天我们就 ...

  9. python如何全网爬取_如何爬取全网1200本Python书|爬虫实战篇

    这是菜鸟学Python的第98篇原创文章 阅读本文大概需要3分钟 引用 前面写了一篇文章关于爬取市面上所有的Python书思路,这也算是我们数据分析系列讲座里面的一个小的实战项目.上次代码没有写完,正 ...

  10. Scrapy爬取2-接口爬取

    上一篇文章:https://blog.csdn.net/weixin_44826986/article/details/124138028 1.爬取流程 1.1 接口导入 我们以demo.py为基础进 ...

最新文章

  1. torch.nn.BCELoss用法
  2. 第二篇:Mysql---约束条件、修改表的结构、键值
  3. Redpine的Lite-Fi解决方案获Wi-Fi CERTIFIED认证
  4. GML、SVG、VML的比较
  5. 每日一题(C语言基础篇)3
  6. [转载]关于webbrowser,innet,xmlhttp获取网页源码的比较!
  7. 从“做什么”到“怎么做”,说说一只蚊子
  8. 在php定界符中,PHP中的定界符 - ho俊的个人空间 - OSCHINA - 中文开源技术交流社区...
  9. @objc private 定义函数
  10. 来自资深程序员的 3 条锦囊:永远不要辞职,除非……
  11. Draco使用笔记(1)——图形解压缩
  12. 点仙人掌(cactus)
  13. Linux CentOS7.0 使用root登录桌面
  14. 威尔士和英格兰同属英国,但为啥还要在世界杯上进行PK?
  15. springboot基础(72):Redisson分布式锁
  16. 大学计算机基础教学大纲,大学计算机基础教学大纲
  17. 制作STG游戏的初步构思
  18. 分享的山 换个地图打开成了海
  19. 爱康云前端项目结构和开发规范
  20. 微信公众号开发 短视频 去水印 抖音 快手

热门文章

  1. NLP中的Embedding方法总结
  2. Atcoder Beginner Contest 297
  3. Html文件怎么设置背景墙图片,岩板做背景墙怎么固定
  4. sqlyong导出大批量数据 备份数据库
  5. uniapp实现表单提交带图片上传 在做表单提交的时候,我们可能面临有图片上传,放在原生的html就好解决,form标签加上
  6. xcode 可以打开xmind_解决问题,99%的xmind使用者不会的技巧
  7. 超火玩法云蹦迪-挤地铁-冲马桶—获取地址
  8. 对偶上升法 (Dual Ascent)
  9. Fortran开发环境在Win7 64位下配置:Compaq Visual Fortran6.5 or 6.6
  10. matlab求解系统的差分方程图形,用MATLAB仿真散系统差分方程.doc