import requests
import re  # 此模块专门用来提取有效信息url = 'https://movie.douban.com/top250'
head = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/93.0.4577.82 Safari/537.36 '}
resp = requests.get(url, headers=head)
# print(resp.text)
page_content = resp.text# 解析数据
obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?<p class="">.*?<br>('r'?P<year>.*?)&nbsp ''.*?<span class="rating_num" property="v:average">(?P<evaluate>.*?)</span>', re.S)#  开始数据
result = obj.finditer(page_content)for it in result:print(it.group('name'))print(it.group('year').strip())print(it.group('evaluate').strip())

爬虫爬取豆瓣电影排行榜相关推荐

  1. python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中

    我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...

  2. [爬虫] 爬取豆瓣电影排行榜

    申明:本文对爬取的数据仅做学习使用,不涉及任何商业活动,侵删 爬取豆瓣电影排行榜 这是一个Scrapy框架入门级的项目, 它可以帮助我们基本了解Scrapy的操作流程和运行原理 这次我们要做例子的网站 ...

  3. python爬虫爬取豆瓣电影排行榜,并写进csv文件,可视化数据分析

    #1.爬取内容,写进csv文件 import requests import re import csv #豆瓣电影排行榜,写进csv文件 url = "https://movie.doub ...

  4. python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)

    ''' 爬取豆瓣电影排行榜 设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: 模块 ...

  5. Python爬虫 爬取豆瓣电影TOP250

    Python爬虫 爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结 主要分为三步: 爬取豆瓣top250的网页,并通过 ...

  6. 爬取豆瓣电影排行榜,并制作柱状图与3d柱状图

    **爬取豆瓣电影排行榜,并简单制作柱状图 一.首先,我们需要获取页面的信息,下图是从排行第25到50的电影,由此可见start可以想象为偏移量,我们把start的值换为0,得到了第一到25排名的电影, ...

  7. python爬虫豆瓣电影评价_使用爬虫爬取豆瓣电影影评数据Python版

    在 使用爬虫爬取豆瓣电影影评数据Java版 一文中已详细讲解了爬虫的实现细节,本篇仅为展示Python版本爬虫实现,所以直接上代码 完整代码 爬虫主程序 # 爬虫启动入口 from C02.data ...

  8. Python爬虫爬取豆瓣电影评论内容,评论时间和评论人

    Python爬虫爬取豆瓣电影评论内容,评论时间和评论人 我们可以看到影评比较长,需要展开才能完整显示.但是在网页源码中是没有显示完整影评的.所以我们考虑到这部分应该是异步加载的方式显示.所以打开网页的 ...

  9. python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片,分别保存到csv文件和文件夹中

    python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和图片,分别保存到csv文件和文件夹中. 爬取的数据包括每个电影的电影名 , 导演 ,演员 ,评分,推荐语,年份,国家,类型. py如果 ...

最新文章

  1. 我室友拿到了字节50万年薪,太牛逼了
  2. Linux 删除和替换文件中某些行的方法
  3. python 装饰器实现缓存_Python, 这一个缓存装饰器, 其执行流程是怎样的?
  4. autoupdater 更新后重新运行_Windows 10 总是自动更新?这几个方法教你关闭它
  5. [地球人]BlogEngine.NET[Appwo.com版]+采集器
  6. xcode 连接 github 进行代码版本控制
  7. java当中递归打印目录树
  8. JAVA-用栈机制实现单词逆序排列
  9. Qt文档阅读笔记-Text QML Type官方解析及实例
  10. 网路是怎样连接的(十二)IP地址怎么看
  11. 景观设计名字主题_园林景观好听的名字
  12. pkusc2016滚粗记
  13. 漏洞复现之CVE-2018-1273 Spring Data Commons 远程命令执行
  14. 单片机触发器或非门工作原理以及用途
  15. 关于idea配置方法注释问题——完美注释
  16. 大数据局数据安全建设实践案例汇编
  17. GameStop的下半场:散户疯狂复仇,大空头彻底投降,但“世纪逼空大战”远未结束...
  18. 会员系统_健身房管理系统
  19. 贝宁ECTN/BESC认证相关规定
  20. 导出Word几种方法

热门文章

  1. 网络机房搬迁的实施和经验
  2. 企业数据应用 传统商业智能对比大数据应用
  3. 计算机连接打印机用户数量修改,使用注册表修改对打印机进行设置的方法
  4. pipe管道实现进程间的通信
  5. 如何判断并获取wordpress自定义用户角色名?
  6. RabbitMQ快速入门
  7. Unity Failed to load ‘Sssets/Plugins/xxx.dll with error 找不到指定的模块
  8. Argoverse--Motion Forecasting Dataset评价指标minADE/minFDE详细介绍
  9. [小游戏资源] 微信小游戏开发资源目录
  10. 如何提高自己的语言表达能力?