正则表达式的概念
使用单个字符串来描述一系列符合某个句法规则的字符串
是对字符串操作的一种逻辑公式
应用场景:处理文本和数据
正则表达式过程:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;否则就匹配失败。

参数:pattern:正则模型、string:要匹配的字符串
flags:匹配模式/标示位 如:是否区分大小写、多行匹配等
span() #匹配字符串的开始和结束位置的索引位置
group() #获取内容
re.match() #从头匹配一个符合规则的字符串,从起始位置开始匹配,匹配成功返回一个对象,未匹配成功返回None。
re.search() #函数会在字符串内查找模式匹配,只要找到第一个匹配然后返回,如果没有字符串匹配返回None
re.findall() #以列表的形式返回匹配的字符串
re.sub() #替换
re.split() #split能够按照所能匹配的字符串,将字符串进行切分,返回切分后的字符串列表

import re
import requests
# 循环从0到250,每次循环25
for i in range(0, 250, 25):url = "https://movie.douban.com/top250?start=" + str(i) + "&filter="headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/91.0.4472.114 ''Safari/537.36 Edg/91.0.864.54 '}response = requests.get(url=url, headers=headers)# 获取页面数据page_text = response.text# 编写正则OBJ# 获得name值  regular_obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>', re.S)# 获取年份值   .*?<p class="">.*?<br>(?P<year>.*?)&nbsp# 获取评价人数  .*?<span>(?P<score>.*?)</span>regular_obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?<p class="">.*?<br>'r'(?P<year>.*?)&nbsp.*?<span>(?P<score>.*?)</span>', re.S)obj = regular_obj.finditer(page_text)# 因为返回的是一个迭代器对象所以遍历一下for it in obj:print(it.group("name"))print(it.group("year").split())print(it.group("score"))

爬取豆瓣TOP250电影排行榜相关推荐

  1. PowerBI也能做爬虫:爬取豆瓣Top电影排行榜

    对于简单的页面数据爬取,其实使用PowerBI就可以可视化直接实现了,不需要另外写爬虫程序.本文以爬取豆瓣Top250电影排行榜示例说明下操作的基本过程. 一.分析URL规律及网页结构 打开豆瓣电影T ...

  2. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  3. 爬取豆瓣top250电影并分析

    爬取豆瓣top250电影,提取评论关键词,然后将同一国家的关键词做成一个词云,轮廓是每个国家的地图轮廓 爬取数据 需要爬取电影名称.导演.年份.地区和前10个评论除了地区,其他的都没什么问题,我们来研 ...

  4. scrapy爬取豆瓣top250电影数据

    scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...

  5. 【实战1】用BeatuifulSoup解析器爬取豆瓣Top250电影的名称

    [实战1]用BeatuifulSoup解析器爬取豆瓣Top250电影的名称 一. 爬虫的普遍步骤 二. 项目目标分析 三.完整爬取代码 参考链接: https://www.bilibili.com/v ...

  6. 【实战2】爬取豆瓣Top250电影的海报

    [实战2]爬取豆瓣Top250电影的海报 一. 项目目标分析 二. 完整代码 参考链接: https://www.bilibili.com/video/BV1ZJ411N7Fq?p=4 一. 项目目标 ...

  7. Python爬取豆瓣Top250电影中2000年后上映的影片信息

    Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

  8. python采用requests+bs4爬取豆瓣top250电影信息

    爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...

  9. 爬取豆瓣TOP250电影的评分、评价人数、短评等信息,并在其保存在sql数据库中。

    爬取目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在sql数据库中. 最终实现效果如图: 确定爬取的URL 爬取的网页地址为:https://movie.douban.com/ ...

最新文章

  1. 15.PAE分页(2-9-9-12)
  2. 华为S5700系列交换机配置文件导出、导入
  3. 系统架构设计师考试 重要的部分
  4. 我是如何用Jquery实现网页缩小放大的
  5. 洛谷P1312 Mayan游戏
  6. leetcode题解5-最长回文子串
  7. EOJ 262 润清的烦恼
  8. 前后台进程的本质区别
  9. 人人开源项目搭建到服务器,人人开源框架的部署
  10. 将视频或动态壁纸设置成桌面
  11. 早早省初始化失败 解决办法~
  12. Drupal 主题函数知识
  13. ECShop后台详解-模块管理、基本信息设置、商品展示、促销管理、订单管理、文章管理、报表统计、数据备份与还原
  14. 硬件设计2---什么是电阻?
  15. 看点快报视频解析去水印原理及源码,初窥腾讯视频的解析奥妙
  16. linux下创建用户和添加用户权限
  17. 一加7t人脸识别_一加7Pro和一加7TPro你发现什么异常?详细对比才发现这个问题!...
  18. 计算机考研没有科研经历和竞赛,2020考研复试:没有竞赛、科研经历,4个方法教你实现逆袭...
  19. 2021年10月-精品总结汇报PPT模板-15套
  20. mongo如何删除数据后相应的删除空间和内存占用

热门文章

  1. QSerialPort 接收快速到达的数据时waitForReadyRead导致串口卡住,QSerialPort 分包问题
  2. 学python的电脑配置要求最低是多少呀?
  3. 通过document.createElement 后,某些设置无反应
  4. oracle查表字段数量
  5. 安卓开发——问题:设置Imageview的maxHeight、minHeight时无效
  6. 第十一章 STM32中断应用
  7. 证书转换-SSL证书生成:cer,jks文件 韩俊强的博客
  8. JS 的新一代日期/时间 API Temporal和 Moment.js的继承者
  9. STM32F103的11个定时器详解 高级定时器pwm
  10. AutoLisp从入门到放弃(八)