Python25行代码爬取豆瓣排行榜数据
Python25行代码爬取豆瓣排行榜数据
只需要用到requests, re ,csv 三个库即可。
code
import re
import requests
import csv
url = 'https://movie.douban.com/top250'
obj = re.compile(r'<span class="title">(?P<name>.*?)</span>.*?<br>.*?(?P<year>.*?) .*?'r'<span class="rating_num" property="v:average">(?P<score>.*?)</span>.*?'r'<span>(?P<person>.*?)人评价', re.S)headers = { # 这里使用自己电脑浏览器的user-agent即可"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"
}r = requests.get(url, headers=headers)
c = r.text
it = obj.finditer(c)
# 默认csv写入时写一行会自动空一行,设置newline即可
f = open("data.csv", mode="w", encoding="utf-8", newline='')
cw = csv.writer(f)for i in it:dic = i.groupdict()dic['year'] = dic['year'].strip()cw.writerow(dic.values())r.close()
f.close()
# print(i.group("name"))
# print(i.group("year").strip())
# print(i.group("score"))
# print(i.group("person"))
data.csv内容
肖申克的救赎,1994,9.7,2336915
霸王别姬,1993,9.6,1737860
阿甘正传,1994,9.5,1759121
这个杀手不太冷,1994,9.4,1935854
泰坦尼克号,1997,9.4,1721133
美丽人生,1997,9.5,1083466
千与千寻,2001,9.4,1836993
辛德勒的名单,1993,9.5,898293
盗梦空间,2010,9.3,1700346
忠犬八公的故事,2009,9.4,1167713
星际穿越,2014,9.3,1373371
楚门的世界,1998,9.3,1288132
海上钢琴师,1998,9.3,1381565
三傻大闹宝莱坞,2009,9.2,1552495
机器人总动员,2008,9.3,1092632
放牛班的春天,2004,9.3,1075957
大话西游之大圣娶亲,1995,9.2,1255541
疯狂动物城,2016,9.2,1517255
无间道,2002,9.2,1043103
熔炉,2011,9.3,762596
教父,1972,9.3,763465
当幸福来敲门,2006,9.1,1247494
龙猫,1988,9.2,1040400
怦然心动,2010,9.1,1473508
控方证人,1957,9.6,363652
Python25行代码爬取豆瓣排行榜数据相关推荐
- 一看就会的20行代码爬取豆瓣读书Top250
想入门Python爬虫,大家都喜欢拿爬取豆瓣读书Top250为例子来练手. 下面我就给大家分享一个简单的爬虫. 1.确定所需库 首先我们要确定需要引入的库. 要爬取网页的数据,当然要发送请求啦,所以我 ...
- 120行代码爬取豆瓣电影top250
笔者最近学习爬虫,拿豆瓣电影进行练手,无奈豆瓣电影存在反爬机制,爬完250就会重定向要求我进行登陆操作,所以我这一次只爬取前50进行相关测试,废话不多说,我们来看下源代码 这次用到的还是request ...
- python pyquery不规则数据的抓取_爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网...
爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网 前言 上篇文章 PyQuery (一) 回顾.今天来介绍具体 PyQuery 的使用方法. 穷游网目标与分析 开始之前,按照之前的套路一步 ...
- python爬取豆瓣排行榜电影(静态爬取)(二次爬取)
目录 python爬取豆瓣排行榜电影(静态爬取) 获取网站url 获取网站headers get请求访问url BeautifulSoup解析网站 爬取html数据 完整代码 python爬取豆瓣排行 ...
- pyquery获取不到网页完整源代码_爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网...
爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网 前言 上篇文章 PyQuery (一) 回顾.今天来介绍具体 PyQuery 的使用方法. 穷游网目标与分析 开始之前,按照之前的套路一步 ...
- python实现爬虫探探_全栈 - 9 实战 爬取豆瓣电影数据
这是全栈数据工程师养成攻略系列教程的第九期:9 实战 爬取豆瓣电影数据. 掌握了爬虫的基本原理和代码实现,现在让我们通过实战项目巩固一下. 确定目标 在写爬虫之前应当想清楚:我需要哪方面的数据?需要包 ...
- python爬上市公司信息_实战项目 1:5 行代码爬取国内所有上市公司信息
实战项目 1:5 行代码爬取国内所有上市公司信息 Python入门爬虫与数据分析 在正式开始这门专栏课的学习之前,我们先来看一个简单的爬虫案例.兴趣是最好的老师,当你对爬虫产生兴趣的时候,才会更有动力 ...
- python爬取豆瓣影评_【python爬虫实战】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件 源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
- 爬虫beautifulsoup爬取豆瓣读书数据
爬虫beautifulsoup爬取豆瓣读书数据:主要是爬取收集书的名字.类别.简介,用于接下来的聚类学习. 豆瓣链接:https://book.douban.com/tag/?view=type&am ...
最新文章
- 如何使用php将字符从全角转为半角
- More than Moore的探索
- redis在PHP中的基本使用
- dex文件结构(三):dex文件差分包分成
- 中国新十大军工企业名单及简称
- 李宏毅深度学习——Backpropagation
- 常见浏览器兼容性问题与解决方案?
- Linux 下 MySQL 启动与关闭 说明
- 【学习笔记】传输层:TCP协议(报文段、连接管理{握手}、可靠传输、流量控制、拥塞控制)
- java spring入门小程序_springMVC学习笔记(二)-----注解和非注解入门小程序
- c++友元模板单例模式
- 20145324 《Java程序设计》第1周学习总结
- 需求分析说明书SRS
- 【温度检测】基于matlab GUI热红外图像温度检测系统【含Matlab源码 1920期】
- WordPress社交网络菜单图标更改——SVG图标
- 【线性代数】线性方程组的求解
- Python基于openCV火焰识别
- 应用宝shangjia安全评估报告_《安全评估报告》提交指引
- 大彩科技串口屏串口通讯问题解决记录
- 使用RxJava的retryWhen操作符实现token过期自动刷新