Python25行代码爬取豆瓣排行榜数据

只需要用到requests, re ,csv 三个库即可。

code

import re
import requests
import csv
url = 'https://movie.douban.com/top250'
obj = re.compile(r'<span class="title">(?P<name>.*?)</span>.*?<br>.*?(?P<year>.*?)&nbsp.*?'r'<span class="rating_num" property="v:average">(?P<score>.*?)</span>.*?'r'<span>(?P<person>.*?)人评价', re.S)headers = { # 这里使用自己电脑浏览器的user-agent即可"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"
}r = requests.get(url, headers=headers)
c = r.text
it = obj.finditer(c)
# 默认csv写入时写一行会自动空一行,设置newline即可
f = open("data.csv", mode="w", encoding="utf-8", newline='')
cw = csv.writer(f)for i in it:dic = i.groupdict()dic['year'] = dic['year'].strip()cw.writerow(dic.values())r.close()
f.close()
# print(i.group("name"))
# print(i.group("year").strip())
# print(i.group("score"))
# print(i.group("person"))

data.csv内容

肖申克的救赎,1994,9.7,2336915
霸王别姬,1993,9.6,1737860
阿甘正传,1994,9.5,1759121
这个杀手不太冷,1994,9.4,1935854
泰坦尼克号,1997,9.4,1721133
美丽人生,1997,9.5,1083466
千与千寻,2001,9.4,1836993
辛德勒的名单,1993,9.5,898293
盗梦空间,2010,9.3,1700346
忠犬八公的故事,2009,9.4,1167713
星际穿越,2014,9.3,1373371
楚门的世界,1998,9.3,1288132
海上钢琴师,1998,9.3,1381565
三傻大闹宝莱坞,2009,9.2,1552495
机器人总动员,2008,9.3,1092632
放牛班的春天,2004,9.3,1075957
大话西游之大圣娶亲,1995,9.2,1255541
疯狂动物城,2016,9.2,1517255
无间道,2002,9.2,1043103
熔炉,2011,9.3,762596
教父,1972,9.3,763465
当幸福来敲门,2006,9.1,1247494
龙猫,1988,9.2,1040400
怦然心动,2010,9.1,1473508
控方证人,1957,9.6,363652

Python25行代码爬取豆瓣排行榜数据相关推荐

一看就会的20行代码爬取豆瓣读书Top250
想入门Python爬虫,大家都喜欢拿爬取豆瓣读书Top250为例子来练手. 下面我就给大家分享一个简单的爬虫. 1.确定所需库首先我们要确定需要引入的库. 要爬取网页的数据,当然要发送请求啦,所以我 ...
120行代码爬取豆瓣电影top250
笔者最近学习爬虫,拿豆瓣电影进行练手,无奈豆瓣电影存在反爬机制,爬完250就会重定向要求我进行登陆操作,所以我这一次只爬取前50进行相关测试,废话不多说,我们来看下源代码这次用到的还是request ...
python pyquery不规则数据的抓取_爬虫神器之PyQuery实用教程（二），50行代码爬取穷游网...
爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网前言上篇文章 PyQuery (一) 回顾.今天来介绍具体 PyQuery 的使用方法. 穷游网目标与分析开始之前,按照之前的套路一步 ...
python爬取豆瓣排行榜电影(静态爬取)(二次爬取)
目录 python爬取豆瓣排行榜电影(静态爬取) 获取网站url 获取网站headers get请求访问url BeautifulSoup解析网站爬取html数据完整代码 python爬取豆瓣排行 ...
pyquery获取不到网页完整源代码_爬虫神器之PyQuery实用教程（二），50行代码爬取穷游网...
爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网前言上篇文章 PyQuery (一) 回顾.今天来介绍具体 PyQuery 的使用方法. 穷游网目标与分析开始之前,按照之前的套路一步 ...
python实现爬虫探探_全栈 - 9 实战爬取豆瓣电影数据
这是全栈数据工程师养成攻略系列教程的第九期:9 实战爬取豆瓣电影数据. 掌握了爬虫的基本原理和代码实现,现在让我们通过实战项目巩固一下. 确定目标在写爬虫之前应当想清楚:我需要哪方面的数据?需要包 ...
python爬上市公司信息_实战项目 1：5 行代码爬取国内所有上市公司信息
实战项目 1:5 行代码爬取国内所有上市公司信息 Python入门爬虫与数据分析在正式开始这门专栏课的学习之前,我们先来看一个简单的爬虫案例.兴趣是最好的老师,当你对爬虫产生兴趣的时候,才会更有动力 ...
python爬取豆瓣影评_【python爬虫实战】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
爬虫beautifulsoup爬取豆瓣读书数据
爬虫beautifulsoup爬取豆瓣读书数据:主要是爬取收集书的名字.类别.简介,用于接下来的聚类学习. 豆瓣链接:https://book.douban.com/tag/?view=type&am ...

Python25行代码爬取豆瓣排行榜数据

Python25行代码爬取豆瓣排行榜数据

Python25行代码爬取豆瓣排行榜数据相关推荐

最新文章

热门文章