爬取豆瓣电影排行榜top 250
# *-* coding:utf-8 *-*import requests
import re,os#爬取豆瓣250def douban_ranking(start):#构建请求 param = {"start": start,"filter":"" }respon = requests.get(url,headers=headers,params=param)page_content = respon.textrespon.close()#re 正则obj = re.compile(r'<li>.*?<span class="title">(?P<video_name>.*?)</span>.*?导演:(?P<director>.*?) .*?<br>(?P<year>.*?) .*?property="v:average">(?P<score>.*?)</span>',re.S)
# re_boj=obj.findall(page_content)re_boj=obj.finditer(page_content)return re_bojif __name__ == '__main__':path = r'C:\Users\wyb\Desktop\python\BBtest\aa.html'if os.path.exists(path):os.remove(path)url = "https://movie.douban.com/top250"headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"}start = 0while start < 250:re_boj=douban_ranking(start)start = start+25with open(r'C:\Users\wyb\Desktop\python\BBtest\aa.html',mode='a',encoding="utf-8") as f:for i in re_boj:
# print(i.group("video_name"),i.group("director"),i.group("year").strip(),i.group("score"))f.write(i.group("video_name")+' ')f.write(i.group("director")+' ')f.write(i.group("year").strip()+' ')f.write(i.group("score")+'\n')
# dic = i.groupdict()
# dic['year'] = dic['year'].strip()
# f.write(str(dic))print("over")
生成结果: 电影名字,导演,年份,评分
爬取豆瓣电影排行榜top 250相关推荐
- python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片,分别保存到csv文件和文件夹中
python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和图片,分别保存到csv文件和文件夹中. 爬取的数据包括每个电影的电影名 , 导演 ,演员 ,评分,推荐语,年份,国家,类型. py如果 ...
- 爬取豆瓣电影排行榜前250
环境:python3.6 + BeautifulSoup 爬取一页的电影信息 对应网址:https://movie.douban.com/top250 import requests # 导入网页请求 ...
- python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)
''' 爬取豆瓣电影排行榜 设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: 模块 ...
- 爬取豆瓣电影排行榜,并制作柱状图与3d柱状图
**爬取豆瓣电影排行榜,并简单制作柱状图 一.首先,我们需要获取页面的信息,下图是从排行第25到50的电影,由此可见start可以想象为偏移量,我们把start的值换为0,得到了第一到25排名的电影, ...
- python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
- [爬虫] 爬取豆瓣电影排行榜
申明:本文对爬取的数据仅做学习使用,不涉及任何商业活动,侵删 爬取豆瓣电影排行榜 这是一个Scrapy框架入门级的项目, 它可以帮助我们基本了解Scrapy的操作流程和运行原理 这次我们要做例子的网站 ...
- Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中
概述 利用Scrapy爬取豆瓣电影Top250排行榜电影信息,并保存到MongoDB数据库中 使用pymongo库操作MOngodb数据库 没有进行数据清洗 源码 items.py class Dou ...
- 爬取豆瓣电影排行榜top250
爬取豆瓣电影top250 平时不知道看什么电影,正好最近学习了爬虫,自己试着把电影排行下载下来,边看边学两不误. 下面直接上代码: import requests from bs4 import Be ...
- 爬取豆瓣电影排名前250部电影并且存入Mongo数据库
2019独角兽企业重金招聘Python工程师标准>>> 需求:爬取豆瓣电影top250(https://movie.douban.com/top250)的电影数据: 标题(title ...
- python爬虫爬取豆瓣电影排行榜,并写进csv文件,可视化数据分析
#1.爬取内容,写进csv文件 import requests import re import csv #豆瓣电影排行榜,写进csv文件 url = "https://movie.doub ...
最新文章
- MATLAB寻址访问按什么优先,matlab笔记
- Comet OJ - 模拟赛 #2 Day2
- java开发微信二维码
- java线程同步的实现_Java并发编程(三) - 实战:线程同步的实现
- python区域找图命令_python读取图片任意范围区域
- [UVA315]Network(tarjan, 求割点)
- 湘苗培优|从入门到精通
- 运用div css和java_如何将css应用于div模式
- 1.2 案例:波士顿房价预测
- Docker 安装常用软件记录
- Java设计模式学习记录-模板方法模式
- uni-app框架简介
- java:文本框的简单使用
- nexus 启动报错 The nexus service was launched, but failed to start
- C语言试题151之求 0到7 所能组成的奇数个数。
- 如何白嫖你需要的知识?
- 初学tms320f2812的一些总结
- 一个 iPod touch 用户的魅族 M8 使用体验
- 知名歌手育有私生子,非婚生子女权益如何保护?
- Google - Pagerank