day02.1 爬取豆瓣网电影信息
"""""" ''' 爬取豆瓣电影信息:电影排名、电影名称、电影url、电影导演电影主演、电影年份、电影类型电影评分、电影评论、电影简介1、分析所有主页的url 第一页: https://movie.douban.com/top250?start=0&filter= 第二页: https://movie.douban.com/top250?start=25&filter= 第三页: https://movie.douban.com/top250?start=50&filter=''' import requests import re # 爬虫三部曲 # 1、发送请求 def get_page(url):response = requests.get(url)# print(response.text)return response# 2、解析数据 def parse_index(html):'''''''''电影排名、电影url、电影名称、电影导演、电影主演电影年份/电影类型、电影评分、电影评论、电影简介<div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?导演: (.*?)主演: (.*?)<br>(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span><div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?导演: (.*?)主演: (.*?)<br>(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span>'''movie_list = re.findall('<div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?导演: (.*?)主演: (.*?)<br>(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span>',html,re.S)return movie_list# 3、保存数据 def save_data(movie):# 电影排名、电影url、电影名称、电影导演、电影主演# 电影年份 / 电影类型、电影评分、电影评论、电影简介 top, m_url, name, daoyan, actor, year_type, \point, commit, desc = movieyear_type = year_type.strip('\n')data = f'''======== 欢迎观赏 ========电影排名:{top}电影url:{m_url}电影名称:{name}电影导演:{daoyan}电影主演:{actor}年份类型:{year_type}电影评分:{point}电影评论:{commit}电影简介:{desc}======== 下次再来哟 ========\n\n'''print(data)with open('douban_top250.txt', 'a', encoding='utf-8') as f:f.write(data)print(f'电影: {name} 写入成功...')if __name__ == '__main__':# 拼接所有主页num = 0for line in range(10):url = f'https://movie.douban.com/top250?start={num}&filter='num += 25print(url)# 1.往每个主页发送请求index_res = get_page(url)# 2.解析主页获取电影信息movie_list = parse_index(index_res.text)for movie in movie_list:# print(movie)# 3.保存数据save_data(movie)
转载于:https://www.cnblogs.com/jiangbaoyabo/p/11121863.html
day02.1 爬取豆瓣网电影信息相关推荐
- python爬取豆瓣电影信息_Python|简单爬取豆瓣网电影信息
前言: 在掌握一些基础的爬虫知识后,就可以尝试做一些简单的爬虫来练一练手.今天要做的是利用xpath库来进行简单的数据的爬取.我们爬取的目标是电影的名字.导演和演员的信息.评分和url地址. 准备环境 ...
- Python|简单爬取豆瓣网电影信息
欢迎点击「算法与编程之美」↑关注我们! 本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章. 欢迎加入团队圈子!与作者面对面!直接点击! 前言: 在掌握一些 ...
- 003.[python学习] 简单抓取豆瓣网电影信息程序
003.[python学习] 简单抓取豆瓣网电影信息程序 声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和 ...
- [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...
- python采用requests+bs4爬取豆瓣top250电影信息
爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...
- scrapy爬取豆瓣所有电影信息(新手入门超详细版)
本次小实验目标就是爬取豆瓣所有的电影,我们以豆瓣的分类页(https://movie.douban.com/tag/#/)作为start_urls,首要任务就是分析当前页面是否为动态加载,何为js动态 ...
- day02:requests爬取豆瓣电影信息
一.requests爬取豆瓣电影信息 -请求url: https://movie.douban.com/top250 -请求方式: get -请求头: user-agent cookies二.sele ...
- Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...
- Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)
今天我们来爬取一下豆瓣网上排名前250的电影. 需求:爬取豆瓣网上排名前250的电影,然后将结果保存至一个记事本里. 开发环境: python3.9 pycharm2021专业版 我们先观察网页,看看 ...
- Python爬取豆瓣Top250电影中2000年后上映的影片信息
Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...
最新文章
- 给求职的同学的几点建议
- 实战SSM_O2O商铺_23【商铺列表】Controller层开发
- struts2教程(8)--文件上传下载
- 永洪Desktop安装——windows版
- spring 注释的作用_Spring的@Primary注释在起作用
- django-rest-swagger显示接口备注内容
- google浏览器不能登录
- 对样式overflow的学习
- 男人的爱只有一次----女孩你珍惜了吗
- 浏览器下载大文件时下载完成但大小对不上
- 简单有限元分析技术(详细步骤讲解)
- 前端实现在线预览pdf、word、xls、ppt等文件
- 十几次CATIA安装重装系统吐血问题总结
- 2068个开源的网站模板
- R语言:Newton法、似然函数
- iOS小技能:金额格式处理 (货币符号本地化)
- java中画幅相机推荐_中画幅数码相机推荐
- SSM项目使用Mybatis通用mapper插件tk.mybatis的用法
- 如何做好任务管理,手把手教你怎么做最高效的任务管理
- 为什么要研究大数据?