day02.1 爬取豆瓣网电影信息

""""""
'''
爬取豆瓣电影信息:电影排名、电影名称、电影url、电影导演电影主演、电影年份、电影类型电影评分、电影评论、电影简介1、分析所有主页的url
第一页:
https://movie.douban.com/top250?start=0&filter=
第二页:
https://movie.douban.com/top250?start=25&filter=
第三页:
https://movie.douban.com/top250?start=50&filter='''
import requests
import re
# 爬虫三部曲
# 1、发送请求
def get_page(url):response = requests.get(url)# print(response.text)return response# 2、解析数据
def parse_index(html):'''''''''电影排名、电影url、电影名称、电影导演、电影主演电影年份/电影类型、电影评分、电影评论、电影简介<div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?导演: (.*?)主演: (.*?)<br>(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span><div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?导演: (.*?)主演: (.*?)<br>(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span>'''movie_list = re.findall('<div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?导演: (.*?)主演: (.*?)<br>(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span>',html,re.S)return movie_list# 3、保存数据
def save_data(movie):# 电影排名、电影url、电影名称、电影导演、电影主演# 电影年份 / 电影类型、电影评分、电影评论、电影简介
    top, m_url, name, daoyan, actor, year_type, \point, commit, desc = movieyear_type = year_type.strip('\n')data = f'''======== 欢迎观赏 ========电影排名:{top}电影url:{m_url}电影名称:{name}电影导演:{daoyan}电影主演:{actor}年份类型:{year_type}电影评分:{point}电影评论:{commit}电影简介:{desc}======== 下次再来哟 ========\n\n'''print(data)with open('douban_top250.txt', 'a', encoding='utf-8') as f:f.write(data)print(f'电影: {name} 写入成功...')if __name__ == '__main__':# 拼接所有主页num = 0for line in range(10):url = f'https://movie.douban.com/top250?start={num}&filter='num += 25print(url)# 1.往每个主页发送请求index_res = get_page(url)# 2.解析主页获取电影信息movie_list = parse_index(index_res.text)for movie in movie_list:# print(movie)# 3.保存数据save_data(movie)

转载于:https://www.cnblogs.com/jiangbaoyabo/p/11121863.html

day02.1 爬取豆瓣网电影信息相关推荐

python爬取豆瓣电影信息_Python|简单爬取豆瓣网电影信息
前言: 在掌握一些基础的爬虫知识后,就可以尝试做一些简单的爬虫来练一练手.今天要做的是利用xpath库来进行简单的数据的爬取.我们爬取的目标是电影的名字.导演和演员的信息.评分和url地址. 准备环境 ...
Python|简单爬取豆瓣网电影信息
欢迎点击「算法与编程之美」↑关注我们! 本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章. 欢迎加入团队圈子!与作者面对面!直接点击! 前言: 在掌握一些 ...
003.[python学习] 简单抓取豆瓣网电影信息程序
003.[python学习] 简单抓取豆瓣网电影信息程序声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和 ...
[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...
python采用requests+bs4爬取豆瓣top250电影信息
爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...
scrapy爬取豆瓣所有电影信息（新手入门超详细版）
本次小实验目标就是爬取豆瓣所有的电影,我们以豆瓣的分类页(https://movie.douban.com/tag/#/)作为start_urls,首要任务就是分析当前页面是否为动态加载,何为js动态 ...
day02:requests爬取豆瓣电影信息
一.requests爬取豆瓣电影信息 -请求url: https://movie.douban.com/top250 -请求方式: get -请求头: user-agent cookies二.sele ...
Python爬虫实战(1) | 爬取豆瓣网排名前250的电影（下）
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心所以,今天,用pyth ...
Python爬虫实战(1) | 爬取豆瓣网排名前250的电影（上）
今天我们来爬取一下豆瓣网上排名前250的电影. 需求:爬取豆瓣网上排名前250的电影,然后将结果保存至一个记事本里. 开发环境: python3.9 pycharm2021专业版我们先观察网页,看看 ...
Python爬取豆瓣Top250电影中2000年后上映的影片信息
Python爬取豆瓣Top250电影中2000年后上映的影片信息前言双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

day02.1 爬取豆瓣网电影信息

day02.1 爬取豆瓣网电影信息相关推荐

最新文章

热门文章