爬取豆瓣正在上映的影片信息

import requests
from lxml import etree# 将目标网站上的页面抓取下来
# headers  ->   url  -> requests   -> response
# response.text  返回的是一个经过解码后的字符串，是str（unicode）类型
# response.content 返回的是一个原生的字符串，就是从网页上抓取下来的，没有经过处理的字符串，是bytes类型
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36','Referer':'https://movie.douban.com/'
}url = 'https://movie.douban.com/cinema/nowplaying/nanjing/'
response = requests.get(url,headers=headers)
text = response.text# 将抓取下来的数据根据一定的规则进行提取
html = etree.HTML(text,parser=etree.HTMLParser())    # parser   html解析器
ul = html.xpath("//ul[@class='lists']")[0]    # 获取属性为lists的ul标签内容，因为正在上映和即将上映是一样的，所以取列表的第一个元素，即正在上映的ul
lis = ul.xpath("./li")    # 获取ul标签下的li标签(每部影片在一个li标签下面)
movies = []for li in lis:title = li.xpath("@data-title")[0]   # xpath返回的是一个列表    影片名字score = li.xpath("@data-score")[0]   # 影片评分release_time = li.xpath("@data-release")[0]  # 上映时间time = li.xpath("@data-duration")[0]    # 影片时长region = li.xpath("@data-region")[0]   # 制片国家地区director = li.xpath("@data-director")[0]  #导演actors = li.xpath("@data-actors")[0]   #主演category = li.xpath("@data-category")[0]    #上映类型image = li.xpath(".//img/@src")[0]   # 图片链接movie = {'title':title,'score':score,'release':release_time,'time':time,'region':region,'director':director,'actors':actors,'category':category,'image_link':image}movies.append(movie)for movie in movies:for value in movie.values():print(value + "||",end="")print()

爬取豆瓣正在上映的影片信息相关推荐

爬取豆瓣正在上映的电影
爬取豆瓣正在上映的电影 1.目标爬取豆瓣上显示正在上映的电影的信息,包括电影名.评分.导演.主演等信息.将其保存在一个CSV文件中,可以使用Excel打开查看. 2.思路分析 1.获取网页的UR ...
python——利用正则表达式爬取豆瓣读书中的图书信息
本来可以使用一条正则表达式完成图书信息的爬取,结果发现在CPU性能较差的电脑上进行爬取时耗时非常长,几乎无法将结果获取到.所以,将大的html源码先经过一次简单的匹配以获取到一个中间结果,然后再从中间 ...
Python爬取豆瓣电影top250的电影信息
Python爬取豆瓣电影top250的电影信息前言一.简介二.实例源码展示小结前言相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...
Python爬取豆瓣正在上映的电影
Python爬取豆瓣正在上映的电影 #爬取豆瓣正在上映的电影 import requests from lxml import etree #1.将目标从网站上的页面抓取下来 headers = {' ...
python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己
本文不是python.scrapy的教程,而是分享一个好玩的点子. python教程请看python教程,scrapy教程请看scrapy教程爬取豆瓣高分电影教程参考python爬虫入门笔记:用sc ...
爬取豆瓣以及王者所有英雄信息实验报告（小生不才，记得点赞加关注）
实验任务准备工作学习网络爬虫相关知识和Python编程语法学习爬虫需要调用的模块用法 python爬虫练习实验练习urllib.bs.re.xlwt库的调用(了解requests第三方库) 熟 ...
爬虫-基于requests模块xpath解析爬取豆瓣即将上映电影目录
首先,我们要确定要爬取的对象,然后确定我们需要的数据,要有针对性的去分析,打开豆瓣网查看在这里我们可以看到即将上映的电影不多呀,先试试这个吧- 右键检查,打开开发者模式此时点击NETWORK选项是 ...
爬取豆瓣电影TP250（文字信息+保存图片）
思路: 1.豆瓣电影TOP250 url=https://movie.douban.com/top250 2.使用crawlspider获取250个电影详情页url 3.使用xpath解析数据:获取电 ...
【爬虫】应用Python爬虫爬取豆瓣租房上的帖子信息
GitHub项目地址:https://github.com/Donvink/Spider.BC 哔哩哔哩代码讲解:https://b23.tv/waSfUa CSDN博客地址:https://blog ...

爬取豆瓣正在上映的影片信息

爬取豆瓣正在上映的影片信息相关推荐

最新文章

热门文章