爬取豆瓣正在上映的影片信息
import requests
from lxml import etree# 将目标网站上的页面抓取下来
# headers -> url -> requests -> response
# response.text 返回的是一个经过解码后的字符串,是str(unicode)类型
# response.content 返回的是一个原生的字符串,就是从网页上抓取下来的,没有经过处理的字符串,是bytes类型
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36','Referer':'https://movie.douban.com/'
}url = 'https://movie.douban.com/cinema/nowplaying/nanjing/'
response = requests.get(url,headers=headers)
text = response.text# 将抓取下来的数据根据一定的规则进行提取
html = etree.HTML(text,parser=etree.HTMLParser()) # parser html解析器
ul = html.xpath("//ul[@class='lists']")[0] # 获取属性为lists的ul标签内容,因为正在上映和即将上映是一样的,所以取列表的第一个元素,即正在上映的ul
lis = ul.xpath("./li") # 获取ul标签下的li标签(每部影片在一个li标签下面)
movies = []for li in lis:title = li.xpath("@data-title")[0] # xpath返回的是一个列表 影片名字score = li.xpath("@data-score")[0] # 影片评分release_time = li.xpath("@data-release")[0] # 上映时间time = li.xpath("@data-duration")[0] # 影片时长region = li.xpath("@data-region")[0] # 制片国家地区director = li.xpath("@data-director")[0] #导演actors = li.xpath("@data-actors")[0] #主演category = li.xpath("@data-category")[0] #上映类型image = li.xpath(".//img/@src")[0] # 图片链接movie = {'title':title,'score':score,'release':release_time,'time':time,'region':region,'director':director,'actors':actors,'category':category,'image_link':image}movies.append(movie)for movie in movies:for value in movie.values():print(value + "||",end="")print()
爬取豆瓣正在上映的影片信息相关推荐
- 爬取豆瓣正在上映的电影
爬取豆瓣正在上映的电影 1.目标 爬取豆瓣上显示正在上映的电影的信息,包括电影名.评分.导演.主演等信息.将其保存在一个CSV文件中,可以使用Excel打开查看. 2.思路分析 1.获取网页的UR ...
- python——利用正则表达式爬取豆瓣读书中的图书信息
本来可以使用一条正则表达式完成图书信息的爬取,结果发现在CPU性能较差的电脑上进行爬取时耗时非常长,几乎无法将结果获取到.所以,将大的html源码先经过一次简单的匹配以获取到一个中间结果,然后再从中间 ...
- Python爬取豆瓣电影top250的电影信息
Python爬取豆瓣电影top250的电影信息 前言 一.简介 二.实例源码展示 小结 前言 相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...
- Python爬取豆瓣正在上映的电影
Python爬取豆瓣正在上映的电影 #爬取豆瓣正在上映的电影 import requests from lxml import etree #1.将目标从网站上的页面抓取下来 headers = {' ...
- python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己
本文不是python.scrapy的教程,而是分享一个好玩的点子. python教程请看python教程,scrapy教程请看scrapy教程 爬取豆瓣高分电影教程参考python爬虫入门笔记:用sc ...
- 爬取豆瓣以及王者所有英雄信息实验报告(小生不才,记得点赞加关注)
实验任务 准备工作 学习网络爬虫相关知识和Python编程语法 学习爬虫需要调用的模块用法 python爬虫练习实验 练习urllib.bs.re.xlwt库的调用(了解requests第三方库) 熟 ...
- 爬虫-基于requests模块xpath解析爬取豆瓣即将上映电影目录
首先,我们要确定要爬取的对象,然后确定我们需要的数据,要有针对性的去分析,打开豆瓣网查看 在这里我们可以看到即将上映的电影不多呀,先试试这个吧- 右键检查,打开开发者模式 此时点击NETWORK选项是 ...
- 爬取豆瓣电影TP250(文字信息+保存图片)
思路: 1.豆瓣电影TOP250 url=https://movie.douban.com/top250 2.使用crawlspider获取250个电影详情页url 3.使用xpath解析数据:获取电 ...
- 【爬虫】应用Python爬虫爬取豆瓣租房上的帖子信息
GitHub项目地址:https://github.com/Donvink/Spider.BC 哔哩哔哩代码讲解:https://b23.tv/waSfUa CSDN博客地址:https://blog ...
最新文章
- sm4 前后端 加密_这7个开源的Spring Boot前后端分离项目整理给你
- 人才招聘丨 清华大学精准医学研究院招聘启事
- linux 擦脚印工具,linux一步一脚印---rm命令
- 小机箱的评估,立人 vs Jobs机箱
- 第十届四川省大学生程序设计竞赛
- CT流程与CT图像的windowing操作(转载+整理)
- 牛客练习赛89——牛牛小数点(未解决)
- Springcloud整理
- Unity3D之NGUI基础6:UIButton按钮
- thinkphp vue后台管理系统模板_careyshop-admin 后台管理模板
- python裂缝检测_通过opencv-python检测裂缝
- 计算机网络共享服务器,办公室如何搭建共享服务器或文件共享服务器
- 自定义View之仿虾米音乐TabLayout
- uni-app【判断手机是否安装微信QQ】
- matplotlib 点线动画
- 2020年北京理工大学计算机学硕跨考上岸经验分享
- 游戏评论之——戴森球计划
- Ameya360代理 | 兆易创新发布GD32A503系列首款车规级MCU
- 独领风骚,卡兹特投影仪大热香港电子展
- ps -aux | grep 用法