java抓取豆瓣网页内容_爬虫实践--豆瓣电影当前上映电影信息爬取

目标

爬取当前时间段豆瓣电影中正在上映的电影的相关信息，如电影名、导演、演员表、上映时间、制作方等信息，然后再通过字典的方式，将其保存在本地文件当中，以便我们查询；

Code

#!/usr/bin/python3

# -*- coding:utf-8 -*-

# @Time : 2018-11-15 8:24

# @Author : Manu

# @Site :

# @File : doubanMovie.py

# @Software: PyCharm

import pprint

import requests

from lxml import etree

'''

爬取豆瓣电影上当前正在上映的电影信息，并保存到文件中

'''

HEADERS = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '

'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36',

'Refer':'https://movie.douban.com/'

}

url = 'https://movie.douban.com/cinema/nowplaying/'

response = requests.get(url, headers=HEADERS)

print(response.text)

text = response.text

html = etree.HTML(text)

ul = html.xpath("//ul[@class='lists']")[0]

lis = ul.xpath('./li')

movies = []

for li in lis:

title = li.xpath('@data-title')[0]

score = li.xpath('@data-score')[0]

release = li.xpath('@data-release')[0]

duration = li.xpath('@data-duration')[0]

region = li.xpath('@data-region')[0]

director = li.xpath('@data-director')[0]

actors = li.xpath('@data-actors')[0]

thumbnail = li.xpath('.//img/@src')[0]

movie = {

'电影名':title,

'评分':score,

"上映时间":release,

'片长':duration,

'制片国家':region,

'导演':director,

'演员表':actors,

'海报':thumbnail

}

movies.append(movie)

pprint.pprint(movies)

with open('豆瓣正在上映.txt', 'w', encoding='utf-8') as movie_file:

for movie in movies:

movie_file.write('电影名：' + movie['电影名'] + '\n')

movie_file.write('评分：' + movie['评分'] + '\n')

movie_file.write('上映时间：' + movie['上映时间'] + '\n')

movie_file.write('片长：' + movie['片长'] + '\n')

movie_file.write('制片国家：' + movie['制片国家'] + '\n')

movie_file.write('导演：' + movie['导演'] + '\n')

movie_file.write('演员表：' + movie['演员表'] + '\n')

movie_file.write('海报：' + movie['海报'] + '\n')

movie_file.write('\n')

结果

java抓取豆瓣网页内容_爬虫实践--豆瓣电影当前上映电影信息爬取相关推荐

python爬取空气质量指标_python爬虫之静态网页——全国空气质量指数(AQI)爬取
首先爬取地址:http://www.air-level.com/ 利用的python库,最近最流行的requests,BeautifulSoup. requests:用于下载html Beautifu ...
python爬图片代码大全_爬虫入门教程⑩— 用漂亮的图表展示爬取到的数据
经过了前面的努力,我们成功获取到了数据,并且学会了保存,但是只是用网页展示出来,是不是有一些不够美观呢? 所以本节的内容是:数据的可视化.拿到了数据却不能使其简单易懂并且足够突出,那就是不是好的数据工 ...
python爬虫实践记录-基于requests访问翻译网页爬取结果
前言目前主流的翻译网站反爬虫都挺严格的,某度有sign算法,谷歌自带技能冷却.... 查了一下发现一个反爬虫没用那么苛刻的翻译网站:译典通. 第一次听说这个网站,界面挺老,爬来的源代 ...
Python爬虫--智联招聘职位和公司信息爬取
用scrapy框架进行爬取目录结构: 1. items.py 文件事先定义好我们要进行爬取的信息 # -*- coding: utf-8 -*-# Define here the models f ...
20201126时隔一年半更新 python爬虫小项目--飞常准航班信息爬取variflight（下）
时隔一年多,再更新飞常准的信息抓取,看了下其实就是和去年的没有太多变更的地方.打开首页.发现页面变了入口在哪里了?之前首页有城市和航班信息入口,一开始怀疑是浏览器内存不支持加载一些脚本,更换了其他内 ...
python爬取头条图集_Python爬虫基础练习(六) 今日头条街头篮球图片爬取
今天我们要爬取的仍然是图片,不过与上一篇有所不一样的是,今天爬取的是今日头条上的图集,接着往下看吧~ 运行平台:Windows Python版本:Python3.6 IDE: Sublime Text ...
java爬虫抓取起点小说_爬虫实践-爬取起点中文网小说信息
qidian.py: import xlwt import requests from lxml import etree import time all_info_list = [] def get ...
python爬取公众号阅读量_Python爬虫实践：如何快速、高效的爬取微信公众号阅读在看数...
自从2013年,自媒体开始崛起.再到2014年,自媒体开始能够赚钱,自媒体逐渐成为这个时代的一个趋势性的潮流. 随着公众号平台的不断火爆,各个自媒体平台如春笋班拔地而起.自媒体的蓬勃发展,很大程度上重 ...
python爬虫小项目--飞常准航班信息爬取variflight（上）
很久不更新博客,分享下最近一个小项目飞常准 .飞常准是飞友科技旗下一个航班信息数据网络品牌.主要为用户提供航空相关数据.目前核心业务为航班动态和便宜机票搜索引擎.飞友科技旗下总有飞友网.飞常准.Va ...
Python爬虫实战(四)：微博博主信息爬取(粉丝数、关注数、博文数、信用等级、认证信息、个人简介……)
追风赶月莫停留,平芜尽处是春山. 文章目录追风赶月莫停留,平芜尽处是春山. 好久没更新了,今天来更新一波. 一.网页分析二.接口分析 url分析返回数据分析三.编写代码获取数据保存数据完 ...

java抓取豆瓣网页内容_爬虫实践--豆瓣电影当前上映电影信息爬取

java抓取豆瓣网页内容_爬虫实践--豆瓣电影当前上映电影信息爬取相关推荐

最新文章

热门文章