利用python 爬取豆瓣即将上映的电影

仅学习交流

Upcoming.py

import re
import requests
from doubanapi import findmovie
from bs4 import BeautifulSoup
url = "https://movie.douban.com/cinema/later/taian/"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"}
res = requests.get(url=url, headers=headers)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'lxml')
movies = []
for sp in soup.find_all('div',class_= re.compile('item mod.*')):weber = sp.div.h3.a.get('href')title = sp.div.h3.a.stringsp2 = sp.find_all('li')mtime = sp2[0].stringmtype = sp2[1].stringmlocat = sp2[2].stringmpeople = sp2[3].stringmid = re.sub("\D", "", weber)lits = findmovie(mid)dire = lits[0]actr = lits[1]content = lits[2]movie = {"标题":title,"时间":mtime,"类型":mtype,"地区":mlocat,"热度":mpeople,"导演":dire,"演员":actr,"简介":content,"详细信息":weber}print(movie)movies.append(movie)
print(movies)

doubanapi.py(调用api对电影信息进行补充)

import json
import requestsdef findmovie(urlid):baseurl = 'https://movie.querydata.org/api?id='url = baseurl + urlidres = requests.get(url)res.encoding = 'utf-8'lis = res.textlis = json.loads(lis)print(res.text)        #测试content = lis['data'][0]['description']director = lis['director']actors = lis['actor']sumdire = ""sumact = ""for dire in director:sumdire += dire["data"][0]['name'] + " "for act in actors:sumact += act["data"][0]['name'] + " "sumer = {}sumer[0] = sumdiresumer[1] = sumactsumer[2] = contentreturn sumer

利用python 爬取豆瓣即将上映的电影相关推荐

Python爬取豆瓣正在上映的电影
Python爬取豆瓣正在上映的电影 #爬取豆瓣正在上映的电影 import requests from lxml import etree #1.将目标从网站上的页面抓取下来 headers = {' ...
利用python爬取豆瓣电影top250
利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...
爬取豆瓣正在上映的电影
爬取豆瓣正在上映的电影 1.目标爬取豆瓣上显示正在上映的电影的信息,包括电影名.评分.导演.主演等信息.将其保存在一个CSV文件中,可以使用Excel打开查看. 2.思路分析 1.获取网页的UR ...
python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己
本文不是python.scrapy的教程,而是分享一个好玩的点子. python教程请看python教程,scrapy教程请看scrapy教程爬取豆瓣高分电影教程参考python爬虫入门笔记:用sc ...
爬虫-基于requests模块xpath解析爬取豆瓣即将上映电影目录
首先,我们要确定要爬取的对象,然后确定我们需要的数据,要有针对性的去分析,打开豆瓣网查看在这里我们可以看到即将上映的电影不多呀,先试试这个吧- 右键检查,打开开发者模式此时点击NETWORK选项是 ...
利用python爬取豆瓣音乐_Python爬虫小白入门（七）爬取豆瓣音乐top250
抓取目标: 豆瓣音乐top250的歌名.作者(专辑).评分和歌曲链接使用工具: requests + lxml + xpath. 我认为这种工具组合是最适合初学者的,requests比python自 ...
利用python爬取豆瓣音乐_Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析
节点的子节点,获取排名的代码为:li.span.text 绿色框中A节点中是歌曲的链接和图片链接,获取歌曲链接的代码为:li.a['href'] 蓝色框中是歌曲的名字.演唱者和播放次数,歌曲名是在cl ...
python爬取豆瓣电影top250_利用python爬取豆瓣电影Top250，并把数据放入MySQL数据库...
在学习了python基础后,一心想着快速入门爬虫,因为我就是为爬虫而学的python,所以就找了这个豆瓣电影来爬取.好了,废话不多说,进入正题 1.找到网页并分析网页结构首先进入豆瓣电影Top250 ...
利用python爬取豆瓣音乐_python爬虫之豆瓣音乐top250
回家很久了,实在熬不住,想起来爬点数据玩一玩,之前自己笔记本是win7加ubuntu16.04双系统,本打算在ubuntu里写代码的,可是回到家ubuntu打开一直是紫屏,百度知乎方法用了也没解决,厉 ...

利用python 爬取豆瓣即将上映的电影

利用python 爬取豆瓣即将上映的电影相关推荐

最新文章

热门文章