Python-基于request豆瓣电影票房信息爬取，简单粗暴

豆瓣信息爬取

爬虫是根据自己所需在网络中进行信息爬取
注意：*** 网络爬虫要在法律允许范围内进行，切记不要越线； ***

#引入库
import requests
import urllib.request
import lxml
import lxml.html
from bs4 import  BeautifulSoup
import unicodecsv as ucsv
import re
import csv
import json
import pandas as pd
from lxml import etree
import time

1、根据豆瓣信息分类页面，查看Network,在刷新内容，就会出现图一中标红的文件，点击就会看见图二中电影的信息；
我们可以更改年限来爬去不同年代的电影的信息；
图一

图二
代码

movie_result = pd.DataFrame()
datas=[]
urls=[]
a = ["https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=%E7%94%B5%E5%BD%B1&start={}&year_range=2017,2017".format(j) for j in range(0,1000,20)]
b = ["https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=%E7%94%B5%E5%BD%B1&start={}&year_range=2016,2016".format(j) for j in range(0,1000,20)]
c = ["https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=%E7%94%B5%E5%BD%B1&start={}&year_range=2015,2015".format(j) for j in range(0,1000,20)]
urls.extend(a)
urls.extend(b)
urls.extend(c)
a=0
for j in urls:print(j)try:headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'}response = requests.get(j, headers=headers)    bs = json.loads(response.text)except Exception as error:print(error)continuetime.sleep(5)for i in bs['data']:casts = i['casts']  #主演directors = i['directors']  #导演rate = i['rate'] #评分title = i['title'] #片名url = i['url']  #网址datas.append([title,rate,directors,casts,url])a+=0if a%50==0:time.sleep(10)
# 防止程序电脑关机，保存信息到表格中
pp= pd.DataFrame(datas)
pp.to_csv('./data1.csv',index=False)

爬取信息如下：

2、根据第一次爬取的信息，我们可以得到每部电影的具体url，来爬取他具体的信息，如年代，时长，主演，导演，国家，评分等；我们根据第一得到的url，来获取该电影的IMDB连接来获取后期要爬取的票房；

图三
代码

o = pd.read_csv('./data.csv')
datas_1=[]
a=0
for i in o['4']:headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'}try:html = requests.get(i,headers = headers)print(html)bs = etree.HTML(html.text)except:print('错误')time.sleep(2)system=[]#类型for i in bs.xpath("//div[@id = 'info']/span[@property='v:genre']"):system.append(i.text)try:runtime = bs.xpath("//div[@id = 'info']/span[@property='v:runtime']")[0].text#时间——片长except:runtime=Nonetry:Time = bs.xpath('//div[@id = "content"]/h1/span')[1].text #时间_年except:Time=Nonetry:IMDB = bs.xpath("//div[@id = 'info']/a")[-1].xpath('@href')#IMDBexcept:IMDB=Noneprint([IMDB,Time,runtime])datas_1.append([IMDB,Time,runtime,system])a+=1print(a)if a%50==0:time.sleep(20)time.sleep(5)
#pp= pd.DataFrame(datas_1)
pp.to_csv('./data2.csv',index=False)

爬取信息如下：

3、根据我们第二步爬取的IMDB的url，我们来爬去该电影的票房，国家；
代码

pp = pd.read_csv('./data2.csv')
pp.columns=['url','年','时长','leix']
data_7=[]
for i in pp['url']:try:data_7.append(i[2:-2])except:data_7.append(None)
import numpy as np
data_1000=[]
u = 0
for i in data_7:print(i)if i==None:print(i)money=Nonecity=Noneelse:if i[:27]!='https://www.imdb.com/title/':money=Nonecity=Noneelse:try:headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'}#requests.packages.urllib3.disable_warnings()r = requests.get(i)html = etree.HTML(r.text)money=html.xpath("//div[@id = 'titleDetails']/div//*[text()='Cumulative Worldwide Gross:']/../text()")#票房city =html.xpath("//div[@id = 'titleDetails']/div//*[text()='Country:']/../a/text()")#国家Time =html.xpath("//div[@id = 'titleDetails']/div//*[text()='Runtime:']/../time/text()")#时长print([money,city,Time])#time.sleep(3)except:print('错误')money=Nonecity=NoneTime=None
#     if u%50==0:
#         time.sleep(10)u+=1print(u)data_1000.append([money,city,Time])print(len(data_1000))pp.to_csv('./data3.csv',index=False)

爬取信息如下：

感谢评论点赞！

Python-基于request豆瓣电影票房信息爬取，简单粗暴相关推荐

豆瓣电影Top250信息爬取并保存到excel文件中
豆瓣电影Top250下载并保存到excel文件中效果图前言确定目标网页url 爬取过程导入相关库页面内容的获取页面解析数据提取主函数的编写函数调用数据存储完整代码结语效果图 ...
Python豆瓣电影评论的爬取及词云显示
Python豆瓣电影评论的爬取及词云显示课程设计论文链接前言开发工具.核心库系统相关技术介绍系统分析与设计系统功能模块组成实现功能和目标爬取模块设计爬取过程中下一页的处理窗口界面设 ...
python爬虫实战三：近十年中国电影票房数据爬取与分析
近十年中国电影票房数据爬取与分析前言爬取分析十年top10 年度top5 每年电影数每年总票房二八原则代码与数据前言这篇文章主要讲述的是近十年(2010-2019)中国电影票房数据的 ...
请访问豆瓣电影网站，爬取4~10部电影信息（电影名、导演、演员、海报url链接，预报片视频链接)，并结合GUI界面展现电影信息，并可以根据选择的电影名，下载指定预告片视频到本地并显示预告片。GUI
请访问豆瓣电影网站,爬取4~10部电影信息(电影名.导演.演员.海报url链接,预报片视频链接),并结合GUI界面展现电影信息,并可以根据选择的电影名, 下载指定预告片视频到本地并显示预告片.GUI ...
项目三：近10年来中国电影票房数据爬取分析
近10年来中国电影票房数据爬取分析前言数据采集与存储数据清洗和简单分析引入库,导入数据近10年top 年度top5 每年电影数每年总票房结论二八原则 end 点击跳转到总目录前言这 ...
用Scrapy对豆瓣top250进行电影详细信息爬取
简述为了练习简单的Pandas操作,我用Scrapy爬取了豆瓣Top250的电影信息.Top250页面展现的电影信息和具体电影页面所呈现的内容有些不同(比如演员信息),所以爬取总共用了两部分代码.此 ...
基于scrapy下的租房信息爬取与数据展示工具的设计与实现
环境:python 3.6.0 Anaconda custom 64bit 4.3.0 Pycharm x64 专业版 2018.1.2 Web strom x64 专业版 2018.1.3 scra ...
python爬取豆瓣电影评论_python 爬取豆瓣电影评论，并进行词云展示及出现的问题解决办法...
def getHtml(url): """获取url页面""" headers = {'User-Agent':'Mozilla/5.0 ( ...
python爬取豆瓣电影top250_Python爬虫——爬取豆瓣电影Top250代码实例
利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...
python爬虫猫眼电影票房_python爬取猫眼电影top100排行榜
爬取猫眼电影TOP100(http://maoyan.com/board/4?offset=90) 1). 爬取内容: 电影名称,主演, 上映时间,图片url地址保存到mariadb数据库中; 2). ...

Python-基于request豆瓣电影票房信息爬取，简单粗暴

豆瓣信息爬取

Python-基于request豆瓣电影票房信息爬取，简单粗暴相关推荐

最新文章

热门文章