PYTHON爬虫爬取豆瓣电影的一周口碑电影排行榜

代码前准备：
1.使用Eclipse进行开发，关于eclipse搭建python的环境见：https://www.cnblogs.com/telwanggs/p/7016803.html
2.使用bs4的BeautifulSoup
3.使用MySQL for Python连接数据库。
4.数据库表的设计：

一、主函数代码（doubanInsect.py）

import datetime
import pymysql
from douban.ranke_dao import insert_message
from douban.ranke_dao import find_message
from douban.html_outputer import output_html
from bs4 import BeautifulSoup
from pip._vendor import requestsallMovie=[]
connect = pymysql.connect(host='localhost', user='root', password='1111', db='python_class')#这些你的数据库信息，db为数据库名def getHTMLText(url):#获取豆瓣电影网站的h5代码try:r = requests.get(url, timeout=30)r.raise_for_status()r.encoding = 'utf-8'return r.textexcept:return ""def fillRanke(soup):#定位到一周口碑电影排行榜的div，并且获取每条数据并保存在allMoviedata = soup.find_all('div', class_="billboard-bd")for td in data:ltd = td.find_all('td')if len(ltd) == 0:continuesingleUniv = []for td in ltd:singleUniv.append(td.string)allMovie.append(singleUniv)def saveRanke():#将数据保存至mysql数据库i = 0ranke = 0name = ''date = datetime.datetime.now().strftime('%Y-%m-%d')while i < 20:if i % 2 == 0:ranke = int(i/2) + 1else:name = allMovie[0][i]insert_message(connect, ranke, name, date)i = i + 1def selectRanke():#将数据呈现在一个新的html中data = find_message(connect)output_html(data)def main():url = "https://movie.douban.com/"html = getHTMLText(url)soup = BeautifulSoup(html, "html.parser")fillRanke(soup)saveRanke()selectRanke()main()

二、关于数据库的插入与查找的操作（ranke_dao.py）


def insert_message(connect, ranke, name, date):#插入数据cursor = connect.cursor()sql = "INSERT INTO message(ranke, name, date) VALUES('%d','%s','%s')"%(ranke, name, date)cursor.execute(sql)connect.commit()connect.close();def find_message(connect):#查找数据cursor = connect.cursor()sql = "select ranke, name, date from message"cursor.execute(sql.encode('utf-8'))data = cursor.fetchall()connect.close();return data

三、将数据显示在html中（html_output.py）

def output_html(datas):i = 0fout = open('output.html', 'w')fout.write("<!DOCTYPE html>")fout.write("<html>")fout.write("<head>")fout.write("<meta charset=\"gbk\">")fout.write("</head>")fout.write("<body>")fout.write("<table>")for data in datas:if(i % 10 == 0):fout.write("<table>")fout.write("<h1>%s</h1>"%data[2])fout.write("<tr>")fout.write("<td>%d</td>"%data[0])fout.write("<td>%s</td>"%data[1])fout.write("</tr>")if(i % 9 == 0 and i != 0):fout.write("</table>")i = i + 1fout.write("</body>")fout.write("</html>")fout.close()

最后效果展示(之前运行过一次，所以有两次数据展示）：
mysql中:

out_put.html的效果：

------------------------------------分界线-------------------------------------------------
将功能升级，使其可以跳转查看预告片。
豆瓣有两个ID我们需要获取。
第一个就是每个电影的ID。

第二个就是通过每个电影的ID进入相应界面来获取的每个电影的预告片ID。（通过F12查看）

所以我们修改doubanInsect.py中的fillRanke代码，用来获取电影ID，并存到allId中。

def fillRanke(soup):data = soup.find_all('div', class_="billboard-bd")for td in data:ltd = td.find_all('td')for i in td.find_all('a'):allId.append(i['href'][33:])if len(ltd) == 0:continuesingleUniv = []for td in ltd:singleUniv.append(td.string)allMovie.append(singleUniv)

创建一个新的py文件,传给他电影ID，通过电影ID爬取预告片ID并返回。

import datetime
import pymysql
from douban.ranke_dao import insert_message
from douban.ranke_dao import find_message
from douban.html_outputer import output_html
from bs4 import BeautifulSoup
from pip._vendor import requests
import redef getHTMLText(url)try:r = requests.get(url, timeout=30)r.raise_for_status()r.encoding = 'utf-8'return r.textexcept:return ""def fillRanke(soup):#定位到一周口碑电影排行榜的div，并且获取每条数据并保存在allMoviedata = soup.find_all('a', class_="related-pic-video")for td in data:return td['href'][33:]def cha(url):html = getHTMLText(url)soup = BeautifulSoup(html, "html.parser")return fillRanke(soup)

修改doubanInsect.py中的main代码，添加循环调用新的py文件的代码，获取每一个预告片ID。

def main():for i in range(0,10):new_url = 'https://movie.douban.com/subject/' + allId[i]pianId.append(cha(new_url))

最后将预告片拼接为预告片URL用网页显示。

在这里插入图片描述

PYTHON爬虫爬取豆瓣电影的一周口碑电影排行榜相关推荐

Python爬虫爬取豆瓣电影TOP250
Python爬虫爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结主要分为三步: 爬取豆瓣top250的网页,并通过 ...
python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
Python爬虫爬取豆瓣电影评论内容，评论时间和评论人
Python爬虫爬取豆瓣电影评论内容,评论时间和评论人我们可以看到影评比较长,需要展开才能完整显示.但是在网页源码中是没有显示完整影评的.所以我们考虑到这部分应该是异步加载的方式显示.所以打开网页的 ...
python爬虫爬取豆瓣读书Top250
python爬虫爬取豆瓣读书Top250 话不多说,直接上代码! from urllib.request import urlopen, Request from bs4 import Beautif ...
Python爬虫爬取豆瓣电影Top250
爬虫爬取豆瓣Top250 文章目录爬虫爬取豆瓣Top250 完整代码第一步获取整个网页并以html来解析正则表达式来匹配关键词所有信息写入列表中存入Excel中效果如图本文学习自B站UP ...
python爬虫爬取豆瓣电影信息城市_Python爬虫入门 | 2 爬取豆瓣电影信息
这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...
用Python爬虫爬取豆瓣电影、读书Top250并排序
更新:已更新豆瓣电影Top250的脚本及网站概述经常用豆瓣读书的童鞋应该知道,豆瓣Top250用的是综合排序,除用户评分之外还考虑了很多比如是否畅销.点击量等等,这也就导致了一些近年来评分不高的畅 ...
python爬虫爬取豆瓣电影信息城市_python爬虫，爬取豆瓣电影信息
hhhhh开心,搞了一整天,查了不少python基础资料,终于完成了第一个最简单的爬虫:爬取了豆瓣top250电影的名字.评分.评分人数以及短评. 代码实现如下:#第一个最简单的爬虫 #爬取了豆瓣to ...
python爬虫爬取豆瓣top250电影影评
信息系统课程项目,小组准备做一个电影推荐系统,自己选了觉得很有趣的资源模块,需要获取电影的评价资源等信息.花了大约一周看Web Scraping with Python这本书,对爬虫有了大体但是初略的 ...
python爬虫——爬取豆瓣TOP250电影
相信很多朋友在看一部电影的时候喜欢先去豆瓣找一下网友对该片的评价.豆瓣作为国内最权威的电影评分网站,虽然有不少水军和精日精美分子,但是TOP250的电影还是不错的,值得一看. 爬取目标本文将爬取豆瓣 ...

PYTHON爬虫爬取豆瓣电影的一周口碑电影排行榜

PYTHON爬虫爬取豆瓣电影的一周口碑电影排行榜相关推荐

最新文章

热门文章