python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250

用Python爬虫实现爬取豆瓣电影Top250

#爬取豆瓣电影Top250

#250个电影，分为10个页显示，1页有25个电影

import urllib.request

from bs4 import BeautifulSoup

url = "https://movie.douban.com/top250"

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko'}

#headers 要根据自己的网页抓取情况修改

targetPath = "storage path" #填写自己想要存储的地址

def saveText(f,text):

f.write(text)

#获取网页源码

def getData(url,headers):

req = urllib.request.Request(url = url , headers = headers)

res = urllib.request.urlopen(req)

data = res.read()

return data

#解析网页

def praseHtml(f,url,headers):

currenturl = url

i = 1 #序号

#flag = True

while currenturl :

#解析当前页，获取想要的内容

html = getData(currenturl,headers)

soup = BeautifulSoup(html,'lxml')

moveList = soup.find('ol',attrs = {'class':'grid_view'})

for moveLi in moveList.find_all('li'):

detail = moveLi.find('p',attrs = {'class':'hd'})

moveName = detail.find('span',attrs = {'class':'title'})

saveText(f,str(i)+ moveName.getText()+'n')

i += 1

print(moveName.getText())

#下一页

nextpage = soup.find('span',attrs = {'class':'next'}).find('a')

#next = nextpage['href'] #这样写报错：NoneType object is not subscriptable

if nextpage:

currenturl = url + nextpage['href']

else :

currenturl = None

f = open(targetPath,"w")

praseHtml(f,url,headers)

python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250相关推荐

python爬取豆瓣电影top250_用Python爬取豆瓣电影TOP250分析
/ 01 / Scrapy 之前了解了pyspider框架的使用,但是就它而言,只能应用于一些简单的爬取. 对于反爬程度高的网站,它就显得力不从心. 那么就轮到Scrapy上场了,目前Python中使 ...
python爬取豆瓣电影top250_利用python爬取豆瓣电影Top250，并把数据放入MySQL数据库...
在学习了python基础后,一心想着快速入门爬虫,因为我就是为爬虫而学的python,所以就找了这个豆瓣电影来爬取.好了,废话不多说,进入正题 1.找到网页并分析网页结构首先进入豆瓣电影Top250 ...
python爬虫爬取豆瓣电影信息城市_python爬虫，爬取豆瓣电影信息
hhhhh开心,搞了一整天,查了不少python基础资料,终于完成了第一个最简单的爬虫:爬取了豆瓣top250电影的名字.评分.评分人数以及短评. 代码实现如下:#第一个最简单的爬虫 #爬取了豆瓣to ...
python爬取公众号历史文章_pythons爬虫：抓取微信公众号历史文章(selenium+phantomjs)...
原标题:pythons爬虫:抓取微信公众号历史文章(selenium+phantomjs) 大数据挖掘DT数据分析公众号: datadw 本文爬虫代码可以通过回复本公众号关键字"公众号& ...
python爬取豆瓣电影top250_【Python3爬虫教程】Scrapy爬取豆瓣电影TOP250
今天要实现的就是使用是scrapy爬取豆瓣电影TOP250榜单上的电影信息. 步骤如下: 一.爬取单页信息首先是建立一个scrapy项目,在文件夹中按住shift然后点击鼠标右键,选择在此处打开命令 ...
python爬取饿了么订单_python爬虫：爬取某图外卖数据有这篇文章就够了
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云作者:Python进阶者 ( 想要学习Python?Pyth ...
爬虫爬取链接中文字_使用爬虫技术爬取图片链接并下载图片
获取图片比获取文字更加复杂,获取文字在网页当中可以直接一次性的读取到文字:获取图片是获取图片的链接地址,然后通过链接地址下载到本地. 第一步:如何获取图片的链接地址打开图片新闻的地址:https:/ ...
Java爬虫采集电影,java的webmagic爬虫实现爬出某电影网的下载地址
事先说明不要用这技术,做一些违法的事情,网上玩爬虫的已经有还能多被抓了,此文就是为了学习webmagic 源码地址:https://github.com/smltq/spring-boot-demo/ ...
python爬取多页_Python 爬虫 2 爬取多页网页
本文内容: Requests.get 爬取多个页码的网页例:爬取极客学院课程列表爬虫步骤打开目标网页,先查看网页源代码 get网页源码找到想要的内容,找到规律,用正则表达式匹配,存储结果 Re ...

python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250

python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250相关推荐

最新文章

热门文章