用Python爬虫实现爬取豆瓣电影Top250

#爬取 豆瓣电影Top250

#250个电影 ,分为10个页显示,1页有25个电影

import urllib.request

from bs4 import BeautifulSoup

url = "https://movie.douban.com/top250"

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko'}

#headers 要根据自己的网页抓取情况修改

targetPath = "storage path" #填写自己想要存储的地址

def saveText(f,text):

f.write(text)

#获取网页源码

def getData(url,headers):

req = urllib.request.Request(url = url , headers = headers)

res = urllib.request.urlopen(req)

data = res.read()

return data

#解析网页

def praseHtml(f,url,headers):

currenturl = url

i = 1 #序号

#flag = True

while currenturl :

#解析当前页,获取想要的内容

html = getData(currenturl,headers)

soup = BeautifulSoup(html,'lxml')

moveList = soup.find('ol',attrs = {'class':'grid_view'})

for moveLi in moveList.find_all('li'):

detail = moveLi.find('p',attrs = {'class':'hd'})

moveName = detail.find('span',attrs = {'class':'title'})

saveText(f,str(i)+ moveName.getText()+'n')

i += 1

print(moveName.getText())

#下一页

nextpage = soup.find('span',attrs = {'class':'next'}).find('a')

#next = nextpage['href'] #这样写报错:NoneType object is not subscriptable

if nextpage:

currenturl = url + nextpage['href']

else :

currenturl = None

f = open(targetPath,"w")

praseHtml(f,url,headers)

python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250相关推荐

  1. python爬取豆瓣电影top250_用Python爬取豆瓣电影TOP250分析

    / 01 / Scrapy 之前了解了pyspider框架的使用,但是就它而言,只能应用于一些简单的爬取. 对于反爬程度高的网站,它就显得力不从心. 那么就轮到Scrapy上场了,目前Python中使 ...

  2. python爬取豆瓣电影top250_利用python爬取豆瓣电影Top250,并把数据放入MySQL数据库...

    在学习了python基础后,一心想着快速入门爬虫,因为我就是为爬虫而学的python,所以就找了这个豆瓣电影来爬取.好了,废话不多说,进入正题 1.找到网页并分析网页结构 首先进入豆瓣电影Top250 ...

  3. python爬虫爬取豆瓣电影信息城市_python爬虫,爬取豆瓣电影信息

    hhhhh开心,搞了一整天,查了不少python基础资料,终于完成了第一个最简单的爬虫:爬取了豆瓣top250电影的名字.评分.评分人数以及短评. 代码实现如下:#第一个最简单的爬虫 #爬取了豆瓣to ...

  4. python爬取公众号历史文章_pythons爬虫:抓取微信公众号 历史文章(selenium+phantomjs)...

    原标题:pythons爬虫:抓取微信公众号 历史文章(selenium+phantomjs) 大数据挖掘DT数据分析 公众号: datadw 本文爬虫代码可以通过回复本公众号关键字"公众号& ...

  5. python爬取豆瓣电影top250_【Python3爬虫教程】Scrapy爬取豆瓣电影TOP250

    今天要实现的就是使用是scrapy爬取豆瓣电影TOP250榜单上的电影信息. 步骤如下: 一.爬取单页信息 首先是建立一个scrapy项目,在文件夹中按住shift然后点击鼠标右键,选择在此处打开命令 ...

  6. python爬取饿了么订单_python爬虫:爬取某图外卖数据有这篇文章就够了

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:Python进阶者 ( 想要学习Python?Pyth ...

  7. 爬虫爬取链接中文字_使用爬虫技术爬取图片链接并下载图片

    获取图片比获取文字更加复杂,获取文字在网页当中可以直接一次性的读取到文字:获取图片是获取图片的链接地址,然后通过链接地址下载到本地. 第一步:如何获取图片的链接地址 打开图片新闻的地址:https:/ ...

  8. Java爬虫采集电影,java的webmagic爬虫实现爬出某电影网的下载地址

    事先说明不要用这技术,做一些违法的事情,网上玩爬虫的已经有还能多被抓了,此文就是为了学习webmagic 源码地址:https://github.com/smltq/spring-boot-demo/ ...

  9. python爬取多页_Python 爬虫 2 爬取多页网页

    本文内容: Requests.get 爬取多个页码的网页 例:爬取极客学院课程列表 爬虫步骤 打开目标网页,先查看网页源代码 get网页源码 找到想要的内容,找到规律,用正则表达式匹配,存储结果 Re ...

最新文章

  1. Python itertools 实现全组合
  2. Hello World!!
  3. LeetCode Algorithm 22. 括号生成
  4. 当当年中庆典,力度超前,花120买300的硬核书
  5. Web Hacking 101 中文版 十一、SQL 注入
  6. LeetCode(509)——斐波那契数(JavaScript)
  7. L1L2 Regularization的原理
  8. Windows API一日一练(40)CreateRectRgn和CombineRgn函数
  9. 基于51单片机WiFi温湿度远程控制
  10. latex插入参考文献技巧
  11. 初中英语语法(018)-间接疑问句
  12. 2020年度“广东省守合同重信用企业”
  13. 关于使用梆梆加固后,适配android5.0系统与64位机型的问题
  14. [ 数据集 ] COCO 数据集介绍
  15. PYTHON实现机械臂运动检测
  16. Java8种Stream流相关操作——集合的筛选、归约、分组、聚合
  17. lv双肩包尺寸对照表_lv双肩包mini尺寸对照表
  18. 【HEOI2012】采花
  19. 尼日利亚4g频段_尼日利亚初创公司Tizeti在全国范围内推出4G LTE网络
  20. 一键安装nginx脚本

热门文章

  1. Linux学习总结(50)——grep查看打印匹配的下几行或前后几行使用总结
  2. 报Cannot find /usr/local/tomcat/bin/setclasspath.sh错误
  3. JS判断两个日期的差或者判断两个日期的大小
  4. VS发布 错误 未能将文件 复制到
  5. [xcode]instruments来检验你的app
  6. 当配置 DispatcherServlet拦截“/”,SpringMVC访问静态资源的三种方式
  7. C# Reflection
  8. Java_常遇问题(一)
  9. 笨方法学python - 04
  10. GB-T 16260.1-2006 软件工程 产品质量