最近在学习爬虫技术,在网上找了一些资料,也找到了一些例子,但找到的例子是基于python2的所以就改成了python3的,而且加了一个将电影的评分也打印出来的语句,话不多说,上代码:

#!/usr/bin/python
# -*- coding: utf-8 -*- #
import requests,sys,re
from bs4 import BeautifulSoup#reload(sys)
#sys.setdefaultencoding('utf-8')
print('正在从豆瓣电影Top250抓取数据......')
pnames=[]
pscore=[]
for page in range(10):url='https://movie.douban.com/top250?start='+str((page-1)*25)print('---------------------------正在爬取第'+str(page+1)+'页......--------------------------------')html=requests.get(url)html.raise_for_status()try:soup=BeautifulSoup(html.text,'html.parser')soup=str(soup) # 利用正则表达式需要将网页文本转换成字符串title=re.compile(r'<span class="title">(.*)</span>')sco00=re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')names=re.findall(title,soup)score=re.findall(sco00,soup)for name in names:if name.find('/')==-1: # 剔除英文名(英文名特征是含有'/')pnames.append(name)for core in score:pscore.append(core)except Exception as e:print(e)
print('爬取完毕!')for i in range(len(pscore)):print(pnames[i] + '\t' + pscore[i])

输出结果如图:



等等。。。。。

参考资料:
http://www.cnblogs.com/carpenterworm/p/6026274.html

爬虫学习--豆瓣top250相关推荐

  1. Python 爬虫分析豆瓣 TOP250 之 信息字典 和 马斯洛的锥子

    问题 本文是对<Python 爬虫分析豆瓣 TOP250 告诉你程序员业余该看什么书?> 一文的补充 我们以<追风少年>为例 用chrome的developer tool查看源 ...

  2. Python 爬虫分析豆瓣 TOP250 告诉你程序员业余该看什么书?

    [CSDN 编者按]程序员刷豆瓣也要刷出技术感,本文爬取豆瓣 TOP250 告诉你这些书"热门"在哪里!案例分析之外,重在梳理编写爬虫的逻辑和链路关键点,手把手教你形成自己编写爬虫 ...

  3. 爬虫-关于豆瓣top250的数据可视化

    目的:该文章的目的是对豆瓣TOP250网页的爬虫就行可视化分析. 明确目标,导入所需库 使用flask库建立网络框架 完成每个网页的内容 豆瓣电影评分top250:豆瓣电影 Top 250 (doub ...

  4. Python爬虫之豆瓣TOP250爬取

    文章目录 1.分析网页 1.1为什么要分析网页 1.2如何分析网页 1.3打开编辑环境 1.4生成链接 2.请求网页 2.1导入包 2.2设置浏览器代理 2.3请求服务器 2.4请求服务器代码汇总 3 ...

  5. python——爬虫(豆瓣top250)

    一.抓取豆瓣top250网页数据 import urllib.request as urlrequest from bs4 import BeautifulSouptop250_url = " ...

  6. Python爬虫实战----------豆瓣TOP250

    *前段时间学习了一些浅显的爬虫知识,防止遗忘写个博客记录一下,如果能帮到其他人是更好的 本篇介绍一下如何一步一步实现使用python爬取豆瓣电影TOP250,博主是个小白,如果内容有误,请将宝贵的建议 ...

  7. python爬虫项目——豆瓣Top250

    我们今天讲一个爬虫项目案例,实现对豆瓣电影top榜的爬取 .把爬取的数据存到我们电脑本地文件当中.通过这个项目可以让我们真正感受到爬虫的带给我们的乐趣.现在我来讲一下思路以及实现方法,因为豆瓣电影的这 ...

  8. 近期爬虫学习体会以及爬豆瓣Top250源码实战

    近期爬虫学习体会以及爬豆瓣Top250源码实战 我是在B站https://www.bilibili.com/video/BV12E411A7ZQ?p=25里学习的,至今已经可以手写爬豆瓣Top250代 ...

  9. 爬虫(豆瓣电影Top250数据分析)学习笔记

    学习了有关python爬虫的内容,也算有所收获,写下第一篇博客来对所学进行一个总结,也算督促自己进行主动研究学习的第一步. 主要内容: 首先总结一下学习的主要内容: 从豆瓣获取数据 建立SQLite数 ...

最新文章

  1. 编译原理练习题(第二章)
  2. 英文投稿成功接收的经验
  3. 详解python中的用法_详解python中*号的用法
  4. 欧拉回路和哈密尔顿回路
  5. uaa 授权_使用UAA OAuth2授权服务器–客户端和资源
  6. 【渝粤题库】陕西师范大学292391 金融机构管理 作业(专升本)
  7. ES6_解构赋值_note
  8. 二. python面向对象(内置方法and析构函数)
  9. XmlDocument,XDocument相互转换
  10. iOS的UILabel设置居上对齐,居中对齐,居下对齐
  11. jmeter展示内存cpu_Jmeter监控服务器-CPU,Memory,Disk,Network性能指标
  12. 微信小程序消息推送(java)
  13. 三维可视化常见的技术路线浅析
  14. 喜欢吃鱼的朋友一定要转哦
  15. ADP(自适应动态规划)-值迭代
  16. Python爬虫实战,QQ音乐爬取全部歌曲
  17. 聊聊如何度过寒冬(公司篇)
  18. 百度中的高级搜索功能
  19. Qt下QTableWidget 基本用法
  20. mysql三国人物库_一文带你使用neo4j生成三国人物社交关系图

热门文章

  1. 经验:在mysql中避免重复插入数据的4种方式
  2. nginx配置ajax请求跨域
  3. 《IBM-PC汇编语言程序设计》(第2版)【沈美明 温冬婵】——第三章——自编解析与答案
  4. Vue——项目部署到非根目录下的解决方案
  5. PHP——获取当前日期时间错误解决方案(PHP当前时区设置)
  6. Polycarp Restores Permutation
  7. iOS8开发~UI布局(一)初探Size Class
  8. RxJava中常见的几种Subject
  9. BUU刷题记录——Misc(一)
  10. 定点定时抛物效果实现