实现功能:
查看自己活着别人CSDN中每篇博客的访问量
语言:
Python3.5
用到的库:
requests
re
步骤:
1.找到数据源:找到一个现实所有博客的页面,在一篇博客的右上方可以点击目录查看所有博客的名字和浏览次数。
2.筛选标题:审查元素找到标题对应的位置,观察标题前后的代码,找到规律编写正则表达试。
3.筛选浏览量:同上
4.取数据:爬取页面,用正则表单是匹配标题和浏览量。
5.输出:根据标题对应的访问量输出爬取的内容
结果:
如图


代码

# -*- coding:utf-8 -*-import requests
import reheader = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/20100101 Firefox/47.0','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en-US,en;q=0.5','Accept-Encoding': 'gzip, deflate, br'}
#步骤1
html = requests.get('http://blog.csdn.net/boomhankers?viewmode=list',headers = header)
print('结果:',html.status_code)
print('原因:',html.reason)
#步骤2、3
rule1 = 'title="阅读次数">阅读<\/a>\((.*?)\)<\/span>'
rule2 = '<span class="link_title"><a href=".*?">(.*?)</a></span>'
patten1 = re.compile(rule1,re.S)
patten2 = re.compile(rule2,re.S)
#步骤4
tileArray = re.findall(patten2,html.text)
timeArray = re.findall(patten1,html.text)
#步骤5
i = 0
for tile in tileArray:print(tile+": "+timeArray[i])i = i+1

源码地址:点击打开链接

Python爬虫爬取博客访问量相关推荐

  1. 爬虫-爬取博客的演练-首页内容保存-首页文章列表与url

    一,爬取博客的主页 import requestsurl = "https://me.csdn.net/ifubing"# https://blog.csdn.net/ifubin ...

  2. python爬虫设计刷博客访问量(刷访问量,赞,爬取图片)

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 需要准备 ...

  3. python 爬取博客访问量并且统计数据成图

    update by 2018-10-01: 开通了一个公众号,多数文章会围绕python写,有兴趣的朋友可以关注哟! 萌生思路 写了csdn博客已有半年之久了,虽然一直当做笔记记录自己的技术成长,但是 ...

  4. python爬虫爬取安居客并进行简单数据分析

    此篇博客为普通方式爬取安居客租房数据一共提取出1200条,但是在进行大规模的数据爬取时,不建议使用这种方式,速度太慢是最大的诟病,在进行大规模爬取时,使用分布式爬虫是第一选择 爬取过程 一.指定爬取数 ...

  5. python爬虫爬取安居客房源信息

    爬取安居客房源信息 Xpath插件的安装 爬取重庆花溪附近的房源信息(进入正题啦~) 梳理下逻辑 爬取数据的通用流程 代码 代码的问题 & 运行时可能出现的问题 结果 数据处理部分(写给我自己 ...

  6. python 爬虫 博客园_Python爬虫爬取博客园作业

    分析一下他们的代码,我在浏览器中对应位置右键,然后点击检查元素,可以找到对应部分的代码.但是,直接查看当前网页的源码发现,里面并没有对应的代码.我猜测这里是根据服务器上的数据动态生成的这部分代码,所以 ...

  7. python 爬虫可视化编程_Python爬虫爬取博客实现可视化过程解析

    源码: from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link='https ...

  8. python爬取学校题库_如何使用 Python 爬虫爬取牛客网 Java 题库?

    [原文链接]http://www.changxuan.top/?p=146 由于"打怪"失败,最近一直在牛客网上刷题复习备战春招.其中有个 Java专题复习题库,我刷着刷着就想把它 ...

  9. 如何使用 Python 爬虫爬取牛客网 Java 题库?

    [原文链接]http://www.changxuan.top/?p=146 由于"打怪"失败,最近一直在牛客网上刷题复习备战春招.其中有个 Java专题复习题库,我刷着刷着就想把它 ...

最新文章

  1. UI自动化测试工具White简介以及使用经验总结(一)
  2. Nat. Commun.|北京大学吴华君,基因组3D结构调控胚胎干细胞分化
  3. streamsets添加mysql驱动_StreamSets3.9.1安装说明
  4. junit junit_JUnit显示名称– @DisplayName
  5. pytorch---张量和自动求导
  6. 关于光纤宽带技术,看这一篇就够啦!
  7. 黑马程序员Netty全套教程,全网最全Netty深入浅出教程,Java网络编程的王者
  8. 数字图像处理实验四对比度增强
  9. 学计算机颈椎痛,近九成电脑族曾颈椎疼痛,怎么办?
  10. ckc交易什么意思_股票熔断是什么意思啊?熔断机制对股民的影响有那些
  11. Docker(24)- docker login 命令详解
  12. only buildscript {} and other plugins {} script blocks are allowed before plugins {} blocks...
  13. 逆向某视频直播软件,破解收费观看
  14. c++使用OpenSSL基于socket实现tcp双向认证ssl(使用TSL协议)代码实现
  15. python编程锦囊pdf百度云_python编程锦囊 相关实例(示例源码)下载 - 好例子网
  16. 工控服务器什么作用,工控机和服务器有什么区别
  17. D3D Surface/Texture SDL DDraw渲染视频的区别和疑问
  18. ROS官网使用方式以及问题?
  19. 五种方法让你的软文像新闻
  20. WiFi - 访客网络有什么用?怎么开启?

热门文章

  1. 贾扬清新公司Lepton AI曝光,ONNX联创、etcd作者加盟,产品内测中
  2. OneFlow开源第一周
  3. 【微信小程序入门到精通】— window 导航栏配置
  4. 矩阵的运算----(一)
  5. 携程商旅用户画像系统设计实现
  6. 未来人类T5 睡眠后无法唤醒屏幕 但没死机 假睡死 问题 不完美的解决
  7. NS版暗黑破坏神3金手指开发教程(10)
  8. ip-com无线wds设置
  9. 腾讯安全副总裁黎巍谈WAF:通过云原生能力构建安全基座
  10. 单臂软路由实现(二) 新版OpenWrt实现VLAN划分 结合交换机进行拨号上网