爬取结果


代码很简单:

# encoding=utf8
import requests
import re
import time
from bs4 import BeautifulSoupfirstUrl = 'http://blog.csdn.net/snake_son/article/details/52282490'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36','Cookie': '_message_m=23yegwleahbzf4fy5a05grgr; uuid=e7680a5d-2824-45d9-ac7a-06289c3d3cd8; avh=53945000%2c52282490; dc_tos=os5x0v; dc_session_id=1498493448566'
}def getHtml(url):text = requests.get(url,headers).text# print('text  ',text)return text# txt = getHtml(firstUrl)def parseHtml(text):reg_next = r'blog_articles_xiayipian.*?location.href=(.*?);">'regNext = re.compile(reg_next)nextUrl = re.findall(regNext,text)print('当前新页面: ',nextUrl)str1 = ''.join(nextUrl).rstrip('\'')# htmurl = 'http://blog.csdn.net'+''.join(str1).rstrip('\'')# 将字符串前n个字符替换为指定的字符# strnset(sStr1,ch,n)sStr1 = ''.join(str1)ch = ''n = 1sStr1 = n * ch + sStr1[1:]htmurl = 'http://blog.csdn.net'+sStr1print('htmurl  '+htmurl)return htmurlfor i in range(1,56):text = getHtml(firstUrl)newUrl = parseHtml(text)firstUrl = newUrlprint('first2 ',firstUrl,'newUrl ',newUrl)

依然用的是re,觉得用的还是蛮不错的,一开始学习java 是很拒绝的,因为这个玩意那时候学的一脸懵逼,现在可倒好,很多教程说python3 爬取内容,用beautifulsoup,xpath,能不用re的话,就尽量不用,虽然我用过beautifulsoup,但是现在估计也有些陌生了,现在用的正则确实蛮爽的,越用越熟练。这次爬取刷博客浏览量是为了验证能

不能真的是进行浏览量的增加,

答案是可以的

进行浏览量的刷,我是获取最早的一篇博客,然后选择下一页按钮进行重新new 一个url再次访问的。其他就是可能在list 与string方面稍微遇到点问题,进行url部分的去除操

作,有必要的说一点的是,类似python这种后端开发,基础还是很重要的,更多的是自己动手来解决问题的能力,学会找错,排bug,这次爬取很简单,半小时没用到,主要是锻炼回来晚了,

写到最后: 实现了自己以前对刚开始博客想让着浏览量剧增的想法,想着有多少人看过我写过的博客,现在实现了想想,确实简单,自己的浏览量也就昨晚爬过两次,进行校验,so。 每次小小的成就都会让你越来越喜欢上它的


下次进行xpath的爬取,朝着上万数据的爬取。更好的深入理解

python3 [入门基础实战] 爬虫入门之刷博客浏览量相关推荐

  1. python刷今日头条访问量_Python 自动刷博客浏览量实例代码

    怎么利用python爬取csdn博客访问量例子 如何使用python来爬取自己博客访问量承认吧,小编们都是在深夜里崩溃的俗人.晚安,世界. 博客网站上有访问量这个记录么 如果有就可以抓取网站下来,正则 ...

  2. python3 [入门基础实战] 爬虫入门之爬取豆瓣阅读中文电子书[热门排序]

    稍微总结一下: 今天爬的稍微有点打击士气了,但是还是学到了不少东西, 告诉我们,要学会自己去百度,谷歌答案, 自己去思考,不要依赖一些技术交流QQ群,很多都是水群的, 真的帮助你的是很少的. 重点在这 ...

  3. python3 [入门基础实战] 爬虫入门之xpath爬取脚本之家python栏目

    这次爬取的确实有些坎坷,经过了两个晚上吧,最后一个晚上还是爬取数据到最后一公里了,突然报错了.又得继续重新进行爬取 先来个爬取结果图,这次爬取的是标题,url,还有日期,估计也就只有这么多内容,用的单 ...

  4. python3爬取博客浏览量

    爬取结果 代码很简单: # encoding=utf8 import requests import re import time from bs4 import BeautifulSoupfirst ...

  5. python爬虫练习5:博客阅读量助手

    目标与环境 爬取csdn博客如"http://blog.csdn.net/nima1994"的文章列表,获取阅读量等,与上次进行比较 使用eclipse+pydev编写,win10 ...

  6. 简单爬虫,查博客浏览量

    简单的字符串操作,稍微有些不严谨,但还可以修改.直接运行下面的yeshu()方法就可以. yeshu("http://www.cnblogs.com/cyrfr/"); //博客园 ...

  7. 慕课网python零基础入门教程_零基础Python爬虫入门学习一之综述

    原标题:零基础Python爬虫入门学习一之综述 大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章 ...

  8. Python3 - 刷博客访问量脚本

    Python3 - 刷博客访问量脚本 #!/usr/bin/env python # -*- coding:utf-8 -*- import urllib import urllib.request ...

  9. shaderToy初学笔记(一)(​转载自最简单的ShaderToy入门 - 笑脸渲染_亨利王的博客-CSDN博客_shadertoy)

    void mainImage( out vec4 fragColor, in vec2 fragCoord ) {vec2 uv = fragCoord/iResolution.xy;uv-=.5;f ...

  10. DayDayUp:Markdown编辑器的简介、入门、使用方法(Markdown编辑器撰写博客)

    DayDayUp:Markdown编辑器的简介.入门.使用方法(Markdown编辑器撰写博客) 目录 Markdown编辑器简介 Markdown编辑器入门 Markdown常用语法 Markdow ...

最新文章

  1. linux如何查tomcat是否安装,如何检测linux机器上是否安装了tomcat和ant
  2. 单源最短路 Dijkstra算法 和 SPFA算法
  3. 15款提高工作效率的工具分享
  4. 若依部署上线之后验证码不显示的解决方法之一
  5. 萤石云设备下线是什么导致的_什么原因导致化工设备腐蚀?腐蚀防护措施有哪些?...
  6. 在Vrep中如何创建基于QT的GUI
  7. 淘宝分布式NOSQL框架:Tair
  8. 京东怎么在线联系客服
  9. Windows10 安装 RabbitMQ
  10. 交换机的基本配置实验报告_交换机入门配置,最基本的IP及登录方式配置,一分钟了解下...
  11. 传输层协议(11):超时重传
  12. 制作WIN_XP无人值守光盘
  13. 计算机桌面桌面设置动态视频教程,电脑怎么设置动态桌面?电脑设置动态视频桌面教程...
  14. 在 Activity 中添加 Menu 菜单
  15. Android 网络质量 + 下载测速 (facebook/network-connection-class 使用)
  16. html编写一个飞机游戏,利用HTML5 Canvas如何制作一个简单的打飞机游戏
  17. 解决IE7无法设置空白页的办法
  18. testNG - 无法访问org.testng.Assert
  19. 逆向app - 简单apk工具的安装
  20. scheme 教程 #lang racket

热门文章

  1. 计算机图形学实验体会,计算机图形学实验报告.doc
  2. socket 由于目标计算机积极拒绝 无法连接,由于目标计算机积极拒绝,无法连接。 192.168.3.9:8081...
  3. JAVA Swing界面美化 -付费界面库
  4. Robotframework(三)常用API介绍
  5. vue3 loadsh 防抖功能
  6. html学生项目总结反思,小学月考总结与反思(精选10篇)
  7. lattice学习笔记(一)
  8. PIL imagefont 添加下划线
  9. 燃烧的远征_从菜鸟通往java世界的修炼之路
  10. Telltale:简化了Netflix应用程序监视