python3爬取博客浏览量

爬取结果

代码很简单：

# encoding=utf8
import requests
import re
import time
from bs4 import BeautifulSoupfirstUrl = 'http://blog.csdn.net/snake_son/article/details/52282490'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36','Cookie': '_message_m=23yegwleahbzf4fy5a05grgr; uuid=e7680a5d-2824-45d9-ac7a-06289c3d3cd8; avh=53945000%2c52282490; dc_tos=os5x0v; dc_session_id=1498493448566'
}def getHtml(url):text = requests.get(url,headers).text# print('text  ',text)return text# txt = getHtml(firstUrl)def parseHtml(text):reg_next = r'blog_articles_xiayipian.*?location.href=(.*?);">'regNext = re.compile(reg_next)nextUrl = re.findall(regNext,text)print('当前新页面: ',nextUrl)str1 = ''.join(nextUrl).rstrip('\'')# htmurl = 'http://blog.csdn.net'+''.join(str1).rstrip('\'')# 将字符串前n个字符替换为指定的字符# strnset(sStr1,ch,n)sStr1 = ''.join(str1)ch = ''n = 1sStr1 = n * ch + sStr1[1:]htmurl = 'http://blog.csdn.net'+sStr1print('htmurl  '+htmurl)return htmurlfor i in range(1,56):text = getHtml(firstUrl)newUrl = parseHtml(text)firstUrl = newUrlprint('first2 ',firstUrl,'newUrl ',newUrl)

依然用的是re，觉得用的还是蛮不错的，一开始学习java 是很拒绝的，因为这个玩意那时候学的一脸懵逼，现在可倒好，很多教程说python3 爬取内容，用beautifulsoup，xpath，能不用re的话，就尽量不用，虽然我用过beautifulsoup，但是现在估计也有些陌生了，现在用的正则确实蛮爽的，越用越熟练。这次爬取刷博客浏览量是为了验证能

不能真的是进行浏览量的增加，

答案是可以的

进行浏览量的刷，我是获取最早的一篇博客，然后选择下一页按钮进行重新new 一个url再次访问的。其他就是可能在list 与string方面稍微遇到点问题，进行url部分的去除操

作，有必要的说一点的是，类似python这种后端开发，基础还是很重要的，更多的是自己动手来解决问题的能力，学会找错，排bug，这次爬取很简单，半小时没用到，主要是锻炼回来晚了，

写到最后：实现了自己以前对刚开始博客想让着浏览量剧增的想法，想着有多少人看过我写过的博客，现在实现了想想，确实简单，自己的浏览量也就昨晚爬过两次，进行校验，so。每次小小的成就都会让你越来越喜欢上它的

python3爬取博客浏览量相关推荐

python实现kindle每天推送博客2----python实现爬取博客内容
python爬虫教程很多, 本文以爬取博客为例 1. Beautiful Soup Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据为节约篇幅,安装方法自行百度解析 ...
爬取博客园首页并定时发送到微信
应女朋友要求,为了能及时掌握技术动向,特意写了这个爬虫,每天定时爬取博客园首页并发送至微信. 环境: Python3.4 第三方库 Requests:向服务器发送请求 BeautifulSoup4:解 ...
BeautifulSoup爬取博客实例
BeautifulSoup爬取博客实例爬取对象はてなブックマーク博客(日本网站) 用for循环爬取每个类别博客的前两页博客使用python BeautifulSoup库第一步: 爬取所有类别的文 ...
java 使用webmagic 爬虫框架爬取博客园数据
java 使用webmagic 爬虫框架爬取博客园数据存入数据库学习记录 webmagic简介: WebMagic是一个简单灵活的Java爬虫框架.你可以快速开发出一个高效.易维护的爬虫. ht ...
爬虫-爬取博客的演练-首页内容保存-首页文章列表与url
一,爬取博客的主页 import requestsurl = "https://me.csdn.net/ifubing"# https://blog.csdn.net/ifubin ...
java爬虫之爬取博客园推荐文章列表
这几天学习了一下Java爬虫的知识,分享并记录一下: 写一个可以爬取博客园十天推荐排行的文章列表通过浏览器查看下一页点击请求,可以发现在点击下一页的时候是执行的 post请求,请求地址为 http ...
Java爬虫-WebMagic爬取博客图片(好色龍的網路觀察日誌)
WebMagic爬取博客图片最近在学习java爬虫,接触到WebMagic框架,正好拿我喜爱的博客来练习,希望龙哥(博主)不要责备我~~ 博客链接: 好色龍的網路觀察日誌 ,超级有趣的翻译漫画,持续 ...
python爬虫：去掉重复的URL（爬取博客园中每页标题和url）
1.爬取博客园中每页每条新闻的标题和url,在cnblog.py中写入操作内容(增加对每页的爬取) # -*- coding: utf-8 -*- import scrapy import sys i ...
python 爬取博客访问量并且统计数据成图
update by 2018-10-01: 开通了一个公众号,多数文章会围绕python写,有兴趣的朋友可以关注哟! 萌生思路写了csdn博客已有半年之久了,虽然一直当做笔记记录自己的技术成长,但是 ...

python3爬取博客浏览量

python3爬取博客浏览量相关推荐

最新文章

热门文章