爬取结果


代码很简单:

# encoding=utf8
import requests
import re
import time
from bs4 import BeautifulSoupfirstUrl = 'http://blog.csdn.net/snake_son/article/details/52282490'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36','Cookie': '_message_m=23yegwleahbzf4fy5a05grgr; uuid=e7680a5d-2824-45d9-ac7a-06289c3d3cd8; avh=53945000%2c52282490; dc_tos=os5x0v; dc_session_id=1498493448566'
}def getHtml(url):text = requests.get(url,headers).text# print('text  ',text)return text# txt = getHtml(firstUrl)def parseHtml(text):reg_next = r'blog_articles_xiayipian.*?location.href=(.*?);">'regNext = re.compile(reg_next)nextUrl = re.findall(regNext,text)print('当前新页面: ',nextUrl)str1 = ''.join(nextUrl).rstrip('\'')# htmurl = 'http://blog.csdn.net'+''.join(str1).rstrip('\'')# 将字符串前n个字符替换为指定的字符# strnset(sStr1,ch,n)sStr1 = ''.join(str1)ch = ''n = 1sStr1 = n * ch + sStr1[1:]htmurl = 'http://blog.csdn.net'+sStr1print('htmurl  '+htmurl)return htmurlfor i in range(1,56):text = getHtml(firstUrl)newUrl = parseHtml(text)firstUrl = newUrlprint('first2 ',firstUrl,'newUrl ',newUrl)

依然用的是re,觉得用的还是蛮不错的,一开始学习java 是很拒绝的,因为这个玩意那时候学的一脸懵逼,现在可倒好,很多教程说python3 爬取内容,用beautifulsoup,xpath,能不用re的话,就尽量不用,虽然我用过beautifulsoup,但是现在估计也有些陌生了,现在用的正则确实蛮爽的,越用越熟练。这次爬取刷博客浏览量是为了验证能

不能真的是进行浏览量的增加,

答案是可以的

进行浏览量的刷,我是获取最早的一篇博客,然后选择下一页按钮进行重新new 一个url再次访问的。其他就是可能在list 与string方面稍微遇到点问题,进行url部分的去除操

作,有必要的说一点的是,类似python这种后端开发,基础还是很重要的,更多的是自己动手来解决问题的能力,学会找错,排bug,这次爬取很简单,半小时没用到,主要是锻炼回来晚了,

写到最后: 实现了自己以前对刚开始博客想让着浏览量剧增的想法,想着有多少人看过我写过的博客,现在实现了想想,确实简单,自己的浏览量也就昨晚爬过两次,进行校验,so。 每次小小的成就都会让你越来越喜欢上它的

--------------------- 作者:徐代龙 来源:CSDN 原文:https://blog.csdn.net/snake_son/article/details/73825007?utm_source=copy 版权声明:本文为博主原创文章,转载请附上博文链接!

python3爬取博客浏览量相关推荐

  1. python实现kindle每天推送博客2----python实现爬取博客内容

    python爬虫教程很多, 本文以爬取博客为例 1. Beautiful Soup Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据 为节约篇幅,安装方法自行百度 解析 ...

  2. 爬取博客园首页并定时发送到微信

    应女朋友要求,为了能及时掌握技术动向,特意写了这个爬虫,每天定时爬取博客园首页并发送至微信. 环境: Python3.4 第三方库 Requests:向服务器发送请求 BeautifulSoup4:解 ...

  3. BeautifulSoup爬取博客实例

    BeautifulSoup爬取博客实例 爬取对象はてなブックマーク博客(日本网站) 用for循环爬取每个类别博客的前两页博客 使用python BeautifulSoup库 第一步: 爬取所有类别的文 ...

  4. java 使用webmagic 爬虫框架爬取博客园数据

    java 使用webmagic 爬虫框架爬取博客园数据存入数据库 学习记录   webmagic简介: WebMagic是一个简单灵活的Java爬虫框架.你可以快速开发出一个高效.易维护的爬虫. ht ...

  5. 爬虫-爬取博客的演练-首页内容保存-首页文章列表与url

    一,爬取博客的主页 import requestsurl = "https://me.csdn.net/ifubing"# https://blog.csdn.net/ifubin ...

  6. java爬虫之爬取博客园推荐文章列表

    这几天学习了一下Java爬虫的知识,分享并记录一下: 写一个可以爬取博客园十天推荐排行的文章列表 通过浏览器查看下一页点击请求,可以发现 在点击下一页的时候是执行的 post请求,请求地址为 http ...

  7. Java爬虫-WebMagic爬取博客图片(好色龍的網路觀察日誌)

    WebMagic爬取博客图片 最近在学习java爬虫,接触到WebMagic框架,正好拿我喜爱的博客来练习,希望龙哥(博主)不要责备我~~ 博客链接: 好色龍的網路觀察日誌 ,超级有趣的翻译漫画,持续 ...

  8. python爬虫:去掉重复的URL(爬取博客园中每页标题和url)

    1.爬取博客园中每页每条新闻的标题和url,在cnblog.py中写入操作内容(增加对每页的爬取) # -*- coding: utf-8 -*- import scrapy import sys i ...

  9. python 爬取博客访问量并且统计数据成图

    update by 2018-10-01: 开通了一个公众号,多数文章会围绕python写,有兴趣的朋友可以关注哟! 萌生思路 写了csdn博客已有半年之久了,虽然一直当做笔记记录自己的技术成长,但是 ...

最新文章

  1. Python Web实时消息后台服务器推送技术---GoEasy
  2. AR模型在信号处理中的应用
  3. Cloud Native 介绍
  4. redis-数据类型-有序集合
  5. mysql安装mac 压缩包_MySQL8.0安装详解(图文版)
  6. 数据结构笔记(三十一)--折半查找
  7. 优秀!26岁任985大学博导!
  8. Java:集合,Array、Collection(List/Set/Queue)、Map的遍历,比如:ArrayList,LinkedList,HashSet,HashMap...
  9. 宽带无线通信OFDM技术
  10. [English20071024]疯狂突破高中句型300句
  11. mybatis基础(下)
  12. dds文件怎么在linux查看,Linux 环境编译 OpenDDS 全记录
  13. 基于高德导航的Android大作业
  14. vue 微信登录(使用了vant)
  15. 十七、.net core(.NET 6)搭建基于Quartz组件的定时调度任务
  16. 代码:吃货联盟订餐系统
  17. 智能洗地机好不好用、洗地机和扫地机哪个实用?十大洗地机测评
  18. 慕课嵌入式开发及应用(第二章.嵌入式硬件构件与底层驱动构件基本规范)
  19. 村庄规划gis基础操作详细步骤
  20. 代码REVIEW的一般方法

热门文章

  1. Python - Selenium Chrome 模拟手机
  2. 【转】WebService中使用自定义类的解决方法(5种)
  3. python金融数据分析案例_Python数据分析行业案例课程--欺诈检测
  4. 记录git的一个小坑
  5. 如何下载微软虚拟学院MVA字幕
  6. python 实现数字,按照输入顺序的倒序,去重
  7. 在共享经济时代,逸管家集团引领中小企业走向辉煌
  8. 运用canvas将两张图片画在一起,生成一张新的图片,然后实现点击下载图片
  9. echarts科技饼图
  10. ur机械臂 控制器_UR机械臂 tcp/ip 远程控制编程实现详解 c++ UR script