一,爬取博客的主页

import requestsurl = "https://me.csdn.net/ifubing"# https://blog.csdn.net/ifubing
# https://blog.csdn.net/ifubing/article/list/2?res = requests.get(url)con = res.content.decode()print(con)with open("ifubing.html", "w", encoding="utf8") as f:f.write(con)

二,提取内容-提取博客标题与url链接

f = open("ifubing.html", "r", encoding="utf8")
c = f.read()
print(c)import re
# 当前页的全部文章列表
url_list = re.findall(r'<h3><a href="(.*?)" target="_blank" class="sub_title">', c)
# 当前页的标题
title = re.findall(r'<title>(.*?)</title>', c)
print(title)res = re.findall(r"<h3>(.*?)</h3>", c, re.DOTALL)
print(res)d = {}
for i in res:# print(i)li = i.split()print(li)url = li[1].lstrip('href=').strip('"')name = li[-1].strip('</a>')d[name] = urlprint(d)for k,v in d.items():print('标题是{}'.format(k))print('链接是{}'.format(v))print("*"*10)

效果

扩展

正则的演练

爬虫-爬取博客的演练-首页内容保存-首页文章列表与url相关推荐

  1. python 爬虫可视化编程_Python爬虫爬取博客实现可视化过程解析

    源码: from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link='https ...

  2. python 爬虫 博客园_Python爬虫爬取博客园作业

    分析一下他们的代码,我在浏览器中对应位置右键,然后点击检查元素,可以找到对应部分的代码.但是,直接查看当前网页的源码发现,里面并没有对应的代码.我猜测这里是根据服务器上的数据动态生成的这部分代码,所以 ...

  3. Python爬虫爬取博客访问量

    实现功能: 查看自己活着别人CSDN中每篇博客的访问量 语言: Python3.5 用到的库: requests re 步骤: 1.找到数据源:找到一个现实所有博客的页面,在一篇博客的右上方可以点击目 ...

  4. java爬虫之爬取博客园推荐文章列表

    这几天学习了一下Java爬虫的知识,分享并记录一下: 写一个可以爬取博客园十天推荐排行的文章列表 通过浏览器查看下一页点击请求,可以发现 在点击下一页的时候是执行的 post请求,请求地址为 http ...

  5. python爬虫:去掉重复的URL(爬取博客园中每页标题和url)

    1.爬取博客园中每页每条新闻的标题和url,在cnblog.py中写入操作内容(增加对每页的爬取) # -*- coding: utf-8 -*- import scrapy import sys i ...

  6. 爬取博客园首页并定时发送到微信

    应女朋友要求,为了能及时掌握技术动向,特意写了这个爬虫,每天定时爬取博客园首页并发送至微信. 环境: Python3.4 第三方库 Requests:向服务器发送请求 BeautifulSoup4:解 ...

  7. java 使用webmagic 爬虫框架爬取博客园数据

    java 使用webmagic 爬虫框架爬取博客园数据存入数据库 学习记录   webmagic简介: WebMagic是一个简单灵活的Java爬虫框架.你可以快速开发出一个高效.易维护的爬虫. ht ...

  8. Java爬虫-WebMagic爬取博客图片(好色龍的網路觀察日誌)

    WebMagic爬取博客图片 最近在学习java爬虫,接触到WebMagic框架,正好拿我喜爱的博客来练习,希望龙哥(博主)不要责备我~~ 博客链接: 好色龍的網路觀察日誌 ,超级有趣的翻译漫画,持续 ...

  9. python实现kindle每天推送博客2----python实现爬取博客内容

    python爬虫教程很多, 本文以爬取博客为例 1. Beautiful Soup Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据 为节约篇幅,安装方法自行百度 解析 ...

最新文章

  1. JS-JavaScript学习笔记(一)
  2. js时间选择器_Vuestic Admin一款免费与美妙基于Vue.js开发的管理模板
  3. matlab 控制实验指导,智能控制系统-实验指导书-实验一-BP算法的MATLAB实现
  4. 从0到1搭建移动App功能自动化测试平台(2):操作iOS应用的控件
  5. sql power bi_在SQL,Power BI和MS Excel中计算移动平均值
  6. java中的“+”运算符,产生新对象问题。(非常好的面试题!)
  7. 论文 计算机网络技术的功能,计算机网络技术在有线电视网络中的作用论文
  8. React-Native 仿喜马拉雅APP项目笔记(多环境配置 项目配置路径 堆栈式导航)
  9. 如何解决NullPointerException in android.view.GLES20RecordingCanvas
  10. 有什么软件可以把视频上下拼接在一起?
  11. 用Wineskin在Mac上运行exe文件
  12. HART协议命令与UART串口解析
  13. 网页版俄罗斯方块第1版
  14. MyBatis 报错The error may exist in…….xml
  15. 表格操作系列——字段名与字段别名的获取
  16. java上传加密_Java实现文件的加密与解密
  17. “柿饼派”免费体验名单公布!
  18. java计算机毕业设计基于安卓Android的禁毒宣传APP
  19. taro开发微信小程序禁止下拉刷新(ios下拉出现空白问题)
  20. 什么是系统建模语言(SysML)?

热门文章

  1. Mybatis(9)Dao实现类和无实现类的执行过程
  2. HbuliderX + vue项目(初始化创建) - 准备篇
  3. 后端代码之服务端 - 项目工程化创建目录启动服务 -讲解篇
  4. Ripro主题角标美化
  5. 恒企自考_自考,一个月时间要怎么复习?
  6. python中number函数_Python 数字(Number)
  7. 众筹网站系统源码+手机端
  8. xMenuTools(超实用右键菜单工具) v7.6
  9. 网页幻灯片切换动画特效源码
  10. SpringBoot FK-关联表查询(二)