爬虫-爬取博客的演练-首页内容保存-首页文章列表与url
一,爬取博客的主页
import requestsurl = "https://me.csdn.net/ifubing"# https://blog.csdn.net/ifubing
# https://blog.csdn.net/ifubing/article/list/2?res = requests.get(url)con = res.content.decode()print(con)with open("ifubing.html", "w", encoding="utf8") as f:f.write(con)
二,提取内容-提取博客标题与url链接
f = open("ifubing.html", "r", encoding="utf8")
c = f.read()
print(c)import re
# 当前页的全部文章列表
url_list = re.findall(r'<h3><a href="(.*?)" target="_blank" class="sub_title">', c)
# 当前页的标题
title = re.findall(r'<title>(.*?)</title>', c)
print(title)res = re.findall(r"<h3>(.*?)</h3>", c, re.DOTALL)
print(res)d = {}
for i in res:# print(i)li = i.split()print(li)url = li[1].lstrip('href=').strip('"')name = li[-1].strip('</a>')d[name] = urlprint(d)for k,v in d.items():print('标题是{}'.format(k))print('链接是{}'.format(v))print("*"*10)
效果
扩展
正则的演练
爬虫-爬取博客的演练-首页内容保存-首页文章列表与url相关推荐
- python 爬虫可视化编程_Python爬虫爬取博客实现可视化过程解析
源码: from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link='https ...
- python 爬虫 博客园_Python爬虫爬取博客园作业
分析一下他们的代码,我在浏览器中对应位置右键,然后点击检查元素,可以找到对应部分的代码.但是,直接查看当前网页的源码发现,里面并没有对应的代码.我猜测这里是根据服务器上的数据动态生成的这部分代码,所以 ...
- Python爬虫爬取博客访问量
实现功能: 查看自己活着别人CSDN中每篇博客的访问量 语言: Python3.5 用到的库: requests re 步骤: 1.找到数据源:找到一个现实所有博客的页面,在一篇博客的右上方可以点击目 ...
- java爬虫之爬取博客园推荐文章列表
这几天学习了一下Java爬虫的知识,分享并记录一下: 写一个可以爬取博客园十天推荐排行的文章列表 通过浏览器查看下一页点击请求,可以发现 在点击下一页的时候是执行的 post请求,请求地址为 http ...
- python爬虫:去掉重复的URL(爬取博客园中每页标题和url)
1.爬取博客园中每页每条新闻的标题和url,在cnblog.py中写入操作内容(增加对每页的爬取) # -*- coding: utf-8 -*- import scrapy import sys i ...
- 爬取博客园首页并定时发送到微信
应女朋友要求,为了能及时掌握技术动向,特意写了这个爬虫,每天定时爬取博客园首页并发送至微信. 环境: Python3.4 第三方库 Requests:向服务器发送请求 BeautifulSoup4:解 ...
- java 使用webmagic 爬虫框架爬取博客园数据
java 使用webmagic 爬虫框架爬取博客园数据存入数据库 学习记录 webmagic简介: WebMagic是一个简单灵活的Java爬虫框架.你可以快速开发出一个高效.易维护的爬虫. ht ...
- Java爬虫-WebMagic爬取博客图片(好色龍的網路觀察日誌)
WebMagic爬取博客图片 最近在学习java爬虫,接触到WebMagic框架,正好拿我喜爱的博客来练习,希望龙哥(博主)不要责备我~~ 博客链接: 好色龍的網路觀察日誌 ,超级有趣的翻译漫画,持续 ...
- python实现kindle每天推送博客2----python实现爬取博客内容
python爬虫教程很多, 本文以爬取博客为例 1. Beautiful Soup Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据 为节约篇幅,安装方法自行百度 解析 ...
最新文章
- JS-JavaScript学习笔记(一)
- js时间选择器_Vuestic Admin一款免费与美妙基于Vue.js开发的管理模板
- matlab 控制实验指导,智能控制系统-实验指导书-实验一-BP算法的MATLAB实现
- 从0到1搭建移动App功能自动化测试平台(2):操作iOS应用的控件
- sql power bi_在SQL,Power BI和MS Excel中计算移动平均值
- java中的“+”运算符,产生新对象问题。(非常好的面试题!)
- 论文 计算机网络技术的功能,计算机网络技术在有线电视网络中的作用论文
- React-Native 仿喜马拉雅APP项目笔记(多环境配置 项目配置路径 堆栈式导航)
- 如何解决NullPointerException in android.view.GLES20RecordingCanvas
- 有什么软件可以把视频上下拼接在一起?
- 用Wineskin在Mac上运行exe文件
- HART协议命令与UART串口解析
- 网页版俄罗斯方块第1版
- MyBatis 报错The error may exist in…….xml
- 表格操作系列——字段名与字段别名的获取
- java上传加密_Java实现文件的加密与解密
- “柿饼派”免费体验名单公布!
- java计算机毕业设计基于安卓Android的禁毒宣传APP
- taro开发微信小程序禁止下拉刷新(ios下拉出现空白问题)
- 什么是系统建模语言(SysML)?