python爬虫之爬取简书中的小文章标题

学习了三个星期的python基础语法，对python语法有了一个基本的了解，然后想继续深入学习，但不喜欢每天啃书本，太无聊了，只有实战才是练兵的最好效果。听说爬虫技术还是比较好玩的，就搞爬虫，但找了好多资料没有找到合适的资料，最后才找到传说中的合适爬虫初学者的书籍《Python 3网络爬虫开发实战 ,崔庆才著》（文末附书本下载链接），学习了三天，终于完整搞出了自己的第一爬虫，哈哈~。。。。。。进入正题

目标：爬取网页简书中文章小标题

环境：python3.65 pycharm软件

思路：提取网页的源码—>筛选源码—>输出结果（保持文件）

一、提取网页源码

取网页源码方法很多，常用的库有：urllib库，requests库等。。。此处使用requests库，So先导入此库：import requests,然后通过get方法获取网页源码。。。。。

import requests     #导入requests库
html = requests.get(‘https://www.jianshu.com/’)    #发送请求
print(html.text)     #输出网页源码

三行代码就可以获取一个网页的源码，是不是很简单，但去获取一下简书的源码，你会发现什么实际的东西都没有。。。。什么情况？？？其实是简书采用了一些反爬虫的手段，有没有破解方法，当然有，所谓道高一尺。。。。，只需要在代码的前面加上如下代码即可，模拟浏览器获取网页源码。。。。

headers = {'User-Agent':'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'}       #模拟浏览器获取
html = requests.get(‘https://www.jianshu.com/’,headers = headers)
print(html.text)

此次输出的就简书真实的源代码了，完了吗？？当然还没有，作为一名菜鸟，我们必须得学会伪装自己，将获取网页源码的这段封装起来就行了。。。。。

二、筛选源码

做完上面步骤，你输出一看，我去！这都是什么跟什么啊，根本找不到在哪好伐？

客官别急啊，我这就去给你叫我们的小。。。图片！图片！

首先我们要一个正则表达式 (什么你不会？请看菜鸟入门教程-->Go)

然后我们看源代码，Yeah 我们找到了其中一张图片是这样的

写出图片的正则表达式：reg = r'<a\sclass=".*?"\starget=".*?"\shref=".*?">(.*)</a>'

小解释一下——匹配以<a\sclass=""开头然后接一个或多个任意字符(非贪婪)(.*?)其次接着匹配target=“接着一个或多个任意字符(非贪婪)(.*?)后面一样，最后移</a>结尾，懂了吗？？？不懂多观察上图和表达式就会了

import requests
import redef get_html(url):headers = {'User-Agent':'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'}response = requests.get(url,headers = headers)html = response.textreturn htmlreg = r'<a\sclass=".*?"\starget=".*?"\shref=".*?">(.*)</a>'   #正则表达式
reg_ques = re.compile(reg)     #编译一下正则表达式，运行的更快
queslist = reg_ques.findall(get_html('https://www.jianshu.com/'))   #匹配正则表达式

三、输出结果

如果直接print()方法输出会输出一个列表，把列表转换为普通的输出就可以看到如下结果：

到此基本可以结束了，也可以将其保存在TXT文件中。。。。我的第一个完整爬虫诞生了，你的呢。。。。

Python 3网络爬虫开发实战PDF文件的链接: https://pan.baidu.com/s/1aMwfPPNkmYYNZiPR9ltDwg 密码: scpm

python爬虫之爬取简书中的小文章标题相关推荐

爬虫练习-爬取简书网热评文章
前言: 使用多进程爬虫方法爬取简书网热评文章,并将爬取的数据存储于MongoDB数据库中本文为整理代码,梳理思路,验证代码有效性--2020.1.17 环境: Python3(Anaconda3) ...
python爬虫之爬取多篇含有关键词的文章标题和内容
python爬虫之爬取多篇含有关键词的文章标题和内容实现的功能需要用到的库需要对html一些标签有一定的了解代码设计思想源代码功能优化 Java版本实现的功能输入想要搜索的关键字和输入 ...
【爬虫】爬取简书某ID所有文章并保存为pdf
编辑 / 昱良 1 目标场景现如今,我们处于一个信息碎片化的信息时代,遇到好的文章都有随手收藏的习惯.但过一段时间,当你想要重新查看这篇文章的时候,发现文章已经被移除或莫名其妙地消失了. 如果 ...
简书python_使用 Python 爬取简书网的所有文章
01 抓取目标我们要爬取的目标是「简书网」. 打开简书网的首页,随手点击一篇文章进入到详情页面. 我们要爬取的数据有:作者.头像.发布时间.文章 ID 以及文章内容. 02 准备工作在编写爬虫 ...
python爬虫练习--爬取站长素材中免费简历模板
python爬虫练习--爬取站长素材中免费简历模板一.需求二.代码 1. 引入库 2. main() 3. saveData(div_list) 4. 收尾结语一.需求此代码是为完成波波老师 ...
python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述
http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...
基于python爬虫的论文标题_Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】...
本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法.分享给大家供大家参考,具体如下: from urllib import request from bs4 import Beaut ...
selenium+python爬取简书文章
页面加载逻辑当你兴致勃勃地从网上学习了基本的爬虫知识后就像找个目标实践下,拥有大量文章的简书包含了大量的有价值信息,所以自然成为了你的选择目标,如果你尝试之后会发现并没有想象的那么简单,因为里面包含 ...
python 简书_python爬取简书网文章的方法
python爬取简书网文章的方法发布时间:2020-06-30 14:37:08 来源:亿速云阅读:100 作者:清晨这篇文章主要介绍python爬取简书网文章的方法,文中示例代码介绍的非常详细 ...

python爬虫之爬取简书中的小文章标题

python爬虫之爬取简书中的小文章标题相关推荐

最新文章

热门文章