python爬虫之爬取简书中的小文章标题
学习了三个星期的python基础语法,对python语法有了一个基本的了解,然后想继续深入学习,但不喜欢每天啃书本,太无聊了,只有实战才是练兵的最好效果。听说爬虫技术还是比较好玩的,就搞爬虫,但找了好多资料没有找到合适的资料,最后才找到传说中的合适爬虫初学者的书籍《Python 3网络爬虫开发实战 ,崔庆才著》(文末附书本下载链接),学习了三天,终于完整搞出了自己的第一爬虫,哈哈~。。。。。。进入正题
目标:爬取网页简书中文章小标题
环境:python3.65 pycharm软件
思路:提取网页的源码—>筛选源码—>输出结果(保持文件)
一、提取网页源码
取网页源码方法很多,常用的库有:urllib库,requests库等。。。此处使用requests库,So先导入此库:import requests,然后通过get方法获取网页源码。。。。。
import requests #导入requests库
html = requests.get(‘https://www.jianshu.com/’) #发送请求
print(html.text) #输出网页源码
三行代码就可以获取一个网页的源码,是不是很简单,但去获取一下简书的源码,你会发现什么实际的东西都没有。。。。什么情况???其实是简书采用了一些反爬虫的手段,有没有破解方法,当然有,所谓道高一尺。。。。,只需要在代码的前面加上如下代码即可,模拟浏览器获取网页源码。。。。
headers = {'User-Agent':'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'} #模拟浏览器获取
html = requests.get(‘https://www.jianshu.com/’,headers = headers)
print(html.text)
此次输出的就简书真实的源代码了,完了吗??当然还没有,作为一名菜鸟,我们必须得学会伪装自己,将获取网页源码的这段封装起来就行了。。。。。
二、筛选源码
做完上面步骤,你输出一看,我去!这都是什么跟什么啊,根本找不到在哪好伐?
客官别急啊,我这就去给你叫我们的小。。。图片!图片!
首先我们要一个正则表达式 (什么你不会?请看菜鸟入门教程-->Go)
然后我们看源代码,Yeah 我们找到了其中一张图片是这样的
写出图片的正则表达式:reg = r'<a\sclass=".*?"\starget=".*?"\shref=".*?">(.*)</a>'
小解释一下——匹配以<a\sclass=""开头然后接一个或多个任意字符(非贪婪)(.*?)其次接着匹配target=“接着一个或多个任意字符(非贪婪)(.*?)后面一样,最后移</a>结尾,懂了吗???不懂多观察上图和表达式就会了
import requests
import redef get_html(url):headers = {'User-Agent':'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'}response = requests.get(url,headers = headers)html = response.textreturn htmlreg = r'<a\sclass=".*?"\starget=".*?"\shref=".*?">(.*)</a>' #正则表达式
reg_ques = re.compile(reg) #编译一下正则表达式,运行的更快
queslist = reg_ques.findall(get_html('https://www.jianshu.com/')) #匹配正则表达式
三、输出结果
如果直接print()方法输出会输出一个列表,把列表转换为普通的输出就可以看到如下结果:
到此基本可以结束了,也可以将其保存在TXT文件中。。。。我的第一个完整爬虫诞生了,你的呢。。。。
Python 3网络爬虫开发实战PDF文件的链接: https://pan.baidu.com/s/1aMwfPPNkmYYNZiPR9ltDwg 密码: scpm
python爬虫之爬取简书中的小文章标题相关推荐
- 爬虫练习-爬取简书网热评文章
前言: 使用多进程爬虫方法爬取简书网热评文章,并将爬取的数据存储于MongoDB数据库中 本文为整理代码,梳理思路,验证代码有效性--2020.1.17 环境: Python3(Anaconda3) ...
- python爬虫之爬取多篇含有关键词的文章标题和内容
python爬虫之爬取多篇含有关键词的文章标题和内容 实现的功能 需要用到的库 需要对html一些标签有一定的了解 代码设计思想 源代码 功能优化 Java版本 实现的功能 输入想要搜索的关键字和输入 ...
- 【爬虫】爬取简书某ID所有文章并保存为pdf
编辑 / 昱良 1 目 标 场 景 现如今,我们处于一个信息碎片化的信息时代,遇到好的文章都有随手收藏的习惯.但过一段时间,当你想要重新查看这篇文章的时候,发现文章已经被移除或莫名其妙地消失了. 如果 ...
- 简书python_使用 Python 爬取简书网的所有文章
01 抓取目标 我们要爬取的目标是「 简书网 」. 打开简书网的首页,随手点击一篇文章进入到详情页面. 我们要爬取的数据有:作者.头像.发布时间.文章 ID 以及文章内容. 02 准备工作 在编写爬虫 ...
- python爬虫练习--爬取站长素材中免费简历模板
python爬虫练习--爬取站长素材中免费简历模板 一.需求 二.代码 1. 引入库 2. main() 3. saveData(div_list) 4. 收尾 结语 一.需求 此代码是为完成波波老师 ...
- python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述
http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...
- 基于python爬虫的论文标题_Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】...
本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法.分享给大家供大家参考,具体如下: from urllib import request from bs4 import Beaut ...
- selenium+python爬取简书文章
页面加载逻辑 当你兴致勃勃地从网上学习了基本的爬虫知识后就像找个目标实践下,拥有大量文章的简书包含了大量的有价值信息,所以自然成为了你的选择目标,如果你尝试之后会发现并没有想象的那么简单,因为里面包含 ...
- python 简书_python爬取简书网文章的方法
python爬取简书网文章的方法 发布时间:2020-06-30 14:37:08 来源:亿速云 阅读:100 作者:清晨 这篇文章主要介绍python爬取简书网文章的方法,文中示例代码介绍的非常详细 ...
最新文章
- matlab shortest函数,MATLAB函數graphallshortestpaths不返回對稱矩陣
- 解决GitLab中使用SSH的git clone总是提示输入密码且任何密码都不对
- Oracle SQL Access Advisor 说明
- Python爬虫爬取美剧网站
- 5-10多分支网络结构
- Mac安装oh-my-zsh更改终端背景
- DataGridView默认不选中
- 一致性 hash 算法(consistent hashing)
- CString Format
- Twitterrifi常用快捷键汇总
- dosbox运行C语言,[转载]dosbox的使用方法
- max30102c语言程序,MAX30102基于STM32F103C8T6的程序源码
- C4D新建立方体对象不显示?
- IP地址和交换机原理
- 云计算与虚拟化技术【课堂笔记】
- 【S-CMS企业建站系统 v5.0 】闪灵CMS+含小程序+响应式布局+支持手机版网站+支持QQ旺旺客服
- win10系统找不到telnet服务器,win10系统找不到Telnet服务的解决教程
- editplus5激活码 文件下载 汉化包
- 校园失物招领系统,失物招领系统,校园失物招领管理系统毕设作品
- 介绍一款web端的截图工具