源码:

from fake_useragent          import UserAgent
from lxml                       import etree
import lxml,requestsurl="https://www.jianshu.com/c/qqfxgN?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=qq"def getHtml(url):'''获取网页源码return html'''headers = {"Host": "www.jianshu.com","Referer": "https://www.jianshu.com/","User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"}req = requests.get(url, headers=headers)html = etree.HTML(req.text)return htmldef parse(html):'''解析网页'''nodes = html.xpath("//ul[@class='note-list']/li//div[@class='content']")for node in nodes:title = node.xpath(".//a[@class='title']/text()")[0]nickname = node.xpath(".//div[@class='meta']/a/text()")[0]comment = node.xpath(".//div[@class='meta']/a//text()")[2].strip()like = node.xpath(".//div[@class='meta']/span/text()")[0].strip()essay = {"title" : title,"nickname" : nickname,"comment" : comment,"like" : like}print("文章信息:{}".format(essay))def main():html = getHtml(url)parse(html)if __name__ == '__main__':main()

有不明的地方在下方留言,我看到后会尽快回复的
欢迎进行我的博客导航:【全站式导航】
我的专栏:【机器学习100天】【K童鞋的爬虫笔记】

实战项目五:抓取简书文章信息相关推荐

  1. selenium+python爬取简书文章

    页面加载逻辑 当你兴致勃勃地从网上学习了基本的爬虫知识后就像找个目标实践下,拥有大量文章的简书包含了大量的有价值信息,所以自然成为了你的选择目标,如果你尝试之后会发现并没有想象的那么简单,因为里面包含 ...

  2. Python爬虫编程思想(133):项目实战--利用Appium抓取微信朋友圈信息

    本文利用Appium实现一个抓取微信朋友圈信息的爬虫.在编写爬虫之前,先要启动Appium服务器. 编写基于Appium的爬虫,关键就是分析App每个界面相关元素的特征,也就是如何获取这些元素,然后在 ...

  3. 简书爬ajax接口获取csrf,Python爬取简书主页信息

    主要学习如何通过抓包工具分析简书的Ajax加载,有时间再写一个Multithread proxy spider提升效率. 1. 关键点: 使用单线程爬取,未登录,爬取简书主页Ajax加载的内容.主要有 ...

  4. python2.7爬虫实例-Python2.7爬虫-爬取简书文章-入门

    参考原文: 分为五个模块:主模块.URL管理器.下载器.解析器.输出器. 主模块首先调用URL管理器管理URL,接着将URL传给下载器,下载器发送请求到URL并得到响应数据,本例中除了第一次请求之外, ...

  5. python爬虫——爬取简书文章

    这段时间在做的事情需要从网上获得一点资讯类似文章啊.电影啊.新闻啊等等,看了很久感觉用简书这个网址来做爬虫相对来说简单一点,可以不需要设置登录啥的就能够获取到内容,相比较起来已经很容易了. (一)分析 ...

  6. python3 抓取简书,增加浏览量

    访问简书实现刷新访问次数,什么都不说直接上代码 (一) # -*- coding:utf-8 -*- import sys import random import requests import p ...

  7. Python爬虫项目:抓取智联招聘信息

    来自https://mp.weixin.qq.com/s/0SzLGqv2p0-IWSN3r8bOHA ''' Python爬虫之五:抓取智联招聘基础版 该文件运行后会产生一个代码,保存在这个Pyth ...

  8. Python爬虫教程:简书文章的抓取与存储

    本文内容将与大家一起从简书的文章页面抓取文章标题.作者.发布时间以及正文内容,并且将抓取到的这些信息存入Excel表格中.本文对简书文章的抓取仅为Python的学习交流,尊重作者著作权,不对抓取到的文 ...

  9. Python爬虫编程思想(6):实战案例:抓取所有的网络资源

    Python爬虫编程思想(7):实战案例:抓取博客文章列表 到现在为止,我们已经对网络爬虫涉及到的基本知识有了一个初步的了解.本文会编写一个简单的爬虫应用,以便让读者对爬虫有一个基本的认识.本节要编写 ...

最新文章

  1. 计算机科学与技术专业术语
  2. 使用 create-react-app 构建 react应用程序 (react-scripts)
  3. YTU 3004: 栈的基本运算(栈和队列)
  4. Python 3.x print 小结
  5. 查看dll 的是32位还是64位
  6. 用java求直角三角形的面积_JAVA 已知三角形的三个边判断 是否为直角三角形,如果是求面积!...
  7. JavaFX自定义控件– Nest Thermostat第3部分
  8. HDU 4619 Warm up 2 (多校)
  9. Java SimpleTimeZone setStartRule()方法与示例
  10. np生成多维数组数组比较
  11. Linux系统文件夹权限475,linux系统中文件的特殊权限
  12. sql如何遍历几百万的表_SQL Server中遍历表中记录的方法
  13. 被request.getLocalAddr()苦闷了很久
  14. 对比原生Node封装的Express路由 和 express框架路由
  15. linux硬盘分区PPT,linux下的硬盘分区详解.doc
  16. Tensorflow从开始到放弃(技术篇)
  17. SSM 实现学生成绩管理系统(完整代码)
  18. 理正深基坑6.0软件备忘录_梳理使用方法01
  19. 程序猿周末副职业_早上,晚上和周末:我如何改变职业并成为程序员
  20. ios 请在设置中打开相机权限_iOS关于相机相册权限设置

热门文章

  1. 如何学习oracle
  2. python_wifi
  3. PAT甲级1133 Splitting A Linked List:[C++题解]链表
  4. PAT甲级1032 Sharing :[C++题解]链表
  5. cmd中如何切换指定目录
  6. 《剑指offer》c++版本 17.打印从1到最大的N位数
  7. leetcode 752. 打开转盘锁 c代码
  8. android 常用 style,Android中 Styles和Themes
  9. php事件和行为,Yii框架组件和事件行为管理详解
  10. tableau做折线图_Tableau | 20种常用图表(上文)