实战项目五：抓取简书文章信息

源码：

from fake_useragent          import UserAgent
from lxml                       import etree
import lxml,requestsurl="https://www.jianshu.com/c/qqfxgN?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=qq"def getHtml(url):'''获取网页源码return html'''headers = {"Host": "www.jianshu.com","Referer": "https://www.jianshu.com/","User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"}req = requests.get(url, headers=headers)html = etree.HTML(req.text)return htmldef parse(html):'''解析网页'''nodes = html.xpath("//ul[@class='note-list']/li//div[@class='content']")for node in nodes:title = node.xpath(".//a[@class='title']/text()")[0]nickname = node.xpath(".//div[@class='meta']/a/text()")[0]comment = node.xpath(".//div[@class='meta']/a//text()")[2].strip()like = node.xpath(".//div[@class='meta']/span/text()")[0].strip()essay = {"title" : title,"nickname" : nickname,"comment" : comment,"like" : like}print("文章信息：{}".format(essay))def main():html = getHtml(url)parse(html)if __name__ == '__main__':main()

有不明的地方在下方留言，我看到后会尽快回复的
欢迎进行我的博客导航：【全站式导航】
我的专栏：【机器学习100天】、【K童鞋的爬虫笔记】

实战项目五：抓取简书文章信息相关推荐

selenium+python爬取简书文章
页面加载逻辑当你兴致勃勃地从网上学习了基本的爬虫知识后就像找个目标实践下,拥有大量文章的简书包含了大量的有价值信息,所以自然成为了你的选择目标,如果你尝试之后会发现并没有想象的那么简单,因为里面包含 ...
Python爬虫编程思想（133）：项目实战--利用Appium抓取微信朋友圈信息
本文利用Appium实现一个抓取微信朋友圈信息的爬虫.在编写爬虫之前,先要启动Appium服务器. 编写基于Appium的爬虫,关键就是分析App每个界面相关元素的特征,也就是如何获取这些元素,然后在 ...
简书爬ajax接口获取csrf,Python爬取简书主页信息
主要学习如何通过抓包工具分析简书的Ajax加载,有时间再写一个Multithread proxy spider提升效率. 1. 关键点: 使用单线程爬取,未登录,爬取简书主页Ajax加载的内容.主要有 ...
python2.7爬虫实例-Python2.7爬虫-爬取简书文章-入门
参考原文: 分为五个模块:主模块.URL管理器.下载器.解析器.输出器. 主模块首先调用URL管理器管理URL,接着将URL传给下载器,下载器发送请求到URL并得到响应数据,本例中除了第一次请求之外, ...
python爬虫——爬取简书文章
这段时间在做的事情需要从网上获得一点资讯类似文章啊.电影啊.新闻啊等等,看了很久感觉用简书这个网址来做爬虫相对来说简单一点,可以不需要设置登录啥的就能够获取到内容,相比较起来已经很容易了. (一)分析 ...
python3 抓取简书，增加浏览量
访问简书实现刷新访问次数,什么都不说直接上代码 (一) # -*- coding:utf-8 -*- import sys import random import requests import p ...
Python爬虫项目：抓取智联招聘信息
来自https://mp.weixin.qq.com/s/0SzLGqv2p0-IWSN3r8bOHA ''' Python爬虫之五:抓取智联招聘基础版该文件运行后会产生一个代码,保存在这个Pyth ...
Python爬虫教程：简书文章的抓取与存储
本文内容将与大家一起从简书的文章页面抓取文章标题.作者.发布时间以及正文内容,并且将抓取到的这些信息存入Excel表格中.本文对简书文章的抓取仅为Python的学习交流,尊重作者著作权,不对抓取到的文 ...
Python爬虫编程思想（6）：实战案例：抓取所有的网络资源
Python爬虫编程思想(7):实战案例:抓取博客文章列表到现在为止,我们已经对网络爬虫涉及到的基本知识有了一个初步的了解.本文会编写一个简单的爬虫应用,以便让读者对爬虫有一个基本的认识.本节要编写 ...

实战项目五：抓取简书文章信息

实战项目五：抓取简书文章信息相关推荐

最新文章

热门文章