#用xpath爬取抽屉网
#翻页爬取抽屉网的段子
#爬取内容为段子的作者、点赞数、评论数、内容

1、导入模块

import requests
import time
from lxml import etree

2、#创建保存函数

def save_info(contents):with open('./段子.doc', 'a', encoding='utf-8', newline='\n')as f:f.write(contents+'\n')

3、# 创建函数获取页面 def get_page(url):

def get_page(url):headers = {'Origin': 'https://dig.chouti.com','user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) \AppleWebKit/537.36 (KHTML, like Gecko) \Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2727.400'}try:resp = requests.get(url, headers=headers)page_source = resp.textreturn page_sourceexcept:print("出错了")

4、# 创建解析函数 def paser_page(url):

def paser_page(url):html = get_page(url)selector1 = etree.HTML(html)items = selector1.xpath('//*[@class="news-content"]')for item in items:content = item.xpath('./div[1]/a/text()')[0].strip()name = item.xpath('./div[2]/a[4]/b/text()')[0].strip()zan_number = item.xpath('./div[2]/a[1]/b/text()')[0].strip()comments = item.xpath('./div[2]/a[2]/b/text()')[0].strip()# 创建列表info = [name,  zan_number, comments, content]# 创建字典info_dic = {"作者": name,"点赞数": zan_number,"评论数": comments,"内容": content}#将列表转化为str进行保存save_info('\t'.join(info))# 编辑器中以字典形式显示print(info_dic)

5、# 创建主函数 def main():

def main():info_title = ["作者", "点赞数", "评论数", "内容"]save_info('\t'.join(info_title))urls = ['https://dig.chouti.com/r/scoff/hot/%s' % x for x in range(1, 4)]for i, url in enumerate(urls):paser_page(url)print(i)time.sleep(2)

6、# 调用函数并运行

if __name__ == '__main__':main()

最后爬取保存如下:

Python爬虫:爬取抽屉网相关推荐

  1. 在当当买了python怎么下载源代码-python爬虫爬取当当网

    [实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...

  2. python爬虫爬取当当网的商品信息

    python爬虫爬取当当网的商品信息 一.环境搭建 二.简介 三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面 书籍商品html页面解析 其他商品html页面解析 四.代码实现 ...

  3. python爬虫爬取知网

    python爬虫爬取知网 话不多说,直接上代码! import requests import re import time import xlrd from xlrd import open_wor ...

  4. [python爬虫]爬取天气网全国所有县市的天气数据

    [python爬虫]爬取天气网全国所有县市的天气数据 访问URL 解析数据 保存数据 所要用到的库 import requests from lxml import etree import xlwt ...

  5. Python爬虫爬取东方财富网的股票信息

    简单的Python爬虫应用 目标:爬取东方财富网的股票信息 1.先找到要爬取的网页 2.第二步开始爬取信息 2.1 通过requests获取网页信息 2.2再通过BeautifulSoup解析: 2. ...

  6. python爬虫爬取慕课网中的图片

    我们简单地爬取慕课网中免费课程下的第一页的图片,如想爬取多页图片,可以添加for循环自行实现 python版本:3.6.5 爬取网址:http://www.imooc.com/course/list ...

  7. python爬虫爬取东方财富网股票走势+一些信息

    一.目标 我们的目标是爬取东方财富网(https://www.eastmoney.com/)的股票信息 我的目标是爬取100张股票信息图片 经过实际测试我的爬取范围为000001-000110,000 ...

  8. [Python爬虫]爬取东方财富网公司公告需要注意的几个问题

    在上一篇文章中,以爬取东方财富网公司公告为例,介绍了如何爬取利用ajax加载的网页,以及如何模拟翻页.但是,在实际应用的过程中,发现了一些问题.接下来就来一一分析解决. 问题一.公告数量过多,后面的公 ...

  9. python爬虫-爬取当当网书籍信息存到Excel中

    文章目录 一.任务 二.分析 (一).单页面的信息分析 源代码分析 目标信息定位与分析 代码设计 (二).所有目标页面链接分析 目标链接分析 代码设计 三.注意要点 四.完整代码 五.参考 一.任务 ...

  10. python 爬虫 爬取当当网图书信息

    初次系统的学习python,在学习完基本语法后,对爬虫进行学习,现在对当当网进行爬取,爬取了基本图书信息,包括图书名.作者等 import requests from time import slee ...

最新文章

  1. Leangoo敏捷工具企业版-企业管理
  2. 使用Powershell如何导出Exchange对象中的多值属性值
  3. 欧盟「人脑计划」​最新进展:新算法模拟生物进化,为大脑如何工作提供新见解...
  4. 谈谈机器学习模型的可解释性
  5. 时序数据库深入浅出之存储篇——本质LSMtree,同时 metric(比如温度)+tags 分片...
  6. 面试(之)三赴上海易传媒—揭秘之旅
  7. Windows服务程序时钟调用
  8. 解决oracle连接很慢问题
  9. PHP 遍历数组的方法汇总
  10. 清华大学 现代软件工程 - 实战经验分享
  11. 常用函数式接口-Consumer
  12. 2018.06.30 BZOJ1857: [Scoi2010]传送带(三分套三分)
  13. NoSQL数据库应用
  14. 3dmax用vr渲染还是cr渲染器?
  15. 使用yuicompressor-maven-plugin压缩js及css文件
  16. 阿里巴巴校招实习面试
  17. 浙江大学《概率论与数理统计》
  18. MyApps平台为政企数据保驾护航,筑牢办公安全防线
  19. html怎么设置img样式,img 元素可以用 CSS 设置样式吗?
  20. 计算机基础及excel,S102-计算机基础(06)-EXCEL简介及基本操作

热门文章

  1. 社会语义网络图用什么软件绘制_GitMind:免费在线思维导图软件
  2. 百度网盘视频加速代码
  3. 当人工智能遇上医疗影像,你不得不知道这13家影像AI公司
  4. 微信小程序笔记 -- 数据库
  5. 分享一个很容易实现的某大学的结构光源码【DIY自己的三维扫描仪】
  6. 【五线谱】调号 ( 调号标识位置 | 调号标记列表 | A 大调标识原理 | F、C、G 位置标记升号 # | F 大调标识原理 | B 位置标记降号 b )
  7. 【乐理入门】——音符与五线谱(1)
  8. xpath提取招标网站的项目编号
  9. windows功能_windows必备的系统功能增强2具,免费,简单,实用
  10. 解决Unity TextMeshPro 不能显示中文问题