Python爬虫:爬取抽屉网
#用xpath爬取抽屉网
#翻页爬取抽屉网的段子
#爬取内容为段子的作者、点赞数、评论数、内容
1、导入模块
import requests
import time
from lxml import etree
2、#创建保存函数
def save_info(contents):with open('./段子.doc', 'a', encoding='utf-8', newline='\n')as f:f.write(contents+'\n')
3、# 创建函数获取页面 def get_page(url):
def get_page(url):headers = {'Origin': 'https://dig.chouti.com','user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) \AppleWebKit/537.36 (KHTML, like Gecko) \Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2727.400'}try:resp = requests.get(url, headers=headers)page_source = resp.textreturn page_sourceexcept:print("出错了")
4、# 创建解析函数 def paser_page(url):
def paser_page(url):html = get_page(url)selector1 = etree.HTML(html)items = selector1.xpath('//*[@class="news-content"]')for item in items:content = item.xpath('./div[1]/a/text()')[0].strip()name = item.xpath('./div[2]/a[4]/b/text()')[0].strip()zan_number = item.xpath('./div[2]/a[1]/b/text()')[0].strip()comments = item.xpath('./div[2]/a[2]/b/text()')[0].strip()# 创建列表info = [name, zan_number, comments, content]# 创建字典info_dic = {"作者": name,"点赞数": zan_number,"评论数": comments,"内容": content}#将列表转化为str进行保存save_info('\t'.join(info))# 编辑器中以字典形式显示print(info_dic)
5、# 创建主函数 def main():
def main():info_title = ["作者", "点赞数", "评论数", "内容"]save_info('\t'.join(info_title))urls = ['https://dig.chouti.com/r/scoff/hot/%s' % x for x in range(1, 4)]for i, url in enumerate(urls):paser_page(url)print(i)time.sleep(2)
6、# 调用函数并运行
if __name__ == '__main__':main()
最后爬取保存如下:
Python爬虫:爬取抽屉网相关推荐
- 在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
- python爬虫爬取当当网的商品信息
python爬虫爬取当当网的商品信息 一.环境搭建 二.简介 三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面 书籍商品html页面解析 其他商品html页面解析 四.代码实现 ...
- python爬虫爬取知网
python爬虫爬取知网 话不多说,直接上代码! import requests import re import time import xlrd from xlrd import open_wor ...
- [python爬虫]爬取天气网全国所有县市的天气数据
[python爬虫]爬取天气网全国所有县市的天气数据 访问URL 解析数据 保存数据 所要用到的库 import requests from lxml import etree import xlwt ...
- Python爬虫爬取东方财富网的股票信息
简单的Python爬虫应用 目标:爬取东方财富网的股票信息 1.先找到要爬取的网页 2.第二步开始爬取信息 2.1 通过requests获取网页信息 2.2再通过BeautifulSoup解析: 2. ...
- python爬虫爬取慕课网中的图片
我们简单地爬取慕课网中免费课程下的第一页的图片,如想爬取多页图片,可以添加for循环自行实现 python版本:3.6.5 爬取网址:http://www.imooc.com/course/list ...
- python爬虫爬取东方财富网股票走势+一些信息
一.目标 我们的目标是爬取东方财富网(https://www.eastmoney.com/)的股票信息 我的目标是爬取100张股票信息图片 经过实际测试我的爬取范围为000001-000110,000 ...
- [Python爬虫]爬取东方财富网公司公告需要注意的几个问题
在上一篇文章中,以爬取东方财富网公司公告为例,介绍了如何爬取利用ajax加载的网页,以及如何模拟翻页.但是,在实际应用的过程中,发现了一些问题.接下来就来一一分析解决. 问题一.公告数量过多,后面的公 ...
- python爬虫-爬取当当网书籍信息存到Excel中
文章目录 一.任务 二.分析 (一).单页面的信息分析 源代码分析 目标信息定位与分析 代码设计 (二).所有目标页面链接分析 目标链接分析 代码设计 三.注意要点 四.完整代码 五.参考 一.任务 ...
- python 爬虫 爬取当当网图书信息
初次系统的学习python,在学习完基本语法后,对爬虫进行学习,现在对当当网进行爬取,爬取了基本图书信息,包括图书名.作者等 import requests from time import slee ...
最新文章
- Leangoo敏捷工具企业版-企业管理
- 使用Powershell如何导出Exchange对象中的多值属性值
- 欧盟「人脑计划」​最新进展:新算法模拟生物进化,为大脑如何工作提供新见解...
- 谈谈机器学习模型的可解释性
- 时序数据库深入浅出之存储篇——本质LSMtree,同时 metric(比如温度)+tags 分片...
- 面试(之)三赴上海易传媒—揭秘之旅
- Windows服务程序时钟调用
- 解决oracle连接很慢问题
- PHP 遍历数组的方法汇总
- 清华大学 现代软件工程 - 实战经验分享
- 常用函数式接口-Consumer
- 2018.06.30 BZOJ1857: [Scoi2010]传送带(三分套三分)
- NoSQL数据库应用
- 3dmax用vr渲染还是cr渲染器?
- 使用yuicompressor-maven-plugin压缩js及css文件
- 阿里巴巴校招实习面试
- 浙江大学《概率论与数理统计》
- MyApps平台为政企数据保驾护航,筑牢办公安全防线
- html怎么设置img样式,img 元素可以用 CSS 设置样式吗?
- 计算机基础及excel,S102-计算机基础(06)-EXCEL简介及基本操作
热门文章
- 社会语义网络图用什么软件绘制_GitMind:免费在线思维导图软件
- 百度网盘视频加速代码
- 当人工智能遇上医疗影像,你不得不知道这13家影像AI公司
- 微信小程序笔记 -- 数据库
- 分享一个很容易实现的某大学的结构光源码【DIY自己的三维扫描仪】
- 【五线谱】调号 ( 调号标识位置 | 调号标记列表 | A 大调标识原理 | F、C、G 位置标记升号 # | F 大调标识原理 | B 位置标记降号 b )
- 【乐理入门】——音符与五线谱(1)
- xpath提取招标网站的项目编号
- windows功能_windows必备的系统功能增强2具,免费,简单,实用
- 解决Unity TextMeshPro 不能显示中文问题