Python爬虫：爬取抽屉网

#用xpath爬取抽屉网
#翻页爬取抽屉网的段子
#爬取内容为段子的作者、点赞数、评论数、内容

1、导入模块

import requests
import time
from lxml import etree

2、#创建保存函数

def save_info(contents):with open('./段子.doc', 'a', encoding='utf-8', newline='\n')as f:f.write(contents+'\n')

3、# 创建函数获取页面 def get_page(url):

def get_page(url):headers = {'Origin': 'https://dig.chouti.com','user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) \AppleWebKit/537.36 (KHTML, like Gecko) \Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2727.400'}try:resp = requests.get(url, headers=headers)page_source = resp.textreturn page_sourceexcept:print("出错了")

4、# 创建解析函数 def paser_page(url):

def paser_page(url):html = get_page(url)selector1 = etree.HTML(html)items = selector1.xpath('//*[@class="news-content"]')for item in items:content = item.xpath('./div[1]/a/text()')[0].strip()name = item.xpath('./div[2]/a[4]/b/text()')[0].strip()zan_number = item.xpath('./div[2]/a[1]/b/text()')[0].strip()comments = item.xpath('./div[2]/a[2]/b/text()')[0].strip()# 创建列表info = [name,  zan_number, comments, content]# 创建字典info_dic = {"作者": name,"点赞数": zan_number,"评论数": comments,"内容": content}#将列表转化为str进行保存save_info('\t'.join(info))# 编辑器中以字典形式显示print(info_dic)

5、# 创建主函数 def main():

def main():info_title = ["作者", "点赞数", "评论数", "内容"]save_info('\t'.join(info_title))urls = ['https://dig.chouti.com/r/scoff/hot/%s' % x for x in range(1, 4)]for i, url in enumerate(urls):paser_page(url)print(i)time.sleep(2)

6、# 调用函数并运行

if __name__ == '__main__':main()

最后爬取保存如下：

Python爬虫：爬取抽屉网相关推荐

在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
python爬虫爬取当当网的商品信息
python爬虫爬取当当网的商品信息一.环境搭建二.简介三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面书籍商品html页面解析其他商品html页面解析四.代码实现 ...
python爬虫爬取知网
python爬虫爬取知网话不多说,直接上代码! import requests import re import time import xlrd from xlrd import open_wor ...
[python爬虫]爬取天气网全国所有县市的天气数据
[python爬虫]爬取天气网全国所有县市的天气数据访问URL 解析数据保存数据所要用到的库 import requests from lxml import etree import xlwt ...
Python爬虫爬取东方财富网的股票信息
简单的Python爬虫应用目标:爬取东方财富网的股票信息 1.先找到要爬取的网页 2.第二步开始爬取信息 2.1 通过requests获取网页信息 2.2再通过BeautifulSoup解析: 2. ...
python爬虫爬取慕课网中的图片
我们简单地爬取慕课网中免费课程下的第一页的图片,如想爬取多页图片,可以添加for循环自行实现 python版本:3.6.5 爬取网址:http://www.imooc.com/course/list ...
python爬虫爬取东方财富网股票走势+一些信息
一.目标我们的目标是爬取东方财富网(https://www.eastmoney.com/)的股票信息我的目标是爬取100张股票信息图片经过实际测试我的爬取范围为000001-000110,000 ...
[Python爬虫]爬取东方财富网公司公告需要注意的几个问题
在上一篇文章中,以爬取东方财富网公司公告为例,介绍了如何爬取利用ajax加载的网页,以及如何模拟翻页.但是,在实际应用的过程中,发现了一些问题.接下来就来一一分析解决. 问题一.公告数量过多,后面的公 ...
python爬虫-爬取当当网书籍信息存到Excel中
文章目录一.任务二.分析 (一).单页面的信息分析源代码分析目标信息定位与分析代码设计 (二).所有目标页面链接分析目标链接分析代码设计三.注意要点四.完整代码五.参考一.任务 ...
python 爬虫爬取当当网图书信息
初次系统的学习python,在学习完基本语法后,对爬虫进行学习,现在对当当网进行爬取,爬取了基本图书信息,包括图书名.作者等 import requests from time import slee ...

Python爬虫：爬取抽屉网

#用xpath爬取抽屉网
#翻页爬取抽屉网的段子
#爬取内容为段子的作者、点赞数、评论数、内容

1、导入模块

2、#创建保存函数

3、# 创建函数获取页面 def get_page(url):

4、# 创建解析函数 def paser_page(url):

5、# 创建主函数 def main():

6、# 调用函数并运行

Python爬虫：爬取抽屉网相关推荐

最新文章

热门文章

Python爬虫：爬取抽屉网

#用xpath爬取抽屉网 #翻页爬取抽屉网的段子 #爬取内容为段子的作者、点赞数、评论数、内容

1、导入模块

2、#创建保存函数

3、# 创建函数获取页面 def get_page(url):

4、# 创建解析函数 def paser_page(url):

5、# 创建主函数 def main():

6、# 调用函数并运行

Python爬虫：爬取抽屉网相关推荐

最新文章

热门文章

#用xpath爬取抽屉网
#翻页爬取抽屉网的段子
#爬取内容为段子的作者、点赞数、评论数、内容