python爬虫，爬取糗事百科并保存到文件中

#--*--coding:utf-8--*--
import re
import urllib.request
from urllib.error import URLError,HTTPError
import sysprint(sys.getdefaultencoding())url = 'http://www.qiushibaike.com/text/page/1'
# 给文件加入头信息，用以模拟浏览器访问
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = {'Connection': 'Keep-Alive','Accept': 'text/html, application/xhtml+xml, */*','Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3','User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
}
for i in range(1,30+1):try:#实现翻页翻页url = re.sub('page/\d+','page/%d'%i,url,re.S)print(url)#发送请求，获得返回信息req = urllib.request.Request(url,headers=headers)response = urllib.request.urlopen(req,timeout=5)content = response.read().decode('utf-8')#处理获取的web网页，并将信息处理了items = re.findall('<div class="content">(.*?)</div>',content,re.S)length = len(items)for j in range(0,length):#将信息写入文件中fileHandle = open("qiushibaike2.txt",'a')fileHandle.write(str(j+1)+": ")fileHandle.write(items[j])fileHandle.write("\n")except HTTPError as e:print("HTTPError")except URLError as e:print("URLError")

如果有帮到您，打个赏呗

python爬虫，爬取糗事百科并保存到文件中相关推荐

python爬虫爬取糗事百科
最近研究python爬虫,按照网上资料实现了python爬虫爬取糗事百科,做个笔记. 分享几个学习python爬虫资料: 廖雪峰python教程主要讲解python的基础编程知识 python开发简 ...
网络爬虫---爬取糗事百科段子实战
Python网络爬虫 1.知识要求掌握python基础语法熟悉urllib模块知识熟悉get方法会使用浏览器伪装技术如果您对相关知识遗忘了,可以点上面的相关知识链接,熟悉一下. 2.爬取糗事 ...
Python之爬取糗事百科段子实战
"简说Python",选择"置顶/星标公众号" 福利干货,第一时间送达! 阅读本文大约6分钟,实战学习,老表建议你反复看,反复记,反复练. // 本文作者王豪 ...
爬虫爬取糗事百科图片数据
如图,爬取所有图片,不包含文字通过抓包工具可知每一张图片所在div的class="thumb",利用正则表达式 ex = '<div class="thumb&q ...
python如何爬取糗事百科
所需要引入的库,python版本号不同,加入#coding=gbk,避免正文中出现中文时报错. 爬取的内容,跟路径在开发者模式中选择包裹的内容. 现在我们想获取发布人,发布日期,段子内容,以及点赞的 ...
Python爬虫--抓取糗事百科段子
今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该 ...
python爬虫经典段子_Python爬虫-爬取糗事百科段子
闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url 2.先抓取HTML页面 importurllibimpo ...
爬虫爬取糗事百科段子
目录糗事百科段子爬取爬虫功能介绍所需软件网页解析找到所需信息所在代码段获取信息编程思路分析获取当前所有段子对提取的内容进行优化数据合并查看点赞数最多的内容总结最后附代码糗 ...
爬虫:爬取糗事百科数据
import requests from lxml import etree from fake_useragent import UserAgentclass Qiu:def __init__(se ...

python爬虫，爬取糗事百科并保存到文件中

python爬虫，爬取糗事百科并保存到文件中相关推荐

最新文章

热门文章