python爬虫,爬取糗事百科并保存到文件中
#--*--coding:utf-8--*--
import re
import urllib.request
from urllib.error import URLError,HTTPError
import sysprint(sys.getdefaultencoding())url = 'http://www.qiushibaike.com/text/page/1'
# 给文件加入头信息,用以模拟浏览器访问
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = {'Connection': 'Keep-Alive','Accept': 'text/html, application/xhtml+xml, */*','Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3','User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
}
for i in range(1,30+1):try:#实现翻页翻页url = re.sub('page/\d+','page/%d'%i,url,re.S)print(url)#发送请求,获得返回信息req = urllib.request.Request(url,headers=headers)response = urllib.request.urlopen(req,timeout=5)content = response.read().decode('utf-8')#处理获取的web网页,并将信息处理了items = re.findall('<div class="content">(.*?)</div>',content,re.S)length = len(items)for j in range(0,length):#将信息写入文件中fileHandle = open("qiushibaike2.txt",'a')fileHandle.write(str(j+1)+": ")fileHandle.write(items[j])fileHandle.write("\n")except HTTPError as e:print("HTTPError")except URLError as e:print("URLError")
如果有帮到您,打个赏呗
python爬虫,爬取糗事百科并保存到文件中相关推荐
- python爬虫爬取糗事百科
最近研究python爬虫,按照网上资料实现了python爬虫爬取糗事百科,做个笔记. 分享几个学习python爬虫资料: 廖雪峰python教程 主要讲解python的基础编程知识 python开发简 ...
- 网络爬虫---爬取糗事百科段子实战
Python网络爬虫 1.知识要求 掌握python基础语法 熟悉urllib模块知识 熟悉get方法 会使用浏览器伪装技术 如果您对相关知识遗忘了,可以点上面的相关知识链接,熟悉一下. 2.爬取糗事 ...
- Python之爬取糗事百科段子实战
"简说Python",选择"置顶/星标公众号" 福利干货,第一时间送达! 阅读本文大约6分钟,实战学习,老表建议你反复看,反复记,反复练. // 本文作者 王豪 ...
- 爬虫爬取糗事百科图片数据
如图,爬取所有图片,不包含文字 通过抓包工具可知每一张图片所在div的class="thumb",利用正则表达式 ex = '<div class="thumb&q ...
- python如何爬取糗事百科
所需要引入的库,python版本号不同,加入#coding=gbk,避免正文中出现中文时报错. 爬取的内容,跟路径在开发者模式中选择 包裹的内容. 现在我们想获取发布人,发布日期,段子内容,以及点赞的 ...
- Python爬虫--抓取糗事百科段子
今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该 ...
- python爬虫经典段子_Python爬虫-爬取糗事百科段子
闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url 2.先抓取HTML页面 importurllibimpo ...
- 爬虫爬取糗事百科段子
目录 糗事百科段子爬取 爬虫功能介绍 所需软件 网页解析 找到所需信息所在代码段 获取信息 编程思路分析 获取当前所有段子 对提取的内容进行优化 数据合并 查看点赞数最多的内容 总结 最后 附代码 糗 ...
- 爬虫:爬取糗事百科数据
import requests from lxml import etree from fake_useragent import UserAgentclass Qiu:def __init__(se ...
最新文章
- Realm数据库使用
- Eclipse中使用Ctrl键卡顿响应慢的解决方法
- struts2 标签不能使用EL 表单式
- 【今日CS 视觉论文速览】 18 Dec 2018
- AIR中文帮助 第十章. 窗体(Windows)和菜单
- java 锁定界面_Java中的锁
- Bootstrap Wizard 多步表单控件
- 课程题目 : 1003. 简单字符串匹配
- QT解析嵌套JSON表达式
- 还找不到想要的文章吗?微信公众号搜索方法大全
- Android 应用和系统优化V1.2
- serializer嵌套序列化
- unzip 解压大文件出现错误invalid zip file with overlapped components (possible zip bomb)(linux分卷解压大文件错误解决)
- 特斯拉AI Day:车企能造好机器人吗?
- 怎么通过微信接收阿里云主机监控告警
- 如何赢得消费者信任?
- python接口自动化测试书籍_蜗牛出版之《接口自动化测试开发实战教程》书籍详解!...
- 想同你 看尽人家烟火,游过万代山河(HTML实现点击烟火特效)
- 【第24天】MYSQL进阶-查询优化- performance_schema系列实战一:利用等待事件排查MySQL性能问题(SQL 小虚竹)
- CDN及P2P技术在流媒体网络中的应用