#--*--coding:utf-8--*--
import re
import urllib.request
from urllib.error import URLError,HTTPError
import sysprint(sys.getdefaultencoding())url = 'http://www.qiushibaike.com/text/page/1'
# 给文件加入头信息,用以模拟浏览器访问
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = {'Connection': 'Keep-Alive','Accept': 'text/html, application/xhtml+xml, */*','Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3','User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
}
for i in range(1,30+1):try:#实现翻页翻页url = re.sub('page/\d+','page/%d'%i,url,re.S)print(url)#发送请求,获得返回信息req = urllib.request.Request(url,headers=headers)response = urllib.request.urlopen(req,timeout=5)content = response.read().decode('utf-8')#处理获取的web网页,并将信息处理了items = re.findall('<div class="content">(.*?)</div>',content,re.S)length = len(items)for j in range(0,length):#将信息写入文件中fileHandle = open("qiushibaike2.txt",'a')fileHandle.write(str(j+1)+": ")fileHandle.write(items[j])fileHandle.write("\n")except HTTPError as e:print("HTTPError")except URLError as e:print("URLError")

如果有帮到您,打个赏呗

python爬虫,爬取糗事百科并保存到文件中相关推荐

  1. python爬虫爬取糗事百科

    最近研究python爬虫,按照网上资料实现了python爬虫爬取糗事百科,做个笔记. 分享几个学习python爬虫资料: 廖雪峰python教程 主要讲解python的基础编程知识 python开发简 ...

  2. 网络爬虫---爬取糗事百科段子实战

    Python网络爬虫 1.知识要求 掌握python基础语法 熟悉urllib模块知识 熟悉get方法 会使用浏览器伪装技术 如果您对相关知识遗忘了,可以点上面的相关知识链接,熟悉一下. 2.爬取糗事 ...

  3. Python之爬取糗事百科段子实战

    "简说Python",选择"置顶/星标公众号" 福利干货,第一时间送达! 阅读本文大约6分钟,实战学习,老表建议你反复看,反复记,反复练. // 本文作者 王豪 ...

  4. 爬虫爬取糗事百科图片数据

    如图,爬取所有图片,不包含文字 通过抓包工具可知每一张图片所在div的class="thumb",利用正则表达式 ex = '<div class="thumb&q ...

  5. python如何爬取糗事百科

    所需要引入的库,python版本号不同,加入#coding=gbk,避免正文中出现中文时报错. 爬取的内容,跟路径在开发者模式中选择 包裹的内容. 现在我们想获取发布人,发布日期,段子内容,以及点赞的 ...

  6. Python爬虫--抓取糗事百科段子

    今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该 ...

  7. python爬虫经典段子_Python爬虫-爬取糗事百科段子

    闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url 2.先抓取HTML页面 importurllibimpo ...

  8. 爬虫爬取糗事百科段子

    目录 糗事百科段子爬取 爬虫功能介绍 所需软件 网页解析 找到所需信息所在代码段 获取信息 编程思路分析 获取当前所有段子 对提取的内容进行优化 数据合并 查看点赞数最多的内容 总结 最后 附代码 糗 ...

  9. 爬虫:爬取糗事百科数据

    import requests from lxml import etree from fake_useragent import UserAgentclass Qiu:def __init__(se ...

最新文章

  1. Realm数据库使用
  2. Eclipse中使用Ctrl键卡顿响应慢的解决方法
  3. struts2 标签不能使用EL 表单式
  4. 【今日CS 视觉论文速览】 18 Dec 2018
  5. AIR中文帮助 第十章. 窗体(Windows)和菜单
  6. java 锁定界面_Java中的锁
  7. Bootstrap Wizard 多步表单控件
  8. 课程题目 : 1003. 简单字符串匹配
  9. QT解析嵌套JSON表达式
  10. 还找不到想要的文章吗?微信公众号搜索方法大全
  11. Android 应用和系统优化V1.2
  12. serializer嵌套序列化
  13. unzip 解压大文件出现错误invalid zip file with overlapped components (possible zip bomb)(linux分卷解压大文件错误解决)
  14. 特斯拉AI Day:车企能造好机器人吗?
  15. 怎么通过微信接收阿里云主机监控告警
  16. 如何赢得消费者信任?
  17. python接口自动化测试书籍_蜗牛出版之《接口自动化测试开发实战教程》书籍详解!...
  18. 想同你 看尽人家烟火,游过万代山河(HTML实现点击烟火特效)
  19. 【第24天】MYSQL进阶-查询优化- performance_schema系列实战一:利用等待事件排查MySQL性能问题(SQL 小虚竹)
  20. CDN及P2P技术在流媒体网络中的应用

热门文章

  1. 已解决:虚拟机无法获取所有权
  2. Linux下 WRF Domain Wizard 使用教程(PART1:下载+安装)
  3. spark hbase
  4. Leetcode 436.寻找右区间
  5. noip模拟赛 fateice-string
  6. WinCE 系统刚启动时运行应用,在应用启动时偶尔出现异常
  7. Shell编程进阶 1.7 case选择
  8. Android 使用NineOldAndroids实现绚丽的ListView左右滑动删除Item效果
  9. poj1201Intervals(差分约束)
  10. ESP32中下载固件时的波特率设置和调试监控时波特率的设置