python爬虫入门(一)爬取钓鱼吧

# Date :   2022/1/1  17:11
'''
需求:1、输入贴吧名称:钓鱼吧https://tieba.baidu.com/f?kw=钓鱼吧&pn=0    第一页https://tieba.baidu.com/f?kw=钓鱼吧&pn=50   第二页2、输入起始页:13、输入结束页:34、保存到本地文件钓鱼吧-第1页.html、 钓鱼吧-第2页.html ...实现步骤:1、查看是否为静态网页2、找url规律3、获取网页内容
'''from urllib import request,parse
import random
import timefrom _06_user_agent import ua_list
# 也能用下面代码生成user-agent,使用超级简单的请求头fake_useragent库
# from fake_useragent import UserAgent
#  ua = UserAgent()
#  user_agent = ua.randomclass TiebaSpider(object):def __init__(self):self.url = 'https://tieba.baidu.com/f?kw={}&pn={}'# 获取响应内容def get_page(self,url):headers = {'User-Agent': random.choice(ua_list)}req = request.Request(url=url,headers=headers)res = request.urlopen(req)html = res.read().decode()return html# 解析提取数据(暂时不写)def parse_page(self):pass# 保存数据def write_page(self, filename, html):with open(filename, 'w', encoding='utf-8') as f:f.write(html)# 入口函数def run(self):name = input('请输入贴吧名:')begin = int(input('请输入起始页:'))end = int(input('请输入结束页:'))# 编码kw = parse.quote(name)# 拼接 + 获取内容 + 保存for i in range(begin,end + 1):print('********************第{}次爬取{}数据***********************'.format(i, name))pn = (i - 1) * 50url = self.url.format(kw,pn)html = self.get_page(url)filename = '{}-第{}页.html'.format(name, i)self.write_page(filename, html)print('第%d页抓取成功...' % i)# 每爬取一个页面随机休眠1-3秒sec = random.randint(1, 3)time.sleep(sec)print('此次休眠了%d秒' % sec)# main
if __name__ == '__main__':begin = time.time()spider = TiebaSpider()spider.run()end = time.time()print('此次爬取任务的执行时间:%.2f秒' % (end - begin))
# Date :   2022/1/1  23:30
ua_list = ['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50','Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)','Mozilla/5.0 (Windows; U; Windows NT 6.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201'
]

python爬虫入门(一)爬取钓鱼吧相关推荐

  1. Python爬虫入门(爬取豆瓣电影信息小结)

    Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...

  2. Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/   1.爬取租房标题 ...

  3. Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

      先来看看页面长啥样的:https://book.douban.com/top250   我们将要爬取哪些信息:书名.链接.评分.一句话评价--   1. 爬取单个信息 我们先来尝试爬取书名,利用之 ...

  4. python 爬虫入门--文字爬取

    python 爬虫入门–文字爬取 对于爬虫,相信大家都不陌生,但是如何入门,大家还是停留在了解认知阶段吗?那可以试试下边的方法,一起来试一下. 首先我们试试爬取网页中的***文本信息*** 使用的是我 ...

  5. Python 爬虫入门(二)——爬取妹子图

    Python 爬虫入门 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...

  6. python爬虫入门教程-Python爬虫入门教程——爬取自己的博客园博客

    互联网时代里,网络爬虫是一种高效地信息采集利器,可以快速准确地获取网上的各种数据资源.本文使用Python库requests.Beautiful Soup爬取博客园博客的相关信息,利用txt文件转存. ...

  7. python爬虫教程-Python爬虫入门教程——爬取自己的博客园博客

    互联网时代里,网络爬虫是一种高效地信息采集利器,可以快速准确地获取网上的各种数据资源.本文使用Python库requests.Beautiful Soup爬取博客园博客的相关信息,利用txt文件转存. ...

  8. 基于Requests的Python爬虫入门实例------爬取豆瓣图书排行榜的前25本图书(小白福利)

    话不多说,先上代码: # -*- coding:utf-8 -*- import sys import requests import lxml from bs4 import BeautifulSo ...

  9. Python爬虫入门:爬取某个网页的小说内容

    导入必要的包 import requests import re 要爬的网页 url = 'http://www.shujy.com/5200/244309/' 模拟浏览器发送http请求 respo ...

最新文章

  1. PE文件结构(五岁以下儿童)基地搬迁
  2. 使用 pyenv 管理 Python 版本
  3. kotlin学习之解构声明(十二)
  4. 莉莉丝《剑与远征》:基于阿里云全站加速提升用户体验
  5. ~~~~~~~~~~~~~~坏公司鉴别方法 ~~~~~~~~~~~
  6. 312. Burst Balloons
  7. 又接触到自己以前建立的计算系统,有点震惊
  8. 继续聊WPF——Expander控件(1)
  9. Redis入门整合springboot
  10. windows7修复计算机在哪里找,Windows7系统修复方法大全
  11. 【Steam VR 2.0】自定义按键 action 发布后无效的解决办法
  12. 两个字说清楚编程语言实质-Python基础前传(3)
  13. Python+windows系统 虚拟环境的独立搭建 框架scrapy 工具PyCharm
  14. 关于运行项目时 vue-pdf 插件依赖报错的问题及解决办法
  15. lowB三人组算法-冒泡排序-选择排序-插入排序
  16. 语言识别之根据字典矫正文本及其c++代码实现
  17. 任意阶幻方的解法及c++实现
  18. 程序员养生之道:Google 是如何鼓励员工多吃蔬菜的?
  19. C语言经典题目:有5个人坐在一起,问他们分别多少岁?
  20. 计算机音乐谱巴啦啦小魔,天谕手游巴啦啦小魔仙乐谱代码是什么-天谕手游巴啦啦小魔仙乐谱代码分享_快吧手游...

热门文章

  1. 康普:云时代智能布线多面手
  2. Python 模拟发送键盘按键
  3. cosmos源码分析之二整体流程
  4. 教你winscp使用教程
  5. java 分割一个_分割java
  6. 物联网LoRa系列-32:LoRaWAN无线智能水表如何进行水量数据采集?脉冲采集、双干簧管、磁性元件、光电转换、霍尔元件
  7. android蓝牙源码分析
  8. spring cloud alibaba 全家桶详细整合
  9. Unity(使用GUI制作第一人称鼠标准星)
  10. 美团青龙教程(2022.11.9最新版)附脚本