python爬虫入门(一)爬取钓鱼吧

# Date :   2022/1/1  17:11
'''
需求：1、输入贴吧名称:钓鱼吧https://tieba.baidu.com/f?kw=钓鱼吧&pn=0    第一页https://tieba.baidu.com/f?kw=钓鱼吧&pn=50   第二页2、输入起始页：13、输入结束页：34、保存到本地文件钓鱼吧-第1页.html、 钓鱼吧-第2页.html ...实现步骤：1、查看是否为静态网页2、找url规律3、获取网页内容
'''from urllib import request,parse
import random
import timefrom _06_user_agent import ua_list
# 也能用下面代码生成user-agent,使用超级简单的请求头fake_useragent库
# from fake_useragent import UserAgent
#  ua = UserAgent()
#  user_agent = ua.randomclass TiebaSpider(object):def __init__(self):self.url = 'https://tieba.baidu.com/f?kw={}&pn={}'# 获取响应内容def get_page(self,url):headers = {'User-Agent': random.choice(ua_list)}req = request.Request(url=url,headers=headers)res = request.urlopen(req)html = res.read().decode()return html# 解析提取数据(暂时不写)def parse_page(self):pass# 保存数据def write_page(self, filename, html):with open(filename, 'w', encoding='utf-8') as f:f.write(html)# 入口函数def run(self):name = input('请输入贴吧名：')begin = int(input('请输入起始页：'))end = int(input('请输入结束页：'))# 编码kw = parse.quote(name)# 拼接 + 获取内容 + 保存for i in range(begin,end + 1):print('********************第{}次爬取{}数据***********************'.format(i, name))pn = (i - 1) * 50url = self.url.format(kw,pn)html = self.get_page(url)filename = '{}-第{}页.html'.format(name, i)self.write_page(filename, html)print('第%d页抓取成功...' % i)# 每爬取一个页面随机休眠1-3秒sec = random.randint(1, 3)time.sleep(sec)print('此次休眠了%d秒' % sec)# main
if __name__ == '__main__':begin = time.time()spider = TiebaSpider()spider.run()end = time.time()print('此次爬取任务的执行时间：%.2f秒' % (end - begin))

# Date :   2022/1/1  23:30
ua_list = ['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50','Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)','Mozilla/5.0 (Windows; U; Windows NT 6.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201'
]

python爬虫入门(一)爬取钓鱼吧相关推荐

Python爬虫入门（爬取豆瓣电影信息小结）
Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...
Python爬虫入门 | 5 爬取小猪短租租房信息
小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/ 1.爬取租房标题 ...
Python爬虫入门 | 4 爬取豆瓣TOP250图书信息
先来看看页面长啥样的:https://book.douban.com/top250 我们将要爬取哪些信息:书名.链接.评分.一句话评价-- 1. 爬取单个信息我们先来尝试爬取书名,利用之 ...
python 爬虫入门--文字爬取
python 爬虫入门–文字爬取对于爬虫,相信大家都不陌生,但是如何入门,大家还是停留在了解认知阶段吗?那可以试试下边的方法,一起来试一下. 首先我们试试爬取网页中的***文本信息*** 使用的是我 ...
Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
python爬虫入门教程-Python爬虫入门教程——爬取自己的博客园博客
互联网时代里,网络爬虫是一种高效地信息采集利器,可以快速准确地获取网上的各种数据资源.本文使用Python库requests.Beautiful Soup爬取博客园博客的相关信息,利用txt文件转存. ...
python爬虫教程-Python爬虫入门教程——爬取自己的博客园博客
互联网时代里,网络爬虫是一种高效地信息采集利器,可以快速准确地获取网上的各种数据资源.本文使用Python库requests.Beautiful Soup爬取博客园博客的相关信息,利用txt文件转存. ...
基于Requests的Python爬虫入门实例------爬取豆瓣图书排行榜的前25本图书（小白福利）
话不多说,先上代码: # -*- coding:utf-8 -*- import sys import requests import lxml from bs4 import BeautifulSo ...
Python爬虫入门：爬取某个网页的小说内容
导入必要的包 import requests import re 要爬的网页 url = 'http://www.shujy.com/5200/244309/' 模拟浏览器发送http请求 respo ...

python爬虫入门(一)爬取钓鱼吧

python爬虫入门(一)爬取钓鱼吧

python爬虫入门(一)爬取钓鱼吧相关推荐

最新文章

热门文章