python贴吧爬虫-python贴吧爬虫

# !usr/bin/env python

# -*- coding:utf-8 _*-

"""

@Author:czk

@File:tieba_spider.py

@Time:2020/6/6 21:31

@Motto:积极向上

"""

import requests

class TiebaSpider:

def __init__(self, tieba_name):

self.tieba_name = tieba_name

self.url_temp = 'https://tieba.baidu.com/f?kw=' + tieba_name + '&ie=utf-8&pn={}'

self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}

def get_url_list(self):

# url_list = []

# for i in range(100):

# url_list.append(self.url_temp.format(i*50))

# return url_list

return [self.url_temp.format(i*50) for i in range(1000)]

def parse_url(self, url, page_num):

print('---start{}---'.format(page_num))

response = requests.get(url, headers=self.headers)

return response.content.decode()

def save_html(self, html_str, page_num):

file_path = '{}-第{}页.html'.format(self.tieba_name, page_num)

with open(file_path, 'w', encoding='utf-8') as f:

f.write(html_str)

def run(self):

# 1.构造url请求列表

# 2. 遍历，发送请求，获取响应

# 3.保存

url_list = self.get_url_list()

for url in url_list:

page_num = url_list.index(url) + 1

html_str = self.parse_url(url, page_num)

# page_num = url_list.index(url)+1

self.save_html(html_str, page_num)

if __name__ == '__main__':

tieba_spider = TiebaSpider("LOL")

tieba_spider.run()

python贴吧爬虫-python贴吧爬虫相关推荐

老司机带你学爬虫——Python爬虫技术分享
什么是"爬虫"? 简单来说,写一个从web上获取需要数据并按规定格式存储的程序就叫爬虫: 爬虫理论上步骤很简单,第一步获取html源码,第二步分析html并拿到数据.但实际操作,老 ...
Python培训分享：python爬虫可以用来做什么?
爬虫又被称为网络蜘蛛,它可以抓取我们页面的一些相关数据,近几年Python技术的到来,让我们对爬虫有了一个新的认知,那就是Python爬虫,下面我们就来看看python爬虫可以用来做什么? Pytho ...
python scrapy 入门,10分钟完成一个爬虫
在TensorFlow热起来之前,很多人学习python的原因是因为想写爬虫.的确,有着丰富第三方库的python很适合干这种工作. Scrapy是一个易学易用的爬虫框架,尽管因为互联网多变的复杂性仍 ...
python爬虫源码怎么使用_Python爬虫具体应该怎么使用？
1.首先,什么时候我们需要爬虫呢? 当我们需要某网站上的海量数据的时候,会发现,如果人工去把几百页,每页几十条到几百条的数据一条一条地复制下来,就太费时费力了,甚至根本就不可能.但是你做研究却需要这样 ...
python爬取淘宝商品做数据挖掘_Python 3爬虫数据清洗与可视化实战 Python数据抓取技术 python3网络爬虫教程书籍运用Python工具获取电商平台页面数据挖掘书籍...
A8 书名:Python 3爬虫数据清洗与可视化实战作译者:零一,韩要宾,黄园园出版时间:2018-03 千字数:200 版次:01-01 页数:212 开 ...
python学到什么程度可以写爬虫-小白python学到什么程度可以学习网络爬虫？？...
通常掌握简单的Python语法基础,对现有的网页组成,比如HTML.css.javascript等网页源码有一定的了解,就可以开始学爬虫了. Python关于爬虫的部分,其实是比较好学的,可以大致分为 ...
python学到什么程度可以写爬虫-月薪2万的爬虫工程师，Python需要学到什么程度？...
非计算机专业,正在自学python,很多教程里提到的网站的爬虫都会写了.比如拉勾网,豆瓣,实习僧,京东,淘宝,某妹子图等等--但是因为不是计算机专业的,也没学所谓的四大名著,不知道那四大对找工作重要吗 ...
爬虫python需要什么软件-Python爬虫需要学习那些东西？
基础爬虫过程基础的爬虫其实很简单的,主要过程就是:发送请求,并获取响应数据: 解析响应数据,获取想要的那部分数据: 存储解析出来的数据: 基础的爬虫事例比如我们想写一个爬虫程序,自动为我们获取bi ...
python好学嘛-爬虫Python入门好学吗？学什么？
爬虫Python入门好学吗?学爬虫需要具备一定的基础,有编程基础学Python爬虫更容易学.但要多看多练,有自己的逻辑想法.用Python达到自己的学习目的才算有价值.如果是入门学习了解,开始学习不难 ...
爬虫python代码-Python爬虫入门(01) -- 10行代码实现一个爬虫
跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫以抓取简书首页文章标题和链接为例简书首页就是以上红色框内文章的标签,和这个标题对应的url链接 ...

python贴吧爬虫-python贴吧爬虫

python贴吧爬虫-python贴吧爬虫相关推荐

最新文章

热门文章