# !usr/bin/env python

# -*- coding:utf-8 _*-

"""

@Author:czk

@File:tieba_spider.py

@Time:2020/6/6 21:31

@Motto:积极向上

"""

import requests

class TiebaSpider:

def __init__(self, tieba_name):

self.tieba_name = tieba_name

self.url_temp = 'https://tieba.baidu.com/f?kw=' + tieba_name + '&ie=utf-8&pn={}'

self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}

def get_url_list(self):

# url_list = []

#

# for i in range(100):

# url_list.append(self.url_temp.format(i*50))

# return url_list

return [self.url_temp.format(i*50) for i in range(1000)]

def parse_url(self, url, page_num):

print('---start{}---'.format(page_num))

response = requests.get(url, headers=self.headers)

return response.content.decode()

def save_html(self, html_str, page_num):

file_path = '{}-第{}页.html'.format(self.tieba_name, page_num)

with open(file_path, 'w', encoding='utf-8') as f:

f.write(html_str)

def run(self):

# 1.构造url请求列表

# 2. 遍历,发送请求,获取响应

# 3.保存

url_list = self.get_url_list()

for url in url_list:

page_num = url_list.index(url) + 1

html_str = self.parse_url(url, page_num)

# page_num = url_list.index(url)+1

self.save_html(html_str, page_num)

if __name__ == '__main__':

tieba_spider = TiebaSpider("LOL")

tieba_spider.run()

python贴吧爬虫-python贴吧爬虫相关推荐

  1. 老司机带你学爬虫——Python爬虫技术分享

    什么是"爬虫"? 简单来说,写一个从web上获取需要数据并按规定格式存储的程序就叫爬虫: 爬虫理论上步骤很简单,第一步获取html源码,第二步分析html并拿到数据.但实际操作,老 ...

  2. Python培训分享:python爬虫可以用来做什么?

    爬虫又被称为网络蜘蛛,它可以抓取我们页面的一些相关数据,近几年Python技术的到来,让我们对爬虫有了一个新的认知,那就是Python爬虫,下面我们就来看看python爬虫可以用来做什么? Pytho ...

  3. python scrapy 入门,10分钟完成一个爬虫

    在TensorFlow热起来之前,很多人学习python的原因是因为想写爬虫.的确,有着丰富第三方库的python很适合干这种工作. Scrapy是一个易学易用的爬虫框架,尽管因为互联网多变的复杂性仍 ...

  4. python爬虫源码怎么使用_Python爬虫具体应该怎么使用?

    1.首先,什么时候我们需要爬虫呢? 当我们需要某网站上的海量数据的时候,会发现,如果人工去把几百页,每页几十条到几百条的数据一条一条地复制下来,就太费时费力了,甚至根本就不可能.但是你做研究却需要这样 ...

  5. python爬取淘宝商品做数据挖掘_Python 3爬虫 数据清洗与可视化实战 Python数据抓取技术 python3网络爬虫教程书籍 运用Python工具获取电商平台页面数据挖掘书籍...

    A8 书    名:Python 3爬虫 数据清洗与可视化实战 作 译 者:零一,韩要宾,黄园园 出版时间:2018-03 千 字 数:200 版    次:01-01 页    数:212 开   ...

  6. python学到什么程度可以写爬虫-小白python学到什么程度可以学习网络爬虫? ?...

    通常掌握简单的Python语法基础,对现有的网页组成,比如HTML.css.javascript等网页源码有一定的了解,就可以开始学爬虫了. Python关于爬虫的部分,其实是比较好学的,可以大致分为 ...

  7. python学到什么程度可以写爬虫-月薪2万的爬虫工程师,Python需要学到什么程度?...

    非计算机专业,正在自学python,很多教程里提到的网站的爬虫都会写了.比如拉勾网,豆瓣,实习僧,京东,淘宝,某妹子图等等--但是因为不是计算机专业的,也没学所谓的四大名著,不知道那四大对找工作重要吗 ...

  8. 爬虫python需要什么软件-Python爬虫需要学习那些东西?

    基础爬虫过程 基础的爬虫其实很简单的,主要过程就是:发送请求,并获取响应数据: 解析响应数据,获取想要的那部分数据: 存储解析出来的数据: 基础的爬虫事例 比如我们想写一个爬虫程序,自动为我们获取bi ...

  9. python好学嘛-爬虫Python入门好学吗?学什么?

    爬虫Python入门好学吗?学爬虫需要具备一定的基础,有编程基础学Python爬虫更容易学.但要多看多练,有自己的逻辑想法.用Python达到自己的学习目的才算有价值.如果是入门学习了解,开始学习不难 ...

  10. 爬虫python代码-Python爬虫入门(01) -- 10行代码实现一个爬虫

    跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫 以抓取简书首页文章标题和链接为例 简书首页 就是以上红色框内文章的标签,和这个标题对应的url链接 ...

最新文章

  1. 【Ghost Blog】如何给Ghost Blog添加背景音乐
  2. 7年,从“游戏少年”到大厂技术总监的逆袭之路
  3. 开源的13个Spring Boot 优秀学习项目!超53K星,一网打尽!
  4. html可以有多个main吗,main和div
  5. 详解sentinel:分布式系统的流量防卫兵
  6. 基于jsp的教师科研工作量_基于jsp+mysql的JSP教师科研信息管理系统
  7. 欧拉函数 cojs 2181. 打表
  8. 大地震!某大厂“硬核”抢人,放话:只要AI人才,高中毕业都行!
  9. 用计算机表示45,计算机应用基础信息专业技术习题(45页)-原创力文档
  10. Delphi用ini文档实现界面无闪烁多语言转换
  11. (网页)JS实现alert中显示换行的方法
  12. IE7 绝对定位z-index问题
  13. Vue相关易忘点记录
  14. 求教务排课系统(eclipes和MSQL)!
  15. 3月16日—3月20日四年级课程表
  16. 【第六篇】Qt学习与使用---在qt中打印PDF文件(不是生成PDF)
  17. 打印机 树莓派安装cpus_树莓派安装网络打印机
  18. web前端《叮叮书店》编写
  19. 【论文读后感】:A simple yet effective baseline for 3d human pose estimation
  20. ITSM平台和CMDB集成的主要场景

热门文章

  1. 安卓(android)毕业设计各种app项目
  2. vscode 搭建C语言开发环境
  3. 二元函数连续性、可导性及极限
  4. js判断设备是PC端还是移动端
  5. autosar 与osek 的nm
  6. dateutil 日期计算_DateUtil日期工具类
  7. Teststand 界面打不开问题解决
  8. 【Unity项目实战】手把手教学:飞翔的小鸟(1)导入素材
  9. ppt —— 矢量图标库
  10. RadAsm + OD 搭配编写和调试汇编程序