python贴吧爬虫-python贴吧爬虫
# !usr/bin/env python
# -*- coding:utf-8 _*-
"""
@Author:czk
@File:tieba_spider.py
@Time:2020/6/6 21:31
@Motto:积极向上
"""
import requests
class TiebaSpider:
def __init__(self, tieba_name):
self.tieba_name = tieba_name
self.url_temp = 'https://tieba.baidu.com/f?kw=' + tieba_name + '&ie=utf-8&pn={}'
self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}
def get_url_list(self):
# url_list = []
#
# for i in range(100):
# url_list.append(self.url_temp.format(i*50))
# return url_list
return [self.url_temp.format(i*50) for i in range(1000)]
def parse_url(self, url, page_num):
print('---start{}---'.format(page_num))
response = requests.get(url, headers=self.headers)
return response.content.decode()
def save_html(self, html_str, page_num):
file_path = '{}-第{}页.html'.format(self.tieba_name, page_num)
with open(file_path, 'w', encoding='utf-8') as f:
f.write(html_str)
def run(self):
# 1.构造url请求列表
# 2. 遍历,发送请求,获取响应
# 3.保存
url_list = self.get_url_list()
for url in url_list:
page_num = url_list.index(url) + 1
html_str = self.parse_url(url, page_num)
# page_num = url_list.index(url)+1
self.save_html(html_str, page_num)
if __name__ == '__main__':
tieba_spider = TiebaSpider("LOL")
tieba_spider.run()
python贴吧爬虫-python贴吧爬虫相关推荐
- 老司机带你学爬虫——Python爬虫技术分享
什么是"爬虫"? 简单来说,写一个从web上获取需要数据并按规定格式存储的程序就叫爬虫: 爬虫理论上步骤很简单,第一步获取html源码,第二步分析html并拿到数据.但实际操作,老 ...
- Python培训分享:python爬虫可以用来做什么?
爬虫又被称为网络蜘蛛,它可以抓取我们页面的一些相关数据,近几年Python技术的到来,让我们对爬虫有了一个新的认知,那就是Python爬虫,下面我们就来看看python爬虫可以用来做什么? Pytho ...
- python scrapy 入门,10分钟完成一个爬虫
在TensorFlow热起来之前,很多人学习python的原因是因为想写爬虫.的确,有着丰富第三方库的python很适合干这种工作. Scrapy是一个易学易用的爬虫框架,尽管因为互联网多变的复杂性仍 ...
- python爬虫源码怎么使用_Python爬虫具体应该怎么使用?
1.首先,什么时候我们需要爬虫呢? 当我们需要某网站上的海量数据的时候,会发现,如果人工去把几百页,每页几十条到几百条的数据一条一条地复制下来,就太费时费力了,甚至根本就不可能.但是你做研究却需要这样 ...
- python爬取淘宝商品做数据挖掘_Python 3爬虫 数据清洗与可视化实战 Python数据抓取技术 python3网络爬虫教程书籍 运用Python工具获取电商平台页面数据挖掘书籍...
A8 书 名:Python 3爬虫 数据清洗与可视化实战 作 译 者:零一,韩要宾,黄园园 出版时间:2018-03 千 字 数:200 版 次:01-01 页 数:212 开 ...
- python学到什么程度可以写爬虫-小白python学到什么程度可以学习网络爬虫? ?...
通常掌握简单的Python语法基础,对现有的网页组成,比如HTML.css.javascript等网页源码有一定的了解,就可以开始学爬虫了. Python关于爬虫的部分,其实是比较好学的,可以大致分为 ...
- python学到什么程度可以写爬虫-月薪2万的爬虫工程师,Python需要学到什么程度?...
非计算机专业,正在自学python,很多教程里提到的网站的爬虫都会写了.比如拉勾网,豆瓣,实习僧,京东,淘宝,某妹子图等等--但是因为不是计算机专业的,也没学所谓的四大名著,不知道那四大对找工作重要吗 ...
- 爬虫python需要什么软件-Python爬虫需要学习那些东西?
基础爬虫过程 基础的爬虫其实很简单的,主要过程就是:发送请求,并获取响应数据: 解析响应数据,获取想要的那部分数据: 存储解析出来的数据: 基础的爬虫事例 比如我们想写一个爬虫程序,自动为我们获取bi ...
- python好学嘛-爬虫Python入门好学吗?学什么?
爬虫Python入门好学吗?学爬虫需要具备一定的基础,有编程基础学Python爬虫更容易学.但要多看多练,有自己的逻辑想法.用Python达到自己的学习目的才算有价值.如果是入门学习了解,开始学习不难 ...
- 爬虫python代码-Python爬虫入门(01) -- 10行代码实现一个爬虫
跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫 以抓取简书首页文章标题和链接为例 简书首页 就是以上红色框内文章的标签,和这个标题对应的url链接 ...
最新文章
- 【Ghost Blog】如何给Ghost Blog添加背景音乐
- 7年,从“游戏少年”到大厂技术总监的逆袭之路
- 开源的13个Spring Boot 优秀学习项目!超53K星,一网打尽!
- html可以有多个main吗,main和div
- 详解sentinel:分布式系统的流量防卫兵
- 基于jsp的教师科研工作量_基于jsp+mysql的JSP教师科研信息管理系统
- 欧拉函数 cojs 2181. 打表
- 大地震!某大厂“硬核”抢人,放话:只要AI人才,高中毕业都行!
- 用计算机表示45,计算机应用基础信息专业技术习题(45页)-原创力文档
- Delphi用ini文档实现界面无闪烁多语言转换
- (网页)JS实现alert中显示换行的方法
- IE7 绝对定位z-index问题
- Vue相关易忘点记录
- 求教务排课系统(eclipes和MSQL)!
- 3月16日—3月20日四年级课程表
- 【第六篇】Qt学习与使用---在qt中打印PDF文件(不是生成PDF)
- 打印机 树莓派安装cpus_树莓派安装网络打印机
- web前端《叮叮书店》编写
- 【论文读后感】:A simple yet effective baseline for 3d human pose estimation
- ITSM平台和CMDB集成的主要场景