Python贴吧爬虫
代码比较简单,就直接上代码吧
import requestsclass TiebaSpider:def __init__(self, tieba_name):self.tieba_name = tieba_nameself.url_temp = "https://tieba.baidu.com/f?kw="+tieba_name+"&ie=utf-8&pn{}" #贴吧地址self.headers = {"User-Agent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Mobile Safari/537.36"} #浏览器属性def get_url_list(self):url_list = []for i in range(1000):url_list.append(self.url_temp.format(i * 50))return url_listdef parse_url(self, url):print(url)response = requests.get(url, headers=self.headers)return response.content.decode()def save_html(self, html_str, page_num):file_path = "{}-第{}页.html".format(self.tieba_name, page_num)with open(file_path, "w", encoding="utf-8") as f:f.write(html_str)def run(self):#1.构造url列表url_list = self.get_url_list()#2.遍历,发送请求,获取相应for url in url_list:html_str = self.parse_url(url)#3.保存page_name = url_list.index(url)+1self.save_html(html_str, page_name)if __name__ == '__main__':tieba_spider = TiebaSpider("") #这里输入你需要爬取的贴吧名tieba_spider.run()
Python贴吧爬虫相关推荐
- python创建scrapy_Python爬虫教程-31-创建 Scrapy 爬虫框架项目
首先说一下,本篇是在 Anaconda 环境下,所以如果没有安装 Anaconda 请先到官网下载安装 Scrapy 爬虫框架项目的创建0.打开[cmd] 1.进入你要使用的 Anaconda 环境1 ...
- python免费自学爬虫_这套Python爬虫学习教程,不到一天即可新手到进阶!免费领...
想用Python做爬虫,而你却还不会Python的话,那么这些入门基础知识必不可少.很多小伙伴,特别是在学校的学生,接触到爬虫之后就感觉这个好厉害的样子,我要学.但是却完全不知道从何开始,很迷茫,学的 ...
- python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...
原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号 不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...
- scrapy爬虫储存到mysql_详解Python之Scrapy爬虫教程NBA球员数据存放到Mysql数据库
获取要爬取的URL 爬虫前期工作 用Pycharm打开项目开始写爬虫文件 字段文件items # Define here the models for your scraped items # # S ...
- python拿什么做可视化界面好-用python打造可视化爬虫监控系统,酷炫的图形化界面...
原标题:用python打造可视化爬虫监控系统,酷炫的图形化界面 本文并不是讲解爬虫的相关技术实现的,而是从实用性的角度,将抓取并存入 MongoDB 的数据 用 InfluxDB 进行处理,而后又通过 ...
- python爬虫小说代码示例-Python从零开始写爬虫-4 解析HTML获取小说正文
Python从零开始写爬虫-4 解析HTML获取小说正文 在上一节中, 我们已经学会如何获取小说的目录, 这一节我们将学习如何通过正则表达式(在第二节学习过)来获取小说正文. 首先, 先随便选择一个章 ...
- python多线程爬虫实例-Python实现多线程爬虫
编辑推荐: 本文主要介绍对Python多线程爬虫实战的整体的思路,希望对大家有帮助. 本文来知乎,由火龙果软件Alice编辑,推荐. 最近在写爬虫程序爬取亚马逊上的评论信息,因此也自学了很多爬虫相关的 ...
- 为什么叫python编程-python为什么叫爬虫
python为什么叫爬虫 作为一门编程语言而言,Python是纯粹的自由软件,以简洁清晰的语法和强制使用空白符进行语句缩进的特点从而深受程序员的喜爱.举一个例子:完成一个任务的话,c语言一共要写100 ...
- python爬虫有什么用处-python为什么叫爬虫 python有什么优势
作为一门编程语言而言,Python是纯粹的自由软件,以简洁清晰的语法和强制使用空白符进行语句缩进的特点从而深受程序员的喜爱.很多程序员都会把python叫做爬虫,那么你们知道python为什么叫爬虫吗 ...
- python叫什么-Python为什么叫爬虫?Python与爬虫有什么关系?
今天听到有人问:Python为什么叫爬虫?我的脑袋里第一反应不是答案,而是为什么有人会问这个问题,我想大家对Python的概念有点模糊,将Python与爬虫混淆,所以今天我向大家解释一下. 什么是Py ...
最新文章
- TensorFlow反向传播算法实现
- MyBatis 之 动态SQL
- 2018,微软可能要在方方面面融入进企业
- [00004]-[2015-07-16]-[00]-[VC++ 开发Activity控件基础]
- Android App内部自动更新Library的使用(转载)
- 浅谈数组常见遍历方法
- windows 下安装Simplejson方法
- 源码分析RocketMQ ACL实现机制
- 22. 链表中倒数第k个节点
- RabbitMQ学习之集群镜像模式配置
- 如果在2008年用10万元投资腾讯,现在可以实现财务自由吗?
- 如何重置/删除chrome的输入突出显示/焦点边框? [重复]
- Bootstrap 滚动监听(Scrollspy)插件
- python基础知识第一节
- python生成双层pdf
- 计算机硬件故障解决方法,计算机硬件故障分析与解决方法
- python 小说分析_Python起点小说数据分析
- DTL autoescape
- c++封装webrtc sdk(二):在sdk端实现webrtc视频渲染
- 手机android进程管理,手机进程管理app_华为手机进程管理_手机自动进程管理软件-多特软件站安卓网...