在这里我们写一个简单的小爬虫程序,爬取百度贴吧前几页的数据。

import requests
import sysclass Tieba(object):
def __init__(self, name, pn):self.name = name  self.headers = {       #requests请求的时候一定要带上headers  请求头"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36"}#kw{ }=.format(parems)  是一种拼接数据的方式   会把format里面的参数传递给 kw{}里面self.base_url = "http://tieba.baidu.com/f?kw={}&pn=".format(self.name)self.url_list = [self.base_url + str(i*50)for i in range(pn)]   #使用列表生成式,构建 url列表def get_data(self, url):response = requests.get(url, headers=self.headers)return response.contentdef save_data(self, data, index):# 组装文件名   再次用到  format格式filename = self.name + "_{}.html".format(index)with open(filename, 'wb')as f:f.write(data)def run(self):# run中写爬取思路# 构建请求头# 构建url列表# 遍历url列表,对每一个url发起请求获取响应for url in self.url_list:data = self.get_data(url)# 将响应保存index = self.url_list.index(url)self.save_data(data, index)

接线来,开始main主函数启动,调用其他函数

if name == 'main':#input是一种方法          word = sys.argv[1]   #sys接收参数  就是从控制台 console获取数据pn = sys.argv[2]  tieba = Tieba(word, int(pn))tieba.run()

【爬虫】爬取百度贴吧数据相关推荐

  1. java爬虫黑马百度云,Java爬虫小Demo java爬取百度风云榜数据

    Java爬虫小Demo java爬取百度风云榜数据 很简单的一个小例子,使用到了java的爬虫框架 jsoup ,一起啦看看实现的方法吧! 相关推荐:Python爬虫实战 python爬虫爬取百度风云 ...

  2. python爬取贴吧数据_爬取百度贴吧数据(练习Python爬虫)

    爬取百度贴吧数据(Python) 1.总代码: from urllib.request import Request, urlopen from urllib.parse import quote d ...

  3. python爬虫爬取百度文档

    使用python爬虫爬取百度文档文字 话不多说,直接上代码! import requests import reheaders = {"User-Agent": "Moz ...

  4. python3爬虫爬取百度贴吧下载图片

    python3爬虫爬取百度贴吧下载图片 学习爬虫时没事做的小练习. 百度对爬虫还是很友好的,在爬取内容方面还是较为容易. 可以方便各位读者去百度贴吧一键下载每个楼主的图片,至于是什么类型的图片,就看你 ...

  5. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  6. python爬虫豆瓣电影评价_使用爬虫爬取豆瓣电影影评数据Python版

    在 使用爬虫爬取豆瓣电影影评数据Java版 一文中已详细讲解了爬虫的实现细节,本篇仅为展示Python版本爬虫实现,所以直接上代码 完整代码 爬虫主程序 # 爬虫启动入口 from C02.data ...

  7. python爬虫爬取百度贴吧图片,requests方法

    每天一点点,记录学习 近期爬虫项目,看完请点赞哦---: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方 ...

  8. python 百度百科 爬虫_爬虫爬取百度百科数据

    以前段时间<青春有你2>为例,我们使用Python来爬取百度百科中<青春有你2>所有参赛选手的信息. 什么是爬虫? 为了获取大量的互联网数据,我们自然想到使用爬虫代替我们完成这 ...

  9. python爬虫爬取百度图片总结_爬虫篇| 爬取百度图片(一)

    什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...

最新文章

  1. 使用 XML 时尽量避免使用的技术
  2. [javascript] 看知乎学习js闭包
  3. 数据结构之图的应用:拓扑排序
  4. SQLSTATE[42000]: Syntax error or access violation: 1071 Specified key was too long; max key length
  5. oracle 11g rman catalog,Oracle 11g RMAN复制数据库的测试
  6. ABP .Net Core 部署到IIS 问题汇总
  7. 什么是迁移学习?它都用在深度学习的哪些场景上?
  8. python制作个人相册_这样精美的照片墙,其实python也能做
  9. 获得学士学位的机器学习工程工作
  10. ImageView加载本地图片资源
  11. 正轴等角割圆锥投影综述
  12. 微信小程序实现二维码签到考勤
  13. cocos creator 发布IOS版本(一)从零开始,Xcode:12.0
  14. Linux指令整理(从入门到高级)+Shell语法
  15. OFDM载波间隔_LTE-子载波间隔与符号持续时长关系
  16. Android Studio连接mysql8.0.25经验贴(三天血与泪的教训)
  17. 鸡兔同笼python程序怎么写_属鸡-生肖鸡-属鸡人的命运-华易算命网
  18. A*算法项目实践之一:栅格法的使用与障碍物栅格的生成
  19. php学习路线(转)
  20. CodeForces1214C

热门文章

  1. 第一周 第二天的linux学习
  2. 以太坊搭建联盟链详细教程
  3. Ubuntu 16.04 安装wine
  4. iOS9的几个新关键字(nonnull、nullable、null_resettable、__null_unspecified)
  5. 窗体间传值和窗体间互操作
  6. Capybara 2.14.1 发布,Web 应用验收测试框架
  7. R语言实战(七)图形进阶
  8. 使用subgit进行svn迁移至git(branch,tags)
  9. Android:Layout_weight的深刻理解
  10. 欧冠淘汰赛第二回合!我厂生死战!!