from urllib import request,parse
import time
import random
class BaiduSpider(object):def __init__(self):self.url='http://tieba.baidu.com/f?kw={}&pn={}'self.headers={'User-Agent':'Mozilla/5.0'}#获取响应def get_page(self,url):req=request.Request(url=url,headers=self.headers)res=request.urlopen(req)html=res.read().decode('utf-8')return html#提取数据def parse_page(self):pass#保存数据def write_page(self,filename,html):with open(filename,'w',encoding='utf-8') as f:f.write(html)#主函数def main(self):name=input('请输入贴吧名:')start=int(input("请输入起始页:"))end=int(input("请输入终止页:"))#拼接URL地址,发请求for page in range(start,end+1):pn=(page-1)*50kw=parse.quote(name)url=self.url.format(kw,pn)#获取响应并保存html=self.get_page(url)filename='{}-第{}页.html'.format(name,page)self.write_page(filename,html)#提示print('第{}页爬取成功'.format(page))#控制爬取速度time.sleep(random.randint(1,3))if __name__=="__main__":spider=BaiduSpider()spider.main()

爬取百度贴吧---迪丽热巴吧网页并保存爬取下来的网页在本地相关推荐

  1. 用python 爬取百度百科内容-爬虫实战(一) 用Python爬取百度百科

    最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释 我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果 但是自己又没有心思做这样一个数 ...

  2. python爬去百度百科词条_Python爬虫入门学习实践——爬取小说

    本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...

  3. python爬取qq好友_Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友(主要是爬虫)...

    一.效果如下: 二.运行环境: win10系统:python3:PyCharm 三.QQ机器人用的是qqbot模块 用pip安装命令是: pip install qqbot (前提需要有request ...

  4. python爬取百度贴吧指定内容

    环境:python3.6 1:抓取百度贴吧-linux吧内容 基础版 抓取一页指定内容并写入文件 萌新刚学习Python爬虫,做个练习 贴吧链接: http://tieba.baidu.com/f?k ...

  5. json返回的img图片被原样输出_爬取百度图片,并下载至本地

    爬取百度图片 一:本节目标 本次爬取的目标是百度图片,将图片下载到本地 二:准备工作 安装Scrapy.Python3 三:爬取思路 我们需要实现的是下载图片,所以需要获取图片的真实链接 四:爬取分析 ...

  6. Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片

    Python爬虫:运用多线程.IP代理模块爬取百度图片上小姐姐的图片 1.爬取输入类型的图片数量(用于给用户提示) 使用过百度图片的读者会发现,在搜索栏上输入关键词之后,会显示出搜索的结果,小编想大多 ...

  7. python爬取百度标题_Python爬取百度热搜和数据处理

    一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取百度热搜 2.主题式网络爬虫爬取的内容与数据特征分析:百度热搜排行,标题,热度 3.主题式网络爬虫设计方案概述:先搜索网站,查找数据并比对然后再 ...

  8. Python爬虫实战,简单的爬虫案例,以及爬取百度贴吧网页原码和360翻译

    一.爬取网页上的图片 import requestsresponse = requests.get("http://file.elecfans.com/web1/M00/8B/33/o4YB ...

  9. 【JavaWeb 爬虫】Java文本查重网页版 爬取百度搜索结果页全部链接内容

    ! ! 更新:增加了网页过滤判断,只允许域名包含blog,jianshu的网站通过 小技巧 Java中InputStream和String之间的转换方法 String result = new Buf ...

最新文章

  1. Microsoft office Communications server 2007部署
  2. 用FDISK进行硬盘分区
  3. springmvc DispatchServlet初始化九大加载策略(一)
  4. 苹果android投屏,iPhone手机如何投屏到智能电视?
  5. SpringMVC的请求-获得请求参数-静态资源访问的开启
  6. 倒立摆自动起摆_今天起,中山街坊可以去唱K、游泳、看电影、摆喜酒了!
  7. 调查|73%的公司正使用存在漏洞的超期服役设备
  8. java await signal_【Java并发008】原理层面:ReentrantLock中 await()、signal()/signalAll()全解析...
  9. NIOS2随笔——BMP解码与VGA显示
  10. Springboot整合mybatis框架(含实例Demo)
  11. Android 功耗(14)----Android功耗 问题debug处理
  12. 选择AWS或Azure?这可能是个错误的问题
  13. Java中的原型设计模式
  14. 安卓车机没有ADB调试,任意安装第三方软件教程
  15. war包的打包与解压
  16. 数据库连接池实现原理
  17. k8s calico 插件错误:Calico node 'node4' is already using the IPv4 address 172.19.0.1.
  18. facebook女程序员_Facebook正在悄悄地向其独立的事实检查员施加压力,要求他们改变裁决
  19. 【CF869E】The Untended Antiquity(哈希+二维树状数组)
  20. 注意关于花露水的4大使用误区 - 生活至上,美容至尚!

热门文章

  1. 儒家的“天下观念”与“文化决定论”
  2. 未来十年 计算机人才缺口大吗,未来十年 国内人才最紧缺的是这六大专业
  3. 员工满意度对企业的重要性
  4. oauth2.0 注销登录再次访问authorize授权接口会跳过登录页面问题解决
  5. 使用ActiveSync
  6. linux cron记录时间,crontab每分钟,5,10分钟,每小时,每天零点,每周日0点,每月1号0点,每年1月1日执行脚本,linux shell定时任务...
  7. 阿里出品的ETL工具dataX初体验
  8. 【QQ聊天界面-创建自定义Cell Objective-C语言】
  9. visual studio 编辑器窗口分屏
  10. 史上最强的绕口令,吐血也读不出