爬取百度贴吧---迪丽热巴吧网页并保存爬取下来的网页在本地

from urllib import request,parse
import time
import random
class BaiduSpider(object):def __init__(self):self.url='http://tieba.baidu.com/f?kw={}&pn={}'self.headers={'User-Agent':'Mozilla/5.0'}#获取响应def get_page(self,url):req=request.Request(url=url,headers=self.headers)res=request.urlopen(req)html=res.read().decode('utf-8')return html#提取数据def parse_page(self):pass#保存数据def write_page(self,filename,html):with open(filename,'w',encoding='utf-8') as f:f.write(html)#主函数def main(self):name=input('请输入贴吧名:')start=int(input("请输入起始页:"))end=int(input("请输入终止页:"))#拼接URL地址，发请求for page in range(start,end+1):pn=(page-1)*50kw=parse.quote(name)url=self.url.format(kw,pn)#获取响应并保存html=self.get_page(url)filename='{}-第{}页.html'.format(name,page)self.write_page(filename,html)#提示print('第{}页爬取成功'.format(page))#控制爬取速度time.sleep(random.randint(1,3))if __name__=="__main__":spider=BaiduSpider()spider.main()

爬取百度贴吧---迪丽热巴吧网页并保存爬取下来的网页在本地相关推荐

用python 爬取百度百科内容-爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...
python爬去百度百科词条_Python爬虫入门学习实践——爬取小说
本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...
python爬取qq好友_Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友（主要是爬虫）...
一.效果如下: 二.运行环境: win10系统:python3:PyCharm 三.QQ机器人用的是qqbot模块用pip安装命令是: pip install qqbot (前提需要有request ...
python爬取百度贴吧指定内容
环境:python3.6 1:抓取百度贴吧-linux吧内容基础版抓取一页指定内容并写入文件萌新刚学习Python爬虫,做个练习贴吧链接: http://tieba.baidu.com/f?k ...
json返回的img图片被原样输出_爬取百度图片，并下载至本地
爬取百度图片一:本节目标本次爬取的目标是百度图片,将图片下载到本地二:准备工作安装Scrapy.Python3 三:爬取思路我们需要实现的是下载图片,所以需要获取图片的真实链接四:爬取分析 ...
Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片
Python爬虫:运用多线程.IP代理模块爬取百度图片上小姐姐的图片 1.爬取输入类型的图片数量(用于给用户提示) 使用过百度图片的读者会发现,在搜索栏上输入关键词之后,会显示出搜索的结果,小编想大多 ...
python爬取百度标题_Python爬取百度热搜和数据处理
一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取百度热搜 2.主题式网络爬虫爬取的内容与数据特征分析:百度热搜排行,标题,热度 3.主题式网络爬虫设计方案概述:先搜索网站,查找数据并比对然后再 ...
Python爬虫实战，简单的爬虫案例，以及爬取百度贴吧网页原码和360翻译
一.爬取网页上的图片 import requestsresponse = requests.get("http://file.elecfans.com/web1/M00/8B/33/o4YB ...
【JavaWeb 爬虫】Java文本查重网页版爬取百度搜索结果页全部链接内容
! ! 更新:增加了网页过滤判断,只允许域名包含blog,jianshu的网站通过小技巧 Java中InputStream和String之间的转换方法 String result = new Buf ...

爬取百度贴吧---迪丽热巴吧网页并保存爬取下来的网页在本地

爬取百度贴吧---迪丽热巴吧网页并保存爬取下来的网页在本地相关推荐

最新文章

热门文章