Python3-网页爬取-批量爬取贴吧页面数据
# 批量爬取贴吧页面数据 # 网页抓取汉字转码、多个参数拼接 # 第1页: https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&ie=utf-8&pn=0 # 第2页:https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&ie=utf-8&pn=50 # 第3页 https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&ie=utf-8&pn=100 # 第4页 pn=150 # 及格水平---单页爬取 # base_url = "https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&ie=utf-8&pn=" # for page in range(10): # new_url = base_url + str(page*50) # print(new_url) # 进阶水平--单页爬取 # 从键盘去输入贴吧名称和页数,然后爬取指定页面的内容 base_url = 'https://tieba.baidu.com/f?' name = input("请输入贴吧名称:") page = input("请输入贴吧页数:") # page输入的时候就是字符串 from urllib import request, parse# qs={'kw':name, # 'pn':(int(page)-1)*50} # # qs_data=parse.urlencode(qs) # url=base_url+qs_data # print(url) # # headers={ # 'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0' # # } # req=request.Request(url,headers=headers) # response=request.urlopen(req) # html=response.read() # html=html.decode('utf-8') # # with open(name+'第'+page+'页'+'.html','w',encoding='utf-8') as f: # f.write(html) # 进阶水平----批量爬取 # 从键盘去输入贴吧名称和页数,然后爬取指定页面的内容 for i in range(int(page)):qs = {'kw': name, 'pn': i * 50}qs_data = parse.urlencode(qs)url = base_url + qs_dataprint(url)headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0' }req = request.Request(url, headers=headers)response = request.urlopen(req)html = response.read()html = html.decode('utf-8')with open(name + '第' + str(i+1) + '页' + '.html', 'w', encoding='utf-8') as f:f.write(html)
C:\Users\Apple\PycharmProjects\spider\venv\Scripts\python.exe C:/Users/Apple/PycharmProjects/spider/04tieba.py
请输入贴吧名称:旅行青蛙
请输入贴吧页数:2
https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&pn=0
https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&pn=50
Process finished with exit code 0
Python3-网页爬取-批量爬取贴吧页面数据相关推荐
- json spr路驾驶技术视频api_每天弄个小爬取之Python爬取批量爬取B站小视频
1. 批量爬取B站小视频 哔哩哔哩网站(英文名称: bilibili),是年轻人的文化社区,被粉丝们亲切的称为B站.该网站中拥有动画.番剧.国创.音乐.舞蹈.游戏.科技.生活.鬼畜.娱乐.时尚等多个内 ...
- 每天弄个小爬取之Python爬取批量爬取B站小视频!
1. 批量爬取B站小视频 哔哩哔哩网站(英文名称: bilibili),是年轻人的文化社区,被粉丝们亲切的称为B站.该网站中拥有动画.番剧.国创.音乐.舞蹈.游戏.科技.生活.鬼畜.娱乐.时尚等多个内 ...
- python 批量下载网页图片_Python批量爬取图片并下载
PS:本文附赠爬汇图网图片的方法 本文的目录看这里:前言找资源部分进入编程猫图鉴网找到聚集地获取聚集地网址代码部分导入相应的库re库介绍代码获取整个网站的内容扩展:状态码的意思其他的代码--总体代码关 ...
- Python3 协程 + 正则 批量爬取斗鱼美女图片
from urllib import request from gevent import monkey import random import re import geventmonkey.pat ...
- Python爬虫! 单爬,批量爬,这都不是事!
昨天做了一个煎蛋网妹子图的爬虫,个人感觉效果不错.但是每次都得重复的敲辣么多的代码(相比于Java或者其他语言的爬虫实现,Python的代码量可谓是相当的少了),就封装了一下!可以实现对批量网址以及单 ...
- powerbi中python网站数据_Power BI应用实战:批量爬取网页数据
前面介绍PowerBI数据获取的时候,曾举了一个从网页中获取数据的例子,但当时只是爬取了其中一页数据,这篇文章来介绍如何用PowerBI批量采集多个网页的数据. 本文以智联招聘网站为例,采集工作地点在 ...
- python3 requets+re 批量爬取千千(原百度)音乐
以前实验室同学需要文章和音乐,需要用爬虫爬.....要做东西参加比赛,表示好久都没写爬虫了....正如今天的正题,批量爬取千千音乐(原百度音乐)...博主会写下爬取的过程和心得(采坑记录),批量下载的 ...
- 爬虫批量保存网页html,2分钟带你学会网络爬虫:Excel批量爬取网页数据(详细图文版)...
面对网页大量的数据,有时候还要翻页,你还在一页一页地复制粘贴吗?别人需要几小时完成的任务,学会这个小技巧你只需要几分钟就能解决.快来学习使用Excel快速批量地爬取网页数据吧! 1.分析网页数据结构 ...
- python3.6爬虫案例:爬取某网站所有PPT(上)。
写在前面 这次实现之前的flag:爬取第一ppt网站的所有PPT,当然网站中有其他很多的学习资料,这次只爬取PPT.不仅可以平时做模板演示用,还可以练习爬虫,岂不美滋滋.闲话不多说,进入正题. 先 ...
- 批量爬取27270美女栏目图片
批量爬取27270美女栏目图片 运行了一个晚上小水管太慢了,才爬了几万张图片. 做了一下重复抓取,设定抓取八次 写了一下日志,但是想了一下还是注释掉了 代码里面有很多修修改改的痕迹, 如果愿意的话可以 ...
最新文章
- Windows下有关NDK安装出现的问题的总结
- down redis集群_硬核干货!Redis 分布式集群部署实战
- SQLServer2008安装失败的解决办法
- IT项目管理总结:第十一章 项目风险管理
- 在单元测试和TDD中指定时间的重要性
- 程序员的快速成长之路
- csv 字符串_Python实现json转csv格式
- mybatis 依赖于jdbc_大数据基础:Mybatis零基础入门
- 品质主管每日工作需要做哪些_游戏配音需要做哪些工作?
- 深入理解JavaScript中的闭包
- fanuc机器人与示教器配对_看FANUC机器人在重力浇铸行业,都是又累又重的活儿啊!...
- 第五章 线性回归 学习笔记下
- glnxa64 matlab 什么版本_Matlab 2014a 免费版-Matlab2014 Mac版下载 V2014b免费版-PC6苹果网...
- 利用STM32F103精确控制步进电机
- python list列表的乘除法
- html怎么设置鼠标手势,css怎么设置鼠标手势?
- 637-字符串模式匹配-BF算法
- 这样的钓鱼邮件,你会中招吗?
- 在经历了6个月的学习后,我终于上架了自己的第一款APP---酷课堂iOS群问答精华整理(201807期)
- 97-ICMP 协议(端口不可达)
热门文章
- 【编程开发】之 Java 实现邮件发送
- 苹果6plus几核处理器_iOS 13.4 Beta3发布:苹果在布局,越狱软件也更新!
- 华林SAP论坛(华林自建的SAP论坛)
- 基于torch学汪峰写歌词、聊天机器人、图像着色/生成、看图说话、字幕生成
- linux卸载mono,CentOS7安装Mono并保留离线安装包
- sql 遇到多个重复列名报错:Ambiguous column reference ***
- CDGA|数据虚拟化助力数据治理成效显著
- “百度快照劫持”到底是什么意思?
- Redis Cluster集群实验
- IIS6 伪静态 IIS文件类型映射配置方法 【图解】