python爬取贴吧所有帖子-python 爬虫爬取百度贴吧,获取海量信息
需要用到的库:requests,re,xpath
首先打开随便一个贴吧:贴吧首页
通过观察发现每一个帖子的链接是这样的:帖子链接
我们只需要获取后面灰色部分就可以了,点击f12 按ctrl+f 找到链接:帖子链接
拼接完整的链接: url="https://tieba.baidu.com/p/"+i#完整链接
贴吧信息海量,获取指定页数,翻扫第二页可以看到pn=50,把第一页的链接也改成pn=0翻页链接
构造所有翻页链接:
下面给出完整代码:
import requests,re
from lxml import etree
ky=input("请输入要查询的关键词:" )
page=input("请输入要查询的页数:" )
for page in range(0,int(page)):
k=page*50
response=requests.get("https://tieba.baidu.com/f?ie=utf-8&kw={}&pn={}".format(ky,k))
ref=re.compile('{"id":(.*?),')#获取链接
reg=re.findall(ref,response.text)
for i in reg:
url="https://tieba.baidu.com/p/"+i#完整链接
response=requests.get(url)
selector=etree.HTML(response.text)
ref=selector.xpath(r'//*[@id="j_core_title_wrap"]/h3/text()')#楼主问题题目
for i in ref:
print(i," ",":")
ref=re.compile('name="description" content="(.*?)"')#问题具体内容
reg=re.findall(ref,response.text)
for o in reg:
print("【",i,"】")
ref=re.compile('style="display:;">(.*?)<')#网友回复
reg=re.findall(ref,response.text)
for i in reg:
print("{",i,"}")
python爬取贴吧所有帖子-python 爬虫爬取百度贴吧,获取海量信息相关推荐
- python百度贴吧怎么爬取最早的帖子_Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...
- 【Python】大数据挖掘课程作业1——使用爬虫爬取B站评论、弹幕与UP主的投稿视频列表
[Python]大数据挖掘课程作业1--使用爬虫爬取B站评论.弹幕与UP主的投稿视频列表 数据挖掘部分的基本目标是:对于指定的UP主,能够获取其投稿视频列表:对于指定的视频,能够获取其视频标签.评论( ...
- python爬取贴吧所有帖子-Python爬虫实例(一)爬取百度贴吧帖子中的图片
程序功能说明:爬取百度贴吧帖子中的图片,用户输入贴吧名称和要爬取的起始和终止页数即可进行爬取. 思路分析: 一.指定贴吧url的获取 例如我们进入秦时明月吧,提取并分析其有效url如下 ?后面为查询字 ...
- python爬取贴吧所有帖子-Python实现的爬取百度贴吧图片功能完整示例
本文实例讲述了Python实现的爬取百度贴吧图片功能.分享给大家供大家参考,具体如下: #coding:utf-8 import requests import urllib2 import urll ...
- python爬取微博评论点赞数_python 爬虫 爬微博 分析 数据
python 爬虫 爬微博分析 数据 最近刚看完爱情公寓5,里面的大力也太好看了吧... 打开成果的微博,小作文一样的微博看着也太爽了吧... 来 用python分析分析 狗哥这几年微博的干了些啥. ...
- python多线程爬虫 爬取多个网页_python多线程爬虫爬取顶点小说内容(BeautifulSoup+urllib)...
思路 之前写过python爬取起点中文网小说,多线程则是先把爬取的章节链接存到一个列表里,然后写一个函数get_text每次调用这个函数就传一个章节链接,那么就需要调用n次该函数来获取n章的内容,所以 ...
- 【Python随笔】一天搞定,爬虫爬取w3schools的sql语句案例集
在很久以前的Easy Python系列中,介绍了通过爬虫手段爬取豆瓣电影信息的一种技术套路.今天故技重施,为了迎合先前做SQL语句分析的需要,决定爬取w3schools网站上面所有SQL案例,用作测试 ...
- python爬去智联招聘网_Python爬虫爬取智联招聘(进阶版)
点击上方"程序人生",选择"置顶公众号" 第一时间关注程序猿(媛)身边的故事 图片:Westworld Season 2 作者 王强 简介 Python追随者, ...
- java爬取网易云歌单_爬虫爬取网易云歌单
一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取网易云音乐歌单 2.主题式网络爬虫爬取的内容与数据特征分析 爬取网易云音乐歌单前十页歌单,轻音乐类型的歌单名称.歌单播放量.歌单链接.用户名称. ...
- beautifulsoup爬取网页中的表格_Python爬虫爬取BT之家找电影资源
一.写在前面 最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在 ...
最新文章
- C++拾趣——类构造函数的隐式转换
- 拥有2000家门店,他如何晋升为服装界的新宠?
- KDD'20 Workshop 来了!学术竞赛,发表Paper,针对疫情设计隔离策略
- mac sublime html开发环境,在Mac下用Sublime Text 2 架设C开发环境
- h264.265裸流和音频(ALAW或PCM)封装为mp4
- 有益的CountDownLatch和棘手的Java死锁
- 远程连接server问题
- 极光推送 android 最新,Android——快速集成极光推送-Go语言中文社区
- [11] ADB 实用功能
- 今天我要批判技术管理者
- go 连接服务器 并存放图片_Go 在马蜂窝即时通讯服务建设中的实践
- 【spring boot】启动类启动 错误: 找不到或无法加载主类 com.codingapi.tm.TxManagerApplication 的解决方案...
- opencv 梯度幅值_OpenCV学习:图像边缘检测
- 新浪微博 mysql_新浪微博,腾讯微博mysql数据库主表猜想
- java 定时为每月10号_Java定时任务配置(Scheduled注解)
- java do while 循环语句_Java do while循环语句用法
- Nginx配置项调优
- 【互联网人必备】最实用的6大专业搜索工具
- 范渊免职——网安界其人曾异军突起又将“落幕”?
- 新增诊所19804家 | 私营诊所要如何主动?才能被患者选择
热门文章
- 开发日记-20190702 关键词 读书笔记《Linux 系统管理技术手册(第二版)》DAY 8
- EvalAI使用——类似kaggle的开源平台,不过没有kernel fork功能,比较蛋疼
- leetcode 342. Power of Four
- web性能优化之事件节流
- umi搭建react+antd项目(三)Mock 数据--模拟数据
- ASP:当 request.cookies 发生 Microsoft VBScript 运行时错误 (0x800A000D) 类型不匹配: '[string:...
- 【摘录】Ics4.0如何去除系统的状态栏
- JSTL学习笔记3-----URL相关标签的使用
- 参加第六届ITAT C语言程序设计大赛复赛-----数学溃败
- §3—2 借贷记账法