python爬取贴吧所有帖子-python 爬虫爬取百度贴吧，获取海量信息

需要用到的库：requests,re,xpath

首先打开随便一个贴吧：贴吧首页

通过观察发现每一个帖子的链接是这样的：帖子链接

我们只需要获取后面灰色部分就可以了，点击f12 按ctrl+f 找到链接：帖子链接

拼接完整的链接： url="https://tieba.baidu.com/p/"+i#完整链接

贴吧信息海量，获取指定页数，翻扫第二页可以看到pn=50,把第一页的链接也改成pn=0翻页链接

构造所有翻页链接：

下面给出完整代码：

import requests,re

from lxml import etree

ky=input("请输入要查询的关键词:" )

page=input("请输入要查询的页数:" )

for page in range(0,int(page)):

k=page*50

response=requests.get("https://tieba.baidu.com/f?ie=utf-8&kw={}&pn={}".format(ky,k))

ref=re.compile('{"id":(.*?),')#获取链接

reg=re.findall(ref,response.text)

for i in reg:

url="https://tieba.baidu.com/p/"+i#完整链接

response=requests.get(url)

selector=etree.HTML(response.text)

ref=selector.xpath(r'//*[@id="j_core_title_wrap"]/h3/text()')#楼主问题题目

for i in ref:

print(i," ",":")

ref=re.compile('name="description" content="(.*?)"')#问题具体内容

reg=re.findall(ref,response.text)

for o in reg:

print("【",i,"】")

ref=re.compile('style="display:;">(.*?)<')#网友回复

reg=re.findall(ref,response.text)

for i in reg:

print("{",i,"}")

python爬取贴吧所有帖子-python 爬虫爬取百度贴吧，获取海量信息相关推荐

python百度贴吧怎么爬取最早的帖子_Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...
【Python】大数据挖掘课程作业1——使用爬虫爬取B站评论、弹幕与UP主的投稿视频列表
[Python]大数据挖掘课程作业1--使用爬虫爬取B站评论.弹幕与UP主的投稿视频列表数据挖掘部分的基本目标是:对于指定的UP主,能够获取其投稿视频列表:对于指定的视频,能够获取其视频标签.评论( ...
python爬取贴吧所有帖子-Python爬虫实例（一）爬取百度贴吧帖子中的图片
程序功能说明:爬取百度贴吧帖子中的图片,用户输入贴吧名称和要爬取的起始和终止页数即可进行爬取. 思路分析: 一.指定贴吧url的获取例如我们进入秦时明月吧,提取并分析其有效url如下 ?后面为查询字 ...
python爬取贴吧所有帖子-Python实现的爬取百度贴吧图片功能完整示例
本文实例讲述了Python实现的爬取百度贴吧图片功能.分享给大家供大家参考,具体如下: #coding:utf-8 import requests import urllib2 import urll ...
python爬取微博评论点赞数_python 爬虫爬微博分析数据
python 爬虫爬微博分析数据最近刚看完爱情公寓5,里面的大力也太好看了吧... 打开成果的微博,小作文一样的微博看着也太爽了吧... 来用python分析分析狗哥这几年微博的干了些啥. ...
python多线程爬虫爬取多个网页_python多线程爬虫爬取顶点小说内容（BeautifulSoup+urllib）...
思路之前写过python爬取起点中文网小说,多线程则是先把爬取的章节链接存到一个列表里,然后写一个函数get_text每次调用这个函数就传一个章节链接,那么就需要调用n次该函数来获取n章的内容,所以 ...
【Python随笔】一天搞定，爬虫爬取w3schools的sql语句案例集
在很久以前的Easy Python系列中,介绍了通过爬虫手段爬取豆瓣电影信息的一种技术套路.今天故技重施,为了迎合先前做SQL语句分析的需要,决定爬取w3schools网站上面所有SQL案例,用作测试 ...
python爬去智联招聘网_Python爬虫爬取智联招聘（进阶版）
点击上方"程序人生",选择"置顶公众号" 第一时间关注程序猿(媛)身边的故事图片:Westworld Season 2 作者王强简介 Python追随者, ...
java爬取网易云歌单_爬虫爬取网易云歌单
一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取网易云音乐歌单 2.主题式网络爬虫爬取的内容与数据特征分析爬取网易云音乐歌单前十页歌单,轻音乐类型的歌单名称.歌单播放量.歌单链接.用户名称. ...
beautifulsoup爬取网页中的表格_Python爬虫爬取BT之家找电影资源
一.写在前面最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在 ...

python爬取贴吧所有帖子-python 爬虫爬取百度贴吧，获取海量信息

python爬取贴吧所有帖子-python 爬虫爬取百度贴吧，获取海量信息相关推荐

最新文章

热门文章