需要用到的库:requests,re,xpath

首先打开随便一个贴吧:贴吧首页

通过观察发现每一个帖子的链接是这样的:帖子链接

我们只需要获取后面灰色部分就可以了,点击f12 按ctrl+f 找到链接:帖子链接

拼接完整的链接: url="https://tieba.baidu.com/p/"+i#完整链接

贴吧信息海量,获取指定页数,翻扫第二页可以看到pn=50,把第一页的链接也改成pn=0翻页链接

构造所有翻页链接:

下面给出完整代码:

import requests,re

from lxml import etree

ky=input("请输入要查询的关键词:" )

page=input("请输入要查询的页数:" )

for page in range(0,int(page)):

k=page*50

response=requests.get("https://tieba.baidu.com/f?ie=utf-8&kw={}&pn={}".format(ky,k))

ref=re.compile('{"id":(.*?),')#获取链接

reg=re.findall(ref,response.text)

for i in reg:

url="https://tieba.baidu.com/p/"+i#完整链接

response=requests.get(url)

selector=etree.HTML(response.text)

ref=selector.xpath(r'//*[@id="j_core_title_wrap"]/h3/text()')#楼主问题题目

for i in ref:

print(i," ",":")

ref=re.compile('name="description" content="(.*?)"')#问题具体内容

reg=re.findall(ref,response.text)

for o in reg:

print("【",i,"】")

ref=re.compile('style="display:;">(.*?)<')#网友回复

reg=re.findall(ref,response.text)

for i in reg:

print("{",i,"}")

python爬取贴吧所有帖子-python 爬虫爬取百度贴吧,获取海量信息相关推荐

  1. python百度贴吧怎么爬取最早的帖子_Python爬虫爬取百度贴吧的帖子

    同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...

  2. 【Python】大数据挖掘课程作业1——使用爬虫爬取B站评论、弹幕与UP主的投稿视频列表

    [Python]大数据挖掘课程作业1--使用爬虫爬取B站评论.弹幕与UP主的投稿视频列表 数据挖掘部分的基本目标是:对于指定的UP主,能够获取其投稿视频列表:对于指定的视频,能够获取其视频标签.评论( ...

  3. python爬取贴吧所有帖子-Python爬虫实例(一)爬取百度贴吧帖子中的图片

    程序功能说明:爬取百度贴吧帖子中的图片,用户输入贴吧名称和要爬取的起始和终止页数即可进行爬取. 思路分析: 一.指定贴吧url的获取 例如我们进入秦时明月吧,提取并分析其有效url如下 ?后面为查询字 ...

  4. python爬取贴吧所有帖子-Python实现的爬取百度贴吧图片功能完整示例

    本文实例讲述了Python实现的爬取百度贴吧图片功能.分享给大家供大家参考,具体如下: #coding:utf-8 import requests import urllib2 import urll ...

  5. python爬取微博评论点赞数_python 爬虫 爬微博 分析 数据

    python 爬虫 爬微博分析 数据 最近刚看完爱情公寓5,里面的大力也太好看了吧... 打开成果的微博,小作文一样的微博看着也太爽了吧... 来 用python分析分析 狗哥这几年微博的干了些啥. ...

  6. python多线程爬虫 爬取多个网页_python多线程爬虫爬取顶点小说内容(BeautifulSoup+urllib)...

    思路 之前写过python爬取起点中文网小说,多线程则是先把爬取的章节链接存到一个列表里,然后写一个函数get_text每次调用这个函数就传一个章节链接,那么就需要调用n次该函数来获取n章的内容,所以 ...

  7. 【Python随笔】一天搞定,爬虫爬取w3schools的sql语句案例集

    在很久以前的Easy Python系列中,介绍了通过爬虫手段爬取豆瓣电影信息的一种技术套路.今天故技重施,为了迎合先前做SQL语句分析的需要,决定爬取w3schools网站上面所有SQL案例,用作测试 ...

  8. python爬去智联招聘网_Python爬虫爬取智联招聘(进阶版)

    点击上方"程序人生",选择"置顶公众号" 第一时间关注程序猿(媛)身边的故事 图片:Westworld Season 2 作者 王强 简介 Python追随者, ...

  9. java爬取网易云歌单_爬虫爬取网易云歌单

    一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取网易云音乐歌单 2.主题式网络爬虫爬取的内容与数据特征分析 爬取网易云音乐歌单前十页歌单,轻音乐类型的歌单名称.歌单播放量.歌单链接.用户名称. ...

  10. beautifulsoup爬取网页中的表格_Python爬虫爬取BT之家找电影资源

    一.写在前面 最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在 ...

最新文章

  1. C++拾趣——类构造函数的隐式转换
  2. 拥有2000家门店,他如何晋升为服装界的新宠?
  3. KDD'20 Workshop 来了!学术竞赛,发表Paper,针对疫情设计隔离策略
  4. mac sublime html开发环境,在Mac下用Sublime Text 2 架设C开发环境
  5. h264.265裸流和音频(ALAW或PCM)封装为mp4
  6. 有益的CountDownLatch和棘手的Java死锁
  7. 远程连接server问题
  8. 极光推送 android 最新,Android——快速集成极光推送-Go语言中文社区
  9. [11] ADB 实用功能
  10. 今天我要批判技术管理者
  11. go 连接服务器 并存放图片_Go 在马蜂窝即时通讯服务建设中的实践
  12. 【spring boot】启动类启动 错误: 找不到或无法加载主类 com.codingapi.tm.TxManagerApplication 的解决方案...
  13. opencv 梯度幅值_OpenCV学习:图像边缘检测
  14. 新浪微博 mysql_新浪微博,腾讯微博mysql数据库主表猜想
  15. java 定时为每月10号_Java定时任务配置(Scheduled注解)
  16. java do while 循环语句_Java do while循环语句用法
  17. Nginx配置项调优
  18. 【互联网人必备】最实用的6大专业搜索工具
  19. 范渊免职——网安界其人曾异军突起又将“落幕”?
  20. 新增诊所19804家 | 私营诊所要如何主动?才能被患者选择

热门文章

  1. 开发日记-20190702 关键词 读书笔记《Linux 系统管理技术手册(第二版)》DAY 8
  2. EvalAI使用——类似kaggle的开源平台,不过没有kernel fork功能,比较蛋疼
  3. leetcode 342. Power of Four
  4. web性能优化之事件节流
  5. umi搭建react+antd项目(三)Mock 数据--模拟数据
  6. ASP:当 request.cookies 发生 Microsoft VBScript 运行时错误 (0x800A000D) 类型不匹配: '[string:...
  7. 【摘录】Ics4.0如何去除系统的状态栏
  8. JSTL学习笔记3-----URL相关标签的使用
  9. 参加第六届ITAT C语言程序设计大赛复赛-----数学溃败
  10. §3—2 借贷记账法