一、Python爬虫某度贴吧内容

  1. 我们通过在百度贴吧搜索gta5,即可得到如下内容,得到的地址https://tieba.baidu.com/f?ie=utf-8&kw=gta5,后面的gta5便是我们索要搜索的内容。
  2. 打开控制台,我们可以得到下面的响应内容。
from lxml import etree
import requestsclass Tieba(object):def __init__(self, name):self.url = 'https://tieba.baidu.com/f?kw={}'.format(name)self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/67.0.3396.87 Safari/537.36 '}def get_data(self, url):response = requests.get(url, headers=self.headers)return response.contentdef parse_data(self, data):# 创建element对象html = etree.HTML(data)el_list = html.xpath('//*[@id="thread_list"]/li[@class=" j_thread_list clearfix thread_item_box"]/div/div[''2]/div[1]/div[1]/a')print(len(el_list))def run(self):# url# headers# 发送请求,获取响应data = self.get_data(self.url)# 从响应中提取数据(数据和翻页用的url)self.parse_data(data)# 判断是否终结if __name__ == '__main__':tieba = Tieba('gta5')tieba.run()
  • 当我们运行以上代码的时候,我们可以在Pycharm的控制台中看到返回的结果为0,然后我们在浏览器中访问观看帖子的响应源码,可以看出我们要提取的内容是注释掉的。
  • 我们之所以能够在浏览器上看到帖子的内容,是因为浏览器内含有引擎,可以将注释掉的部分给扣出来,然后呈现给用户。
  • 上述代码中我们使用的是渲染引擎比较好的浏览器显示为0,

方案一:

  • 对于不同类型的渲染引擎,网址会提供不同类型的显示方案,渲染引擎好的响应的代码可能会注释掉,渲染引擎不好的响应代码可能不会注释。
  • 那么然后我们用一个“很low”的引擎浏览器访问网址,最后运行得到的结果是为47
self.headers = {'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)'}

方案二:

  • 我们可以将注释用的标签给分离掉,这样我们便能够拿去注释里面的内容。
def parse_data(self, data):# 创建element对象data = data.decode().replace("<!--","").replace("-->","") # 												

Python爬虫贴吧内容相关推荐

  1. python爬虫搜特定内容的论文_Python 爬虫爬取指定博客的所有文章

    自上一篇文章 Z Story : Using Django with GAE Python 后台抓取多个网站的页面全文 后,大体的进度如下: 1.增加了Cron: 用来告诉程序每隔30分钟 让一个ta ...

  2. python爬虫搜特定内容的论文_python基于BeautifulSoup实现抓取网页指定内容的方法...

    python基于BeautifulSoup实现抓取网页指定内容的方法 更新时间:2015年07月09日 10:12:50 作者:光索与诺 这篇文章主要介绍了python基于BeautifulSoup实 ...

  3. python爬虫工程师工作内容_爬虫岗位职责

    岗位职责: *针对复杂的网站架构主动获取相关数据信息: *负责数据获取.清洗和分析工作. 任职要求: *计算机科学.应用数学.统计学.物理学.天文学.商业分析.信息系统.数据科学或相关专业本科或以上学 ...

  4. python爬虫搜特定内容的论文_python爬取指定微信公众号文章

    python怎么抓取微信阅清晨的阳光比不上你的一缕微笑那么动人,傍晚的彩霞比不上你的一声叹息那么心疼,你的一个个举动,一句句话语都给小编带来无尽的幸福. 抓取微信公众号的文章 一.思路分析 目前所知晓 ...

  5. [B站视频]Python爬虫技术5天速成

    [B站视频]Python爬虫技术5天速成 课程介绍 1.Python基础概述 课堂作业1:IF语句实现石头剪子布 课堂作业2:用For和While循环打印九九乘法表 字符串常见操作(只介绍部分常用到的 ...

  6. python爬虫爬微信红包_爬虫之微博抢红包

    先让大家看下最终效果... 1,使用的工具及包 google浏览器 User-Agent Switcher for Google Chrome 这是一个能自定义浏览器头的Google浏览器插件 req ...

  7. Python爬虫100例教程导航帖(已完结)

    ​  目录 写在2022年3月22日 Python 爬虫 基础部分内容 pyspider scrapy 手机抓取部分 爬虫进阶部分 验证码识别技术 反爬虫技术 分布式爬虫技术 爬虫高级扩展部分 帮粉丝 ...

  8. python爬虫获取的网页数据为什么要加[0-[Python爬虫] 等待网页加载后再获取内容...

    0x0 背景 最近在学习Python爬虫的相关知识,主要是之前有一个小idea想要用Python实现,沉寂了一年,近期终于下定决心要利用假期时间首要解决此项任务,不然拖到最后都没完成,自己遗憾不说,还 ...

  9. python爬虫吧-Python爬虫如何爬取贴吧内容

    爬取贴吧内容 先了解贴吧url组成: 每个贴吧url都是以'https://tieba.baidu.com/f?'开头,然后是关键字 kw="'贴吧名字"',再后面是 &p ...

最新文章

  1. HDLBits 系列(38)值得一看的状态机设计题目
  2. 20个命令行工具监控 Linux 系统性能(转载)
  3. String为什么是不可变类型?
  4. globalmem设备代码分析
  5. hdu 4417(树状数组+离线算法)
  6. Spring IoC容器管理的Bean能够被垃圾回收吗?
  7. SAP UI5 busy dialog - SVG
  8. Dotnet的垃圾回收
  9. mysql: union / union all / 自定义函数用法详解
  10. 接口的实际应用---制定标准
  11. 编译原理论文_我的第一篇论文
  12. emacs VS vim 替换为回车符
  13. Android 网络学习之使用多线程下载,支持断点续传
  14. c语言函数调用原理底层分析
  15. XP/WIN7系统中删除已结束进程托盘图标的方法
  16. Python基于OpenCV的土壤裂缝分割系统[源码&部署教程]
  17. CSS3-3D动画制作旋转立方体
  18. 一年中的最后一天说说_2018最后一天感言说说 怎么发朋友圈告别2018年
  19. 自学 1 年进大厂,这位硬核 Linux 大佬你还不知道?
  20. 上网行为管理设备网桥部署方式

热门文章

  1. PHP:关于PHP商城秒杀防止超卖问题
  2. 2022-2027年中国稀有金属矿产行业发展监测及投资战略研究报告
  3. 数字证书认证中心简介
  4. 中国石油大学《输气管道设计与管理(含课程设计)》第一阶段在线作业
  5. 从AI、5G谈到理智追星,互联网大会首日还有哪些神仙言论?
  6. 让Windows 时间与Internet 时间服务器同步
  7. python中的truncate()神坑
  8. 快速查询快递物流,超24小时未更新物流弹窗提醒
  9. 最早的计算机就是智慧的中国人发明的什么,美国人:这个人类使用了百年的科技,中国人居然说是他们发明的?...
  10. 《完美主义扼杀效率 》读书笔记