一、Python爬虫某度贴吧内容

我们通过在百度贴吧搜索gta5，即可得到如下内容，得到的地址https://tieba.baidu.com/f?ie=utf-8&kw=gta5，后面的gta5便是我们索要搜索的内容。
打开控制台，我们可以得到下面的响应内容。

from lxml import etree
import requestsclass Tieba(object):def __init__(self, name):self.url = 'https://tieba.baidu.com/f?kw={}'.format(name)self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/67.0.3396.87 Safari/537.36 '}def get_data(self, url):response = requests.get(url, headers=self.headers)return response.contentdef parse_data(self, data):# 创建element对象html = etree.HTML(data)el_list = html.xpath('//*[@id="thread_list"]/li[@class=" j_thread_list clearfix thread_item_box"]/div/div[''2]/div[1]/div[1]/a')print(len(el_list))def run(self):# url# headers# 发送请求，获取响应data = self.get_data(self.url)# 从响应中提取数据(数据和翻页用的url)self.parse_data(data)# 判断是否终结if __name__ == '__main__':tieba = Tieba('gta5')tieba.run()

当我们运行以上代码的时候，我们可以在Pycharm的控制台中看到返回的结果为0，然后我们在浏览器中访问观看帖子的响应源码，可以看出我们要提取的内容是注释掉的。
我们之所以能够在浏览器上看到帖子的内容，是因为浏览器内含有引擎，可以将注释掉的部分给扣出来，然后呈现给用户。
上述代码中我们使用的是渲染引擎比较好的浏览器显示为0，

方案一：

对于不同类型的渲染引擎，网址会提供不同类型的显示方案，渲染引擎好的响应的代码可能会注释掉，渲染引擎不好的响应代码可能不会注释。
那么然后我们用一个“很low”的引擎浏览器访问网址，最后运行得到的结果是为47

self.headers = {'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)'}

方案二：

我们可以将注释用的标签给分离掉，这样我们便能够拿去注释里面的内容。

def parse_data(self, data):# 创建element对象data = data.decode().replace("<!--","").replace("-->","") # 												

											
Python爬虫贴吧内容相关推荐	

								python爬虫搜特定内容的论文_Python 爬虫爬取指定博客的所有文章
		自上一篇文章 Z Story : Using Django with GAE Python 后台抓取多个网站的页面全文 后,大体的进度如下: 1.增加了Cron: 用来告诉程序每隔30分钟 让一个ta ...
		
						python爬虫搜特定内容的论文_python基于BeautifulSoup实现抓取网页指定内容的方法...
		python基于BeautifulSoup实现抓取网页指定内容的方法 更新时间:2015年07月09日 10:12:50 作者:光索与诺 这篇文章主要介绍了python基于BeautifulSoup实 ...
		
						python爬虫工程师工作内容_爬虫岗位职责
		岗位职责: *针对复杂的网站架构主动获取相关数据信息: *负责数据获取.清洗和分析工作. 任职要求: *计算机科学.应用数学.统计学.物理学.天文学.商业分析.信息系统.数据科学或相关专业本科或以上学 ...
		
						python爬虫搜特定内容的论文_python爬取指定微信公众号文章
		python怎么抓取微信阅清晨的阳光比不上你的一缕微笑那么动人,傍晚的彩霞比不上你的一声叹息那么心疼,你的一个个举动,一句句话语都给小编带来无尽的幸福. 抓取微信公众号的文章 一.思路分析 目前所知晓 ...
		
						[B站视频]Python爬虫技术5天速成
		[B站视频]Python爬虫技术5天速成 课程介绍 1.Python基础概述 课堂作业1:IF语句实现石头剪子布 课堂作业2:用For和While循环打印九九乘法表 字符串常见操作(只介绍部分常用到的 ...
		
						python爬虫爬微信红包_爬虫之微博抢红包
		先让大家看下最终效果... 1,使用的工具及包 google浏览器 User-Agent Switcher for Google Chrome 这是一个能自定义浏览器头的Google浏览器插件 req ...
		
						Python爬虫100例教程导航帖（已完结）
		  目录 写在2022年3月22日 Python 爬虫 基础部分内容 pyspider scrapy 手机抓取部分 爬虫进阶部分 验证码识别技术 反爬虫技术 分布式爬虫技术 爬虫高级扩展部分 帮粉丝 ...
		
						python爬虫获取的网页数据为什么要加[0-[Python爬虫] 等待网页加载后再获取内容...
		0x0 背景 最近在学习Python爬虫的相关知识,主要是之前有一个小idea想要用Python实现,沉寂了一年,近期终于下定决心要利用假期时间首要解决此项任务,不然拖到最后都没完成,自己遗憾不说,还 ...
		
						python爬虫吧-Python爬虫如何爬取贴吧内容
		爬取贴吧内容 先了解贴吧url组成: 每个贴吧url都是以'https://tieba.baidu.com/f?'开头,然后是关键字 kw="'贴吧名字"',再后面是 &p ...
		
		

					
最新文章	

						HDLBits 系列（38）值得一看的状态机设计题目
		
						20个命令行工具监控 Linux 系统性能（转载）
		
						String为什么是不可变类型？
		
						globalmem设备代码分析
		
						hdu 4417(树状数组+离线算法)
		
						Spring IoC容器管理的Bean能够被垃圾回收吗？
		
						SAP UI5 busy dialog - SVG
		
						Dotnet的垃圾回收
		
						mysql： union / union all / 自定义函数用法详解
		
						接口的实际应用---制定标准
		
						编译原理论文_我的第一篇论文
		
						emacs VS vim 替换为回车符
		
						Android 网络学习之使用多线程下载，支持断点续传
		
						c语言函数调用原理底层分析
		
						XP/WIN7系统中删除已结束进程托盘图标的方法
		
						Python基于OpenCV的土壤裂缝分割系统[源码＆部署教程]
		
						CSS3-3D动画制作旋转立方体
		
						一年中的最后一天说说_2018最后一天感言说说 怎么发朋友圈告别2018年
		
						自学 1 年进大厂，这位硬核 Linux 大佬你还不知道？
		
						上网行为管理设备网桥部署方式
		
		
	

热门文章	

									PHP:关于PHP商城秒杀防止超卖问题
			
						2022-2027年中国稀有金属矿产行业发展监测及投资战略研究报告
			
						数字证书认证中心简介
			
						中国石油大学《输气管道设计与管理（含课程设计）》第一阶段在线作业
			
						从AI、5G谈到理智追星，互联网大会首日还有哪些神仙言论？
			
						让Windows 时间与Internet 时间服务器同步
			
						python中的truncate()神坑
			
						快速查询快递物流，超24小时未更新物流弹窗提醒
			
						最早的计算机就是智慧的中国人发明的什么,美国人：这个人类使用了百年的科技，中国人居然说是他们发明的？...
			
						《完美主义扼杀效率 》读书笔记