爬虫实战

BeautifulSoup
什么是 XPath?

今天的任物是通过requests + bs4 & lxml 这三个库来完成爬取丁香园论坛的回复内容首先我们说一下数据这里的数据包含了标题楼主提问的问题内容以及各楼层的回复内容(title author_say recovery) 这三个内容 bs4 以及lxml 的文档较为玩整这里就不多做赘述，有需要可以去查看文档 bs4 lxml 笔者这里较为常用的爬虫库是bs4,lxml多数用来读取较大的lxml

BeautifulSoup

from bs4 import BeautifulSoup
import requestsurl = 'http://www.dxy.cn/bbs/thread/626626#626626'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html,'lxml')
#print(soup.title)
for data in soup.find_all('tbody'):try:username = data.find('div',class_= 'auth').get_text(strip=True)content = data.find('td',class_='postbody').get_text(strip=True)print(username+':'+content)except:pass

什么是 XPath?

XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。
在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。
下面列出了最有用的路径表达式：

Xpath中text()，string()，data()的区别如下：
text()仅仅返回所指元素的文本内容。
string()函数会得到所指元素的所有节点文本内容，这些文本讲会被拼接成一个字符串。
data()大多数时候，data()函数和string()函数通用，而且不建议经常使用data()函数，有数据表明，该函数会影响XPath的性能。

import requests
from lxml import etreeurl = 'http://www.dxy.cn/bbs/thread/626626#626626'
response = requests.get(url)
html = response.text
ree = etree.HTML(html)
username = ree.xpath('//div[@class="auth"]/a/text()')
#print(username)
content = ree.xpath('//td[@class="postbody"]')
result = []
for i in range(len(username)):result.append(username[i].strip()+':'+content[i].xpath('string(.)').strip())
print(result)

爬虫实战-用beautifulsoup提取丁香园论坛的回复内容相关推荐

爬虫学习2.2 使用xpath提取丁香园论坛的回复内容
任务描述学习xpath,使用lxml+xpath提取内容. 使用xpath提取丁香园论坛的回复内容. 丁香园直通点:http://www.dxy.cn/bbs/thread/626626#62662 ...
爬虫 -----beautifulsoup、Xpath、re （二）附爬取丁香园用户名以及回复内容
目录 1.Xpath简介 1.1使用流程: 1.2Xpath常用的路径表达式 1.3 使用lxml解析 2 实战:爬取丁香园-用户名和回复内容 2.1 获取url的html 2.2 lxml解析htm ...
Python爬虫系列（二）：爬取中国大学排名丁香园-用户名和回复内容淘宝品比价
Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...
爬虫入门学习（八）模拟登录丁香园论坛爬取用户信息
爬虫入门学习(八)实战大项目模拟登录丁香园爬取信息 1 目标 2 思路 3 主要的技术点 3.1 模拟登录 3.2 抓取用户个人主页 4 完整代码 5 项目后期拓展 1 目标模拟登录丁香园,并抓取页 ...
python爬虫(四）——模拟登录丁香园
实战实战小项目:模拟登录丁香园,抓取论坛页面人员基本信息与回复帖子.丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626 思路首先把登陆方式由扫码切换为 ...
模拟登录丁香园获取全部回复
采用selenium与xpath结合,先模拟登录再进行相关信息爬取,不过我不是仅仅把上次爬取丁香园的代码强加上去,我把取得源代码的自定义函数去掉,用了selenium的get函数,url用的是登陆后的 ...
mirna富集分析_GEO芯片数据下载，矩阵提取，差异基因分析，差异miRNA分析，miRNA靶基因预测，GO、KEGG功能，蛋白互作网络构建 - 生物信息学讨论版 -丁香园论坛...
一.芯片差异基因分析 1. 芯片数据收集在 NCBI GEO数据库下载 . 2.做差异分析使用limma R包计算正常组织和病组织的差异表达情况 3.绘制火山图 4.绘制热图使用pheatmap ...
计算机考博复试基础知识,2017考博复试经验 - 考博 -丁香园论坛
不知不觉,已经过去1年了,部分站友已经经历过了初试的洗涤,不管初试好坏,只要有丁点希望,复试也是要好好准备的,初试是敲门砖,复试是打开博士之门的钥匙.刚考完初试,都比较疲惫,如果还有后续考试,继续坚持 ...
iol植入手术过程_完美！浙二眼科中心完成中国首例连续视程IOL植入术 - 眼科专业讨论版 -丁香园论坛...
国际眼科时讯 2016年8月2日,浙江大学医学院附属第二医院眼科中心成功植入全国首例TECNIS Symfony®(新无级)连续视程-人工晶状体,由中华医学会眼科学分会候任主任委员.中华医学会眼科学分 ...

爬虫实战-用beautifulsoup提取丁香园论坛的回复内容

爬虫实战

BeautifulSoup

什么是 XPath?

爬虫实战-用beautifulsoup提取丁香园论坛的回复内容相关推荐

最新文章

热门文章