Python爬虫-爬取扇贝单词(Xpath)

爬取扇贝单词

======================

==================================================================================

<tr>

</tr>

==========================================================================

结果示例：

====================================================

 1 '''
 2 扇贝单词：
 3 1. 把python单词列表download下来
 4 2. 主要联系目的是xpath
 5 3. 理论上讲不需要登录
 6 4. https://www.shanbay.com/wordlist/104899/202159/
 7 '''
 8 from urllib import request
 9 from lxml import etree
10
11 import json
12
13 #词汇表
14 words = []
15
16
17 def shanbei(page):
18     url = "https://www.shanbay.com/wordlist/104899/202159/?page=%s"%page
19     print(url)
20
21     rsp = request.urlopen(url)
22
23     html = rsp.read()
24
25     #解析html
26     html = etree.HTML(html)
27
28     tr_list = html.xpath("//tr")
29
30
31     # 遍历每个tr元素，每一个tr对应一个单词和介绍
32     for tr in tr_list:
33         '''
34         查相应的单词和介绍
35         '''
36         word = {}
37
38         strong = tr.xpath('.//strong')
39         if len(strong):
40             # strip把找到的内容去掉空格
41             name = strong[0].text.strip()
42             word['name'] = name
43
44         # 查找单词的释义
45         td_content = tr.xpath('./td[@class="span10"]')
46         if len(td_content):
47             content = td_content[0].text.strip()
48             word['content'] = content
49
50         print(word)
51
52         if word != {}:
53             words.append(word)
54
55
56 if __name__ == '__main__':
57
58     shanbei(2)

转载于:https://www.cnblogs.com/xuxaut-558/p/10087880.html

Python爬虫-爬取扇贝单词(Xpath)相关推荐

使用Python爬虫爬取网络美女图片
代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip instal ...
Python爬虫爬取新浪微博热搜
Python爬虫爬取新浪微博热搜文章目录 Python爬虫爬取新浪微博热搜网页分析数据爬取数据存储全部代码网页分析找到热搜的排名,标题和热度,发现它们在同一路径数据爬取 impor ...
Python爬虫爬取纵横中文网小说
Python爬虫爬取纵横中文网小说学了一周的爬虫,搞了这个东西,自己感觉还不错,有什么问题可以提一提哈目标:纵横中文网-完本-免费小说网址:http://book.zongheng.com/st ...
Python爬虫爬取微信朋友圈的方法，感兴趣的朋友可以了解下
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 小雨 | 作者 python教程 | 来源接下来,我们将实现微信朋友圈的 ...
Python爬虫---爬取腾讯动漫全站漫画
Python爬虫---爬取腾讯动漫全站漫画操作环境网页分析明确目标提取漫画地址提取漫画章节地址提取漫画图片编写代码导入需要的模块获取漫画地址提取漫画的内容页提取章节名获取漫画源 ...
Python爬虫爬取微信朋友圈
更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.op-kg.com/ ...
php抓取微博评论,python爬虫爬取微博评论案例详解
前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越的每一条评论的相关信息. 数据格式:{"name" ...
python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
Python爬虫爬取天天基金网
Python爬虫爬取天天基金爬取天天基金网站获取单位净值,日增长率等等. web爬虫初学者,不足之处,请多多指教最初思路:使用requests+etree解析获取其数据信息,但最终未能得到所需的数 ...

Python爬虫-爬取扇贝单词(Xpath)

Python爬虫-爬取扇贝单词(Xpath)相关推荐

最新文章

热门文章