爬取扇贝单词

======================

==================================================================================

<tr>

<td>  </td>

<td> </td>

</tr>

==========================================================================

结果示例:

====================================================

 1 '''
 2 扇贝单词:
 3 1. 把python单词列表download下来
 4 2. 主要联系目的是xpath
 5 3. 理论上讲不需要登录
 6 4. https://www.shanbay.com/wordlist/104899/202159/
 7 '''
 8 from urllib import request
 9 from lxml import etree
10
11 import json
12
13 #词汇表
14 words = []
15
16
17 def shanbei(page):
18     url = "https://www.shanbay.com/wordlist/104899/202159/?page=%s"%page
19     print(url)
20
21     rsp = request.urlopen(url)
22
23     html = rsp.read()
24
25     #解析html
26     html = etree.HTML(html)
27
28     tr_list = html.xpath("//tr")
29
30
31     # 遍历每个tr元素,每一个tr对应一个单词和介绍
32     for tr in tr_list:
33         '''
34         查相应的单词和介绍
35         '''
36         word = {}
37
38         strong = tr.xpath('.//strong')
39         if len(strong):
40             # strip把找到的内容去掉空格
41             name = strong[0].text.strip()
42             word['name'] = name
43
44         # 查找单词的释义
45         td_content = tr.xpath('./td[@class="span10"]')
46         if len(td_content):
47             content = td_content[0].text.strip()
48             word['content'] = content
49
50         print(word)
51
52         if word != {}:
53             words.append(word)
54
55
56 if __name__ == '__main__':
57
58     shanbei(2)

转载于:https://www.cnblogs.com/xuxaut-558/p/10087880.html

Python爬虫-爬取扇贝单词(Xpath)相关推荐

  1. 使用Python爬虫爬取网络美女图片

    代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip instal ...

  2. Python爬虫 爬取新浪微博热搜

    Python爬虫 爬取新浪微博热搜 文章目录 Python爬虫 爬取新浪微博热搜 网页分析 数据爬取 数据存储 全部代码 网页分析 找到热搜的排名,标题和热度,发现它们在同一路径 数据爬取 impor ...

  3. Python爬虫爬取纵横中文网小说

    Python爬虫爬取纵横中文网小说 学了一周的爬虫,搞了这个东西,自己感觉还不错,有什么问题可以提一提哈 目标:纵横中文网-完本-免费小说 网址:http://book.zongheng.com/st ...

  4. Python爬虫爬取微信朋友圈的方法,感兴趣的朋友可以了解下

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 小雨 | 作者 python教程 | 来源 接下来,我们将实现微信朋友圈的 ...

  5. Python爬虫---爬取腾讯动漫全站漫画

    Python爬虫---爬取腾讯动漫全站漫画 操作环境 网页分析 明确目标 提取漫画地址 提取漫画章节地址 提取漫画图片 编写代码 导入需要的模块 获取漫画地址 提取漫画的内容页 提取章节名 获取漫画源 ...

  6. Python爬虫爬取微信朋友圈

    更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.op-kg.com/ ...

  7. php抓取微博评论,python爬虫爬取微博评论案例详解

    前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越 的每一条评论的相关信息. 数据格式:{"name" ...

  8. python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中

    我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...

  9. Python爬虫爬取天天基金网

    Python爬虫爬取天天基金 爬取天天基金网站获取单位净值,日增长率等等. web爬虫初学者,不足之处,请多多指教 最初思路:使用requests+etree解析获取其数据信息,但最终未能得到所需的数 ...

最新文章

  1. 社交网络用户并非越多越好
  2. JavaScript实现detectUndirectedCycle检测无向循环算法(附完整源码)
  3. 蓝桥杯 - 完美的代价(贪心+模拟)
  4. Mac OS安装octave出现的问题-'error:terminal type set to 'unknown'的解决'
  5. [UE4]单机游戏改网络游戏,不完全清单
  6. [转载] Python进阶:设计模式之迭代器模式
  7. schema在oracle里是什么意思
  8. 今天加入了OSChina,准备将我的BLOG搬到这里。
  9. OCJP考试习题(1z0-808)答案+解析
  10. Spring Boot拦截器配置拦截登陆
  11. c语言编程 求一个数根号3,如何用C语言求两个数的最大公约数的三种算法
  12. QCC3040---system state module
  13. redisson分布式锁实现原理
  14. 初中教师资格证科学计算机面试,2019上半年教师资格证面试真题:初中信息技术...
  15. 自行车码表CPU选型
  16. ChucK初步(2)
  17. pandas读取excel带汉字的列头,Pandas读取excel与中文文件名
  18. Python 预测 NBA 比赛结果
  19. C语言int 类型的表示范围 sizeof()函数
  20. Kafka原理+操作+实战

热门文章

  1. 3 行 Python 代码实现假聊天机器人(慎入:这是假机器人!!!)
  2. 如何在java中去除中文文本的停用词
  3. vim介绍,vim颜色显示,vim一般模式下移动光标,vim一般模式下的复制、剪切和粘贴...
  4. 新加坡广告科技公司AdAsia Holdings获1200万美元A轮融资
  5. java 线程池(2)
  6. rpm 查看安装包 信息 时间 目录
  7. 直接运行可执行文件linux终端一闪而过
  8. 全面剖析linux【bind】服务お理论篇
  9. nagios监控haproxy(借助脚本)
  10. Silverlight游戏设计(Game Design):目录