Python爬虫-爬取扇贝单词(Xpath)
爬取扇贝单词
======================
==================================================================================
<tr>
<td> </td>
<td> </td>
</tr>
==========================================================================
结果示例:
====================================================
1 ''' 2 扇贝单词: 3 1. 把python单词列表download下来 4 2. 主要联系目的是xpath 5 3. 理论上讲不需要登录 6 4. https://www.shanbay.com/wordlist/104899/202159/ 7 ''' 8 from urllib import request 9 from lxml import etree 10 11 import json 12 13 #词汇表 14 words = [] 15 16 17 def shanbei(page): 18 url = "https://www.shanbay.com/wordlist/104899/202159/?page=%s"%page 19 print(url) 20 21 rsp = request.urlopen(url) 22 23 html = rsp.read() 24 25 #解析html 26 html = etree.HTML(html) 27 28 tr_list = html.xpath("//tr") 29 30 31 # 遍历每个tr元素,每一个tr对应一个单词和介绍 32 for tr in tr_list: 33 ''' 34 查相应的单词和介绍 35 ''' 36 word = {} 37 38 strong = tr.xpath('.//strong') 39 if len(strong): 40 # strip把找到的内容去掉空格 41 name = strong[0].text.strip() 42 word['name'] = name 43 44 # 查找单词的释义 45 td_content = tr.xpath('./td[@class="span10"]') 46 if len(td_content): 47 content = td_content[0].text.strip() 48 word['content'] = content 49 50 print(word) 51 52 if word != {}: 53 words.append(word) 54 55 56 if __name__ == '__main__': 57 58 shanbei(2)
转载于:https://www.cnblogs.com/xuxaut-558/p/10087880.html
Python爬虫-爬取扇贝单词(Xpath)相关推荐
- 使用Python爬虫爬取网络美女图片
代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip instal ...
- Python爬虫 爬取新浪微博热搜
Python爬虫 爬取新浪微博热搜 文章目录 Python爬虫 爬取新浪微博热搜 网页分析 数据爬取 数据存储 全部代码 网页分析 找到热搜的排名,标题和热度,发现它们在同一路径 数据爬取 impor ...
- Python爬虫爬取纵横中文网小说
Python爬虫爬取纵横中文网小说 学了一周的爬虫,搞了这个东西,自己感觉还不错,有什么问题可以提一提哈 目标:纵横中文网-完本-免费小说 网址:http://book.zongheng.com/st ...
- Python爬虫爬取微信朋友圈的方法,感兴趣的朋友可以了解下
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 小雨 | 作者 python教程 | 来源 接下来,我们将实现微信朋友圈的 ...
- Python爬虫---爬取腾讯动漫全站漫画
Python爬虫---爬取腾讯动漫全站漫画 操作环境 网页分析 明确目标 提取漫画地址 提取漫画章节地址 提取漫画图片 编写代码 导入需要的模块 获取漫画地址 提取漫画的内容页 提取章节名 获取漫画源 ...
- Python爬虫爬取微信朋友圈
更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.op-kg.com/ ...
- php抓取微博评论,python爬虫爬取微博评论案例详解
前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越 的每一条评论的相关信息. 数据格式:{"name" ...
- python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
- Python爬虫爬取天天基金网
Python爬虫爬取天天基金 爬取天天基金网站获取单位净值,日增长率等等. web爬虫初学者,不足之处,请多多指教 最初思路:使用requests+etree解析获取其数据信息,但最终未能得到所需的数 ...
最新文章
- 社交网络用户并非越多越好
- JavaScript实现detectUndirectedCycle检测无向循环算法(附完整源码)
- 蓝桥杯 - 完美的代价(贪心+模拟)
- Mac OS安装octave出现的问题-'error:terminal type set to 'unknown'的解决'
- [UE4]单机游戏改网络游戏,不完全清单
- [转载] Python进阶:设计模式之迭代器模式
- schema在oracle里是什么意思
- 今天加入了OSChina,准备将我的BLOG搬到这里。
- OCJP考试习题(1z0-808)答案+解析
- Spring Boot拦截器配置拦截登陆
- c语言编程 求一个数根号3,如何用C语言求两个数的最大公约数的三种算法
- QCC3040---system state module
- redisson分布式锁实现原理
- 初中教师资格证科学计算机面试,2019上半年教师资格证面试真题:初中信息技术...
- 自行车码表CPU选型
- ChucK初步(2)
- pandas读取excel带汉字的列头,Pandas读取excel与中文文件名
- Python 预测 NBA 比赛结果
- C语言int 类型的表示范围 sizeof()函数
- Kafka原理+操作+实战
热门文章
- 3 行 Python 代码实现假聊天机器人(慎入:这是假机器人!!!)
- 如何在java中去除中文文本的停用词
- vim介绍,vim颜色显示,vim一般模式下移动光标,vim一般模式下的复制、剪切和粘贴...
- 新加坡广告科技公司AdAsia Holdings获1200万美元A轮融资
- java 线程池(2)
- rpm 查看安装包 信息 时间 目录
- 直接运行可执行文件linux终端一闪而过
- 全面剖析linux【bind】服务お理论篇
- nagios监控haproxy(借助脚本)
- Silverlight游戏设计(Game Design):目录