python扇贝单词书,学习猿地-python 爬虫,爬取扇贝单词网单词
对于python爬虫并不是很熟悉,遇到下面的问题,希望知道的朋友可以给个解决问题的方向!
需要爬出扇贝单词网里面单词书的单词,现在对于没有目录的单词书可以爬出来,如果有一层目录就没办法了 需要手动到这层目录去,输入这层目录的url 才能把这个目录下的单词爬取出来。
下面是我的代码:
from bs4 import BeautifulSoup
from lxml import html
import xml
import re
import requests
file = open("vocabulay.txt", "w")
''' file = open("out.txt", "w") '''
pattern='([a-z,A-Z]*?)'
def spider(url):
f = requests.get(url)
soup = BeautifulSoup(f.content, "lxml")
word_list=soup.select('strong')
for word in word_list:
word=str(word)
word=re.findall(pattern,word)
if(len(word)!=0): #需要对list进行长度判断,否则访问word[0]会有问题
print(word[0])
file.writelines((word[0],"\n"))
url_list = [ "https://www.shanbay.com/wordlist/80770/87931/",
"https://www.shanbay.com/wordlist/80770/89734/"
]
unit = 1
for url in url_list:
file.write("\n#章节"+str(unit)+"\n")
unit+=1
for i in range(1,11):
url1=url+"?page="+str(i)
spider(url1)
file.close()
单词书的URL:https://www.shanbay.com/wordlist/80770
python扇贝单词书,学习猿地-python 爬虫,爬取扇贝单词网单词相关推荐
- python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- python爬图代码实例_Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- python爬虫爬取彼岸图网图片
python爬虫爬取彼岸图网图片 话不多说,直接上代码! import requests from PIL import Image from io import BytesIO import re ...
- 【Python】大数据挖掘课程作业1——使用爬虫爬取B站评论、弹幕与UP主的投稿视频列表
[Python]大数据挖掘课程作业1--使用爬虫爬取B站评论.弹幕与UP主的投稿视频列表 数据挖掘部分的基本目标是:对于指定的UP主,能够获取其投稿视频列表:对于指定的视频,能够获取其视频标签.评论( ...
- Python爬虫-爬取扇贝单词(Xpath)
爬取扇贝单词 ====================== ====================================================================== ...
- python 爬虫爬取煎蛋网妹子图,我1T的硬盘装满了!
前言 大家好,这里是「brucepk」爬虫 系列教程.此系列教程以实例项目为材料进行分析,从项目中学习 python 爬虫,跟着我一起学习,每天进步一点点. 煎蛋网站 image 很多朋友都反应学 p ...
- python爬取晋江_爬虫爬取晋江文学网总分榜(失败)
一.目的 : 爬取晋江文学网总分榜 二.python爬取数据 三.爬取 在开始多出现了38号而且顺序内容不准确 代码: import requests from bs4 import Beautifu ...
- python爬取晋江_爬虫爬取晋江文学网总分榜
一.目的 : 爬取晋江文学网总分榜 二.python爬取数据 三.爬取 在开始多出现了38号而且顺序内容不准确 代码: import requests from bs4 import Beautifu ...
最新文章
- 网络常见的 9 大命令,非常实用!
- 干货丨机器学习新手一定要掌握的10大算法
- mysql 去重求总数_Mysql获取去重后的总数
- python保存变量_Python变量存储
- HTML的基本知识(三)
- 使用PowerShell Direct从Hyper-V主机管理VM
- sqlserver2008R2下载安装教程
- 点击按钮对两个div的隐藏与显示进行切换
- 如何使新浪播放器自动播放_七夕小子_新浪博客
- Python美化桌面—自制桌面宠物
- 理解一下什么是全栈工程师
- Android 炫酷自定义 View - 剑气加载
- thinkphp5调用shell脚本_ThinkPHP 5.x远程命令执行测试工具(可getshell)
- 业务流程图绘制方法经验谈(下篇)
- 三亚免税店积分抵现_海南放大招!10万购物免税额、离岛半年可补购,一文教你买转海南自贸港...
- 如何做好网站的日常优化推广
- 【汇编语言】16位汇编总结
- 苹果cms模板_苹果cms收录好的模板有哪些?
- 2021 typescript史上最强学习入门文章(4w字)
- Spring框架02(IOC和DI)