对于python爬虫并不是很熟悉,遇到下面的问题,希望知道的朋友可以给个解决问题的方向!

需要爬出扇贝单词网里面单词书的单词,现在对于没有目录的单词书可以爬出来,如果有一层目录就没办法了 需要手动到这层目录去,输入这层目录的url 才能把这个目录下的单词爬取出来。

下面是我的代码:

from bs4 import BeautifulSoup

from lxml import html

import xml

import re

import requests

file = open("vocabulay.txt", "w")

''' file = open("out.txt", "w") '''

pattern='([a-z,A-Z]*?)'

def spider(url):

f = requests.get(url)

soup = BeautifulSoup(f.content, "lxml")

word_list=soup.select('strong')

for word in word_list:

word=str(word)

word=re.findall(pattern,word)

if(len(word)!=0): #需要对list进行长度判断,否则访问word[0]会有问题

print(word[0])

file.writelines((word[0],"\n"))

url_list = [ "https://www.shanbay.com/wordlist/80770/87931/",

"https://www.shanbay.com/wordlist/80770/89734/"

]

unit = 1

for url in url_list:

file.write("\n#章节"+str(unit)+"\n")

unit+=1

for i in range(1,11):

url1=url+"?page="+str(i)

spider(url1)

file.close()

单词书的URL:https://www.shanbay.com/wordlist/80770

python扇贝单词书,学习猿地-python 爬虫,爬取扇贝单词网单词相关推荐

  1. python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  2. python爬图代码实例_Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  3. Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  4. python爬虫爬取彼岸图网图片

    python爬虫爬取彼岸图网图片 话不多说,直接上代码! import requests from PIL import Image from io import BytesIO import re ...

  5. 【Python】大数据挖掘课程作业1——使用爬虫爬取B站评论、弹幕与UP主的投稿视频列表

    [Python]大数据挖掘课程作业1--使用爬虫爬取B站评论.弹幕与UP主的投稿视频列表 数据挖掘部分的基本目标是:对于指定的UP主,能够获取其投稿视频列表:对于指定的视频,能够获取其视频标签.评论( ...

  6. Python爬虫-爬取扇贝单词(Xpath)

    爬取扇贝单词 ====================== ====================================================================== ...

  7. python 爬虫爬取煎蛋网妹子图,我1T的硬盘装满了!

    前言 大家好,这里是「brucepk」爬虫 系列教程.此系列教程以实例项目为材料进行分析,从项目中学习 python 爬虫,跟着我一起学习,每天进步一点点. 煎蛋网站 image 很多朋友都反应学 p ...

  8. python爬取晋江_爬虫爬取晋江文学网总分榜(失败)

    一.目的 : 爬取晋江文学网总分榜 二.python爬取数据 三.爬取 在开始多出现了38号而且顺序内容不准确 代码: import requests from bs4 import Beautifu ...

  9. python爬取晋江_爬虫爬取晋江文学网总分榜

    一.目的 : 爬取晋江文学网总分榜 二.python爬取数据 三.爬取 在开始多出现了38号而且顺序内容不准确 代码: import requests from bs4 import Beautifu ...

最新文章

  1. 网络常见的 9 大命令,非常实用!
  2. 干货丨机器学习新手一定要掌握的10大算法
  3. mysql 去重求总数_Mysql获取去重后的总数
  4. python保存变量_Python变量存储
  5. HTML的基本知识(三)
  6. 使用PowerShell Direct从Hyper-V主机管理VM
  7. sqlserver2008R2下载安装教程
  8. 点击按钮对两个div的隐藏与显示进行切换
  9. 如何使新浪播放器自动播放_七夕小子_新浪博客
  10. Python美化桌面—自制桌面宠物
  11. 理解一下什么是全栈工程师
  12. Android 炫酷自定义 View - 剑气加载
  13. thinkphp5调用shell脚本_ThinkPHP 5.x远程命令执行测试工具(可getshell)
  14. 业务流程图绘制方法经验谈(下篇)
  15. 三亚免税店积分抵现_海南放大招!10万购物免税额、离岛半年可补购,一文教你买转海南自贸港...
  16. 如何做好网站的日常优化推广
  17. 【汇编语言】16位汇编总结
  18. 苹果cms模板_苹果cms收录好的模板有哪些?
  19. 2021 typescript史上最强学习入门文章(4w字)
  20. Spring框架02(IOC和DI)

热门文章

  1. 文梳理世界11国家和地区ICO政策:监管趋严,展现定义证券倾向
  2. 腾讯视频下载视频QLV格式转为MP4格式
  3. 前端路线--JS高阶(day03)
  4. 2021年最受欢迎的10款开源DevOps工具
  5. DevOps 工具链图 汇总
  6. 2020、2021、2022数控机床数据采集方案汇总
  7. bam获取序列_如何高效地从BAM文件中提取fastq
  8. 详解ArcGIS中添加经纬网操作步骤
  9. 快上车!Java技术开发大厂直通车马上启动!
  10. 如何将网站制作成自己app