import requests

import re

file = open("vocabulary.doc", "w", encoding="utf-8")

def spider(url):

res = requests.get(url).text

pattern = '([a-z,A-Z]*?)\s*\s*

(.*?)'

vocabulary_list = re.findall(pattern, res)

for vocabulary in vocabulary_list:

file.writelines((vocabulary[0].strip(''), vocabulary[1].strip(''), "\n"))

url_list = ["https://www.shanbay.com/wordlist/104899/202159/?page=",

"https://www.shanbay.com/wordlist/104899/202162/?page=",

]

for url in url_list:

for i in range(1, 10):

url = "https://www.shanbay.com/wordlist/104899/202159/?page=" + str(i)

spider(url)

file.close()

# 太实诚了,先放了源码,几行代码,纯粹是免登陆,免199贝壳去支付...拿下网页的单词

# 会生成一个word的结果文档在代码运行的同一目录下,结果如下,没有可以排版,最好是放在excel下。

扇贝python学完_爬虫:爬取扇贝上python常用单词,减少登陆和贝壳的繁琐相关推荐

  1. python简直万能_一键爬取资源,Python简直太强大了!

    "用Python写个 爬虫小程序,每分钟可以发起几千次"点击"的动作,任手速再快也不可能赶得上,那抢中概率自然就高了." ▲爬虫自动抢鞋子 这么神! 于是,我认 ...

  2. python爬虫爬取百度图片,python爬虫篇2:爬取百度图片

    入门级 import requests import re import os from urllib import error def main(): dirPath = "E:\pyth ...

  3. Python爬虫-爬取扇贝单词(Xpath)

    爬取扇贝单词 ====================== ====================================================================== ...

  4. mysql scrapy 重复数据_大数据python(scrapy)爬虫爬取招聘网站数据并存入mysql后分析...

    基于Scrapy的爬虫爬取腾讯招聘网站岗位数据视频(见本头条号视频) 根据TIOBE语言排行榜更新的最新程序语言使用排行榜显示,python位居第三,同比增加2.39%,为什么会越来越火,越来越受欢迎 ...

  5. python爬取豆瓣短评_爬虫-爬取豆瓣短评

    爬虫-爬取豆瓣短评 啥是爬虫? ​按照一定的规则,自动地抓取互联网信息的程序. 为啥要用爬虫? ​可以利用爬虫自动地采集互联网中的信息,采集回来后进行相应的存储或处理,在需要检索某些信息的时候,只需在 ...

  6. python java 爬数据_如何用java爬虫爬取网页上的数据

    当我们使用浏览器处理网页的时候,有时候是不需要浏览的,例如使用PhantomJS适用于无头浏览器,进行爬取网页数据操作.最近在进行java爬虫学习的小伙伴们有没有想过如何爬取js生成的网络页面吗?别急 ...

  7. Python爬虫---爬取数据(上)

    又是女票,拿了3万多条的13年某地区的公司信息,但是三年过去了,工商局的注册信息发生了巨大变化,有的注册资本增加了,有的公司老板变多了,更有不少公司不存在了,因此,需要一份最新的信息以便于她进行使用. ...

  8. java爬取网易云歌单_爬虫爬取网易云歌单

    一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取网易云音乐歌单 2.主题式网络爬虫爬取的内容与数据特征分析 爬取网易云音乐歌单前十页歌单,轻音乐类型的歌单名称.歌单播放量.歌单链接.用户名称. ...

  9. 用Python写一个网络爬虫爬取网页中的图片

    写一个爬虫爬取百度贴吧中一个帖子图片 网址:壁纸 用谷歌浏览器的开发工具检查网页,可以发现其每一张图片都有如下格式 <img class="BDE_Image" src=&q ...

最新文章

  1. Git Gui for Windows的建库、克隆(clone)、上传(push)、下载(pull)、合并(转)
  2. zend怎么保存php,Zend Framework页面缓存实例
  3. mysql子查询设置_什么是mysql子查询?如何利用子查询进行过滤?
  4. nested exception is org.springframework.beans.factory.BeanCurrentlyInCreationException(Spring循环依赖问题)
  5. 王德华:导师的学术胸怀与学术视野
  6. Ubuntu香港apt-get源
  7. 会“聆听”用户,用户反馈设计
  8. 关于某系统的全面质量属性战术
  9. Java去除字符串最前面一个字符和最后面一个字符
  10. eTerm指令、民航指令大全、黑屏指令
  11. 大数据工程师、数据挖掘师和数据分析师有啥区别
  12. 神兽卡再次进化,华硕正式推出 Essense STX II 与 STX II 7.1 内接式音效卡 ...
  13. HITCON-trainning寒假做题记录
  14. speedoffice(Excel)表格怎么一次插入多行?
  15. 店铺降权的原因|盛天海科技
  16. 用户登录 kibana 时,提示 “no permissions...” ,导致用户无法查看 log
  17. AUTOCAD——偏移命令、移动命令
  18. 微信小程序使用第三方插件
  19. 新闻关键字提取和新闻推荐
  20. 看《骇客帝国-重装上阵》说法语

热门文章

  1. 计算机软考证书含金量和性价比分析
  2. go每日新闻(2021-12-01)——Go 1.18新特性前瞻:原生支持Fuzzing测试
  3. 6大应用,大象机器人双臂协作机器人,即将7月上市,一切就绪!
  4. 三星note20u计算机功能,三星Note20Ultra隐藏功能有哪些-藏功能操作方法
  5. Git 分支篇之分支介绍
  6. 2018年哪些畅销书和新书值得关注?答案就在这里
  7. Quartz2D学习记录
  8. 如何备份整个硬盘为镜像文件?
  9. 转载,常用RGB color
  10. 2022年危险化学品经营单位主要负责人及危险化学品经营单位主要负责人操作证考试