Beautiful爬取海词网词汇意思和短语

直接上代码

# -*- encoding:utf-8 -*-
import urllib.request          # 导入urllib库的request模块
from bs4 import BeautifulSoup
import lxml                    #文档解析器
import os                      #os模块就是对操作系统进行操作
import numpy as np       #列表、字典、字符串等中计算元素重复的次数urls=[]
titles=[]
target=input("请输入你要查询的单词")
#爬取所有新闻的url和标题,存储在urls和titles中,这里range(1)表示只爬取1页。
for i in range(1):url='http://dict.cn//'+targetres = urllib.request.urlopen(url)  #调用urlopen()从服务器获取网页响应(respone),其返回的响应是一个实例html = res.read().decode('utf-8')  #调用返回响应示例中的read(),utf-8解码,可以读取htmlsoup = BeautifulSoup(html, 'lxml')result = soup.find_all('div',attrs={'class': ['section def','layout coll']})
download_soup = BeautifulSoup(str(result), 'lxml')
ol = download_soup.find_all('ol',slider="2")
lt=[]
ss=""
for oli in ol:lt.append(oli.stripped_strings)
for i in lt:for j in i:ss+=" "ss+=j
print(ss)ul=download_soup.find_all('ul')
soup1 = BeautifulSoup(str(ul), 'lxml')
aa=soup1.find_all('li')
import bs4
sentences=''
for i in aa:for j in i.descendants:if j.string  and type(j)!=bs4.element.Tag:print(j)sentences+=j.string.strip()s='意思:'+ss+'\n'+"短语:"+sentences#定义txt存储路径。
picpath='./newws2/'#这里我用的是本程序路径,也可改为c盘或d盘等路径。
def txt(name, text):  # 定义函数名if not os.path.exists(picpath):  # 路径不存在时创建一个os.makedirs(picpath)savepath = picpath + name + '.txt'file = open(savepath, 'a', encoding='utf-8')#因为一个网页里有多个标签p,所以用'a'添加模式file.write(text)# print(text)file.close
txt(target,s)

输入样例:book
结果:

Beautiful爬取海词网词汇意思和短语相关推荐

  1. Python豆瓣电影评论的爬取及词云显示

    Python豆瓣电影评论的爬取及词云显示 课程设计论文链接 前言 开发工具.核心库 系统相关技术介绍 系统分析与设计 系统功能模块组成 实现功能和目标 爬取模块设计 爬取过程中下一页的处理 窗口界面设 ...

  2. python笔记-爬取猎聘网招聘信息

    目录 猎聘网信息爬取 爬取职位链接 1. 构建URL: 2. 获取网页 3. 解析网页 4. 保存数据到表格 爬取职位详情信息 1. 基本步骤 2. 获取表格链接 3. 获取职位详情信息网页 4. 解 ...

  3. Python 数据采集-爬取学校官网新闻标题与链接(基础)

    Python 爬虫爬取学校官网新闻标题与链接 一.前言 二.扩展库简要介绍 01 urllib 库 (1)urllib.request.urlopen() 02 BeautifulSoup 库 (1) ...

  4. python爬取中国天气网中国全部城市的天气链接

    近期自己尝试用python写一个qqbot实现天气查询功能,现已基本实现 已经基本完成爬取中国天气网的所有城市的天气情况链接 下附中国天气网所有城市的名称及对应链接 {'朝阳': 'http://ww ...

  5. python爬虫简单实例-爬取17K小说网小说

    什么是网络爬虫? 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 爬虫流程 先由urllib的request打开Url得到网页html文档 ...

  6. python爬取优词词典

    运用python爬取优词词典并制作索引 前期准备: 1.python学习 2.了解网络知识 3.了解爬虫原理 4.requests模块的运用知识 5.Beautiful模块的理解运用 6.数据库知识的 ...

  7. python爬取二手房信息_刚刚接触PythonR?教你爬取分析赶集网北京二手房数据(附详细代码)...

    原标题:刚刚接触Python&R?教你爬取分析赶集网北京二手房数据(附详细代码) 源 /数据森麟文 /徐涛 前言: 本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的 ...

  8. 斗图斗不过小伙伴?python多线程爬取斗图网表情包,助你成为斗图帝!

    最近python基础课讲到了多线程,老师让交个多线程的实例练习.于是来试试多线程爬虫,正好复习一下mooc上自学的嵩天男神的爬虫知识.想法很美好,过程却很心酸,从早上开始写,每次出现各种奇怪问题,到现 ...

  9. Python 数据采集-爬取学校官网新闻标题与链接(进阶)

    Python 爬虫爬取学校官网新闻标题与链接(进阶) 前言 一.拼接路径 二.存储 三.读取翻页数据 四.完整代码展示 五.小结 前言 ⭐ 本文基于学校的课程内容进行总结,所爬取的数据均为学习使用,请 ...

最新文章

  1. matlab函数isempty_matlab基本函数inf, isempty, round, floor, fix
  2. ajax重复被调用,重复jQuery ajax调用
  3. 桁架机器人运动视频_桁架机器人的直线定位单元
  4. 鸿蒙操作系统如何打通 Windows 操作系统?
  5. 美著名电话飞客去世 可凭口哨打免费电话(图)
  6. 国家统计局可以获取到全国5级行政区域数据
  7. 凯恩帝绝对坐标清零_凯恩帝100T数控车床怎么把加工数量时间清零
  8. lcx端口转发linux_技术干货 | 内网渗透之代理转发
  9. C# 操作word之在表格中插入新行、删除指定行
  10. linux下socket编程常用头文件
  11. 学计算机编程技校排名,学编程什么学校最好?
  12. 如何计算芯片的ESP mac 地址
  13. Windows cmd 查看文件MD5 SHA1 SHA256
  14. 解决Java ,class java.lang.String cannot be cast to class java.lang.Integer
  15. Windows环境下Redis安装操作步骤
  16. 洛谷P3975 [TJOI2015]弦论
  17. java基于sptingboot+vue的校园疫情防控系统 elementui
  18. ipv6默认网关怎么打开。有偿。
  19. 微型计算机按照结构划分共分为几种,2016计算机一级《MS Office》基础习题与解析...
  20. Perl常用的内置变量

热门文章

  1. 数据结构课程设计项目2:校园导游咨询-预习报告
  2. stm32--工程结构的简单理解
  3. URI跳转方式地图导航的代码实践
  4. NAO学习第二周——NAOqi Audio
  5. RabbitMQ--基础--04--运转流程
  6. 血浆游离RNA提取试剂盒(附文献参考)
  7. win7 最常用的快捷键 ( 完全可以使用键盘来操作)
  8. 使用redis碰到maxmemory
  9. Dyna中建立预紧力螺栓的两种方法
  10. 碰到文件夹损坏咋解决?