Beautiful爬取海词网词汇意思和短语
Beautiful爬取海词网词汇意思和短语
直接上代码
# -*- encoding:utf-8 -*-
import urllib.request # 导入urllib库的request模块
from bs4 import BeautifulSoup
import lxml #文档解析器
import os #os模块就是对操作系统进行操作
import numpy as np #列表、字典、字符串等中计算元素重复的次数urls=[]
titles=[]
target=input("请输入你要查询的单词")
#爬取所有新闻的url和标题,存储在urls和titles中,这里range(1)表示只爬取1页。
for i in range(1):url='http://dict.cn//'+targetres = urllib.request.urlopen(url) #调用urlopen()从服务器获取网页响应(respone),其返回的响应是一个实例html = res.read().decode('utf-8') #调用返回响应示例中的read(),utf-8解码,可以读取htmlsoup = BeautifulSoup(html, 'lxml')result = soup.find_all('div',attrs={'class': ['section def','layout coll']})
download_soup = BeautifulSoup(str(result), 'lxml')
ol = download_soup.find_all('ol',slider="2")
lt=[]
ss=""
for oli in ol:lt.append(oli.stripped_strings)
for i in lt:for j in i:ss+=" "ss+=j
print(ss)ul=download_soup.find_all('ul')
soup1 = BeautifulSoup(str(ul), 'lxml')
aa=soup1.find_all('li')
import bs4
sentences=''
for i in aa:for j in i.descendants:if j.string and type(j)!=bs4.element.Tag:print(j)sentences+=j.string.strip()s='意思:'+ss+'\n'+"短语:"+sentences#定义txt存储路径。
picpath='./newws2/'#这里我用的是本程序路径,也可改为c盘或d盘等路径。
def txt(name, text): # 定义函数名if not os.path.exists(picpath): # 路径不存在时创建一个os.makedirs(picpath)savepath = picpath + name + '.txt'file = open(savepath, 'a', encoding='utf-8')#因为一个网页里有多个标签p,所以用'a'添加模式file.write(text)# print(text)file.close
txt(target,s)
输入样例:book
结果:
Beautiful爬取海词网词汇意思和短语相关推荐
- Python豆瓣电影评论的爬取及词云显示
Python豆瓣电影评论的爬取及词云显示 课程设计论文链接 前言 开发工具.核心库 系统相关技术介绍 系统分析与设计 系统功能模块组成 实现功能和目标 爬取模块设计 爬取过程中下一页的处理 窗口界面设 ...
- python笔记-爬取猎聘网招聘信息
目录 猎聘网信息爬取 爬取职位链接 1. 构建URL: 2. 获取网页 3. 解析网页 4. 保存数据到表格 爬取职位详情信息 1. 基本步骤 2. 获取表格链接 3. 获取职位详情信息网页 4. 解 ...
- Python 数据采集-爬取学校官网新闻标题与链接(基础)
Python 爬虫爬取学校官网新闻标题与链接 一.前言 二.扩展库简要介绍 01 urllib 库 (1)urllib.request.urlopen() 02 BeautifulSoup 库 (1) ...
- python爬取中国天气网中国全部城市的天气链接
近期自己尝试用python写一个qqbot实现天气查询功能,现已基本实现 已经基本完成爬取中国天气网的所有城市的天气情况链接 下附中国天气网所有城市的名称及对应链接 {'朝阳': 'http://ww ...
- python爬虫简单实例-爬取17K小说网小说
什么是网络爬虫? 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 爬虫流程 先由urllib的request打开Url得到网页html文档 ...
- python爬取优词词典
运用python爬取优词词典并制作索引 前期准备: 1.python学习 2.了解网络知识 3.了解爬虫原理 4.requests模块的运用知识 5.Beautiful模块的理解运用 6.数据库知识的 ...
- python爬取二手房信息_刚刚接触PythonR?教你爬取分析赶集网北京二手房数据(附详细代码)...
原标题:刚刚接触Python&R?教你爬取分析赶集网北京二手房数据(附详细代码) 源 /数据森麟文 /徐涛 前言: 本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的 ...
- 斗图斗不过小伙伴?python多线程爬取斗图网表情包,助你成为斗图帝!
最近python基础课讲到了多线程,老师让交个多线程的实例练习.于是来试试多线程爬虫,正好复习一下mooc上自学的嵩天男神的爬虫知识.想法很美好,过程却很心酸,从早上开始写,每次出现各种奇怪问题,到现 ...
- Python 数据采集-爬取学校官网新闻标题与链接(进阶)
Python 爬虫爬取学校官网新闻标题与链接(进阶) 前言 一.拼接路径 二.存储 三.读取翻页数据 四.完整代码展示 五.小结 前言 ⭐ 本文基于学校的课程内容进行总结,所爬取的数据均为学习使用,请 ...
最新文章
- matlab函数isempty_matlab基本函数inf, isempty, round, floor, fix
- ajax重复被调用,重复jQuery ajax调用
- 桁架机器人运动视频_桁架机器人的直线定位单元
- 鸿蒙操作系统如何打通 Windows 操作系统?
- 美著名电话飞客去世 可凭口哨打免费电话(图)
- 国家统计局可以获取到全国5级行政区域数据
- 凯恩帝绝对坐标清零_凯恩帝100T数控车床怎么把加工数量时间清零
- lcx端口转发linux_技术干货 | 内网渗透之代理转发
- C# 操作word之在表格中插入新行、删除指定行
- linux下socket编程常用头文件
- 学计算机编程技校排名,学编程什么学校最好?
- 如何计算芯片的ESP mac 地址
- Windows cmd 查看文件MD5 SHA1 SHA256
- 解决Java ,class java.lang.String cannot be cast to class java.lang.Integer
- Windows环境下Redis安装操作步骤
- 洛谷P3975 [TJOI2015]弦论
- java基于sptingboot+vue的校园疫情防控系统 elementui
- ipv6默认网关怎么打开。有偿。
- 微型计算机按照结构划分共分为几种,2016计算机一级《MS Office》基础习题与解析...
- Perl常用的内置变量