文章目录

  • 入门
  • 小练习 爬取古诗文网

入门

import requests
from bs4 import BeautifulSoup # 调用网页内容
import chardet
url='http://www.tipdm.com/tipdm/index.html'
ua={'User-Agent':'Mozilla/5.0 Chrome/65.0.3325.181'}
rgg=requests.get(url,headers=ua)
rgg.encoding=chardet.detect(rgg.content)['encoding']
# 初始化html
html=rgg.content.decode('utf-8')
soup=BeautifulSoup(html,'lxml')
#print(soup.prettify())
#print(soup.head) # 获取head标签
#print(soup.title) # 获取title标签
#print(soup.body.a) # 获取body标签中第一个a标签
print(len(soup.find_all('a'))) # 获取所有名称为a的标签的个数
print(soup.name) # 获取soup的name
print(soup.a.name) # 获取a标签的name
tag=soup.a
print(tag)
print(tag.name) # 获取tag的name
tag.name='b' #修改tag的name
print(tag) #查看修改name后的html

小练习 爬取古诗文网

from bs4 import BeautifulSoup
import requestsurl='https://so.gushiwen.org/authors/authorvsw_b90660e3e492A1.aspx'
result=requests.get(url)
html=result.text
soup=BeautifulSoup(html,'lxml')sons=soup.find_all('div',class_='sons')
#print(sons)
for son in sons:name=son.find('b').get_text()print(name)author=son.find('p',class_="source").get_text()print(author)content=son.find('div',class_='contson').get_text().strip()print(content)print()
将进酒
李白〔唐代〕
君不见黄河之水天上来,奔流到海不复回。君不见高堂明镜悲白发,朝如青丝暮成雪。人生得意须尽欢,莫使金樽空对月。天生我材必有用,千金散尽还复来。烹羊宰牛且为乐,会须一饮三百杯。岑夫子,丹丘生,将进酒,杯莫停。与君歌一曲,请君为我倾耳听。(倾耳听 一作:侧耳听)钟鼓馔玉不足贵,但愿长醉不愿醒。(不足贵 一作:何足贵;不愿醒 一作:不复醒)古来圣贤皆寂寞,惟有饮者留其名。(古来 一作:自古;惟 通:唯)陈王昔时宴平乐,斗酒十千恣欢谑。主人何为言少钱,径须沽取对君酌。五花马、千金裘,呼儿将出换美酒,与尔同销万古愁。行路难·其一
李白〔唐代〕
金樽清酒斗十千,玉盘珍羞直万钱。(羞 同:馐;直 同:值)停杯投箸不能食,拔剑四顾心茫然。欲渡黄河冰塞川,将登太行雪满山。(雪满山 一作:雪暗天)闲来垂钓碧溪上,忽复乘舟梦日边。(碧 一作:坐)行路难,行路难,多歧路,今安在?长风破浪会有时,直挂云帆济沧海。蜀道难
李白〔唐代〕
噫吁嚱,危乎高哉!蜀道之难,难于上青天!蚕丛及鱼凫,开国何茫然!尔来四万八千岁,不与秦塞通人烟。西当太白有鸟道,可以横绝峨眉巅。地崩山摧壮士死,然后天梯石栈相钩连。上有六龙回日之高标,下有冲波逆折之回川。黄鹤之飞尚不得过,猿猱欲度愁攀援。青泥何盘盘,百步九折萦岩峦。扪参历井仰胁息,以手抚膺坐长叹。
问君西游何时还?畏途巉岩不可攀。但见悲鸟号古木,雄飞雌从绕林间。又闻子规啼夜月,愁空山。蜀道之难,难于上青天,使人听此凋朱颜!连峰去天不盈尺,枯松倒挂倚绝壁。飞湍瀑流争喧豗,砯崖转石万壑雷。其险也如此,嗟尔远道之人胡为乎来哉!(也如此 一作:也若此)
剑阁峥嵘而崔嵬,一夫当关,万夫莫开。所守或匪亲,化为狼与豺。朝避猛虎,夕避长蛇,磨牙吮血,杀人如麻。锦城虽云乐,不如早还家。蜀道之难,难于上青天,侧身西望长咨嗟!三五七言 / 秋风词
李白〔唐代〕
秋风清,秋月明,落叶聚还散,寒鸦栖复惊。相思相见知何日?此时此夜难为情!入我相思门,知我相思苦,长相思兮长相忆,短相思兮无穷极,早知如此绊人心,何如当初莫相识。(后三句存疑)静夜思
李白〔唐代〕
床前明月光,疑是地上霜。举头望明月,低头思故乡。黄鹤楼送孟浩然之广陵
李白〔唐代〕
故人西辞黄鹤楼,烟花三月下扬州。孤帆远影碧空尽,唯见长江天际流。 (唯 通:惟)闻王昌龄左迁龙标遥有此寄
李白〔唐代〕
杨花落尽子规啼,闻道龙标过五溪。我寄愁心与明月,随君直到夜郎西。(随君 一作:随风)望庐山瀑布
李白〔唐代〕
日照香炉生紫烟,遥看瀑布挂前川。飞流直下三千尺,疑是银河落九天。月下独酌四首·其一
李白〔唐代〕
花间一壶酒,独酌无相亲。举杯邀明月,对影成三人。月既不解饮,影徒随我身。暂伴月将影,行乐须及春。我歌月徘徊,我舞影零乱。醒时同交欢,醉后各分散。(同交欢 一作:相交欢)永结无情游,相期邈云汉。送友人
李白〔唐代〕
青山横北郭,白水绕东城。此地一为别,孤蓬万里征。浮云游子意,落日故人情。挥手自兹去,萧萧班马鸣。

使用BeautifulSoup库解析网页相关推荐

  1. 使用Beautiful Soup库解析网页

    使用Beautiful Soup库解析网页 Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够实现惯用的文档导航,查找,修改文档的方式等功能.Beautif ...

  2. Python网络爬虫与信息提取(二)(BeautifulSoup库)

    BeautifulSoup库是解析.遍历.维护.html或.xml的功能库 ①BeautifulSoup库的安装: 在cmd命令行中输入: pip install beautifulsoup4即可 ② ...

  3. python爬虫筛选数据_[python爬虫]使用beautifulsoup库的select方法对网页内容进行筛选...

    from bs4 import BeautifulSoup html = """ The Dormouse's story The Dormouse's story On ...

  4. 爬虫一 requests库与BeautifulSoup库、HTML

    安装requests库 方法是:在Mac电脑里打开终端软件(terminal),输入pip3 install requests,然后点击enter即可:Windows电脑里叫命令提示符(cmd),输入 ...

  5. Python网络爬虫--BeautifulSoup库的基本元素

    requests requests库可以看看这篇文章 http://blog.csdn.net/shanzhizi/article/details/50903748 最近在学习嵩天老师的Python网 ...

  6. MacOS下安装BeautifulSoup库及使用

    BeautifulSoup简介 BeautifulSoup库是一个强大的python第三方库,它可以解析html进行解析,并提取信息. 安装BeautifulSoup 打开终端,输入命令: pip3 ...

  7. beautifulsoup网页爬虫解析_Python爬虫神器:PyQuery,解析网页更简单,小白也能学会

    图/文:迷神 我们做python爬虫,通过requests抓取到内容就需要正则匹配,或者其他解析库解析内容.很多可能和我一样的人,都使用jquery的,那用的还是非常爽的.而pyquery库就是jQu ...

  8. 使用BeautifulSoup解析网页时漏掉了元素

    使用 soup=BeautifulSoup(res.text,"html.parser") 解析网页时漏掉了元素 改为 soup=BeautifulSoup(res.text, & ...

  9. beautifulsoup网页爬虫解析_Python爬虫3步曲:5分钟学习用Python解析网页

    使用正则表达式解析网页是Python的一个擅长的领域.如果还想更加深入地学习正则表达式,或者在平时经常用到正则表达式,可以进入Regular Expression 101网站学习,网站地址为 http ...

最新文章

  1. 关于less在DW中高亮显示问题
  2. DotNetCore跨平台~2.0提前发布喽
  3. python虚拟cpu性能_如何使用python找出CPU数量
  4. 安卓客户端与服务器交互Json数据
  5. JS基础_流程控制语句
  6. 把strassen乘法调出来了...
  7. SCCM2012系列之二,SCCM2012部署前的Active Directory准备
  8. 带有.NET Core 3和Electron.NET的多平台桌面HTML编辑器
  9. C++之指针探究(十九):typedef和const指针
  10. 盒子横向排列-初识浮动Float(HTML、CSS)
  11. 神奇的机器人评课_神奇的机器人教学案
  12. html5音乐播放器在线生成,一款极简的HTML5音乐播放器-skPlayer
  13. SI4463研究计划(兼STM32F0进一步加深理解)
  14. 计算机报名jpg形式,急!什么叫“jpg格式电子照片”?
  15. 技术部岗位职责——技术部主管
  16. Java线程中的静态方法_Java多线程3:Thread中的静态方法
  17. 【iOS】调起地图进行导航(系统地图、高德、百度)
  18. 【Rust日报】2021-09-05 perseus:完全支持 SSR 和 SSG 的 Rust 高端前端开发框架
  19. c语言一元多项式课程设计,一元多项式的计算数据结构课程设计.doc
  20. DBeaver:开源、跨平台、强大的数据库管理工具

热门文章

  1. java 日期类 周_Java中用Calendar类计算周和周的起始日期
  2. HTML+CSS+JS练手小玩意
  3. 《亲密关系》书摘 [美]莎伦 布雷姆
  4. 游戏服务器为什么被攻击,游戏服务器防御方法
  5. python中len的用法_总结Python中len()函数的使用实例
  6. 虞美人【黑夜流萤】黄昏把酒上阁楼,月下多少幽梦,锁心头。
  7. windows无法发现任何计算机或设备,电脑网络诊断显示Windows无法与设备或资源(主DNS)通信怎么解决...
  8. 智能验证码助力银行数字化营销
  9. Jenkins项目常用三种构建类型风格详解
  10. php过滤微信昵称的emoji表情符号,emoji表情过滤处理