链接 -> http://baike.baidu.com/view/284853.htm
首先安装bs4,python -m pip install bs4就可以了

Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。Beautiful Soup 会帮你节省数小时甚至数天的工作时间

import urllib.request
import re
from bs4 import BeautifulSoupdef main():url = "http://baike.baidu.com/view/284853.htm"response = urllib.request.urlopen(url)html = response.read()soup = BeautifulSoup(html, "html.parser") # 使用 Python 默认的解析器for each in soup.find_all(href=re.compile("view")):print(each.text, "->", ''.join(["http://baike.baidu.com", each["href"]]))# 上边用 join() 不用 + 直接拼接,是因为 join() 被证明执行效率要高很多if __name__ == "__main__":main()

运行:

恐龙百科 -> http://baike.baidu.com/wikicategory/view?categoryName=恐龙大全
多肉百科 -> http://baike.baidu.com/wikicategory/view?categoryName=多肉植物
锁定 -> http://baike.baidu.com/view/10812319.htm

python练习题,使用爬虫爬取百度百科内置BeautifulSoup安装方法相关推荐

  1. python爬虫爬取百度贴吧图片,requests方法

    每天一点点,记录学习 近期爬虫项目,看完请点赞哦---: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方 ...

  2. python爬虫——爬取酷狗音乐top500(BeautifulSoup使用方法)

    酷狗音乐Top500 酷狗top500http://www.kugou.com/yy/rank/home/1-8888.html?from=rank 进入,并按F12打开开发者工具(本文以火狐浏览器为 ...

  3. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  4. python爬虫爬取百度文档

    使用python爬虫爬取百度文档文字 话不多说,直接上代码! import requests import reheaders = {"User-Agent": "Moz ...

  5. python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...

    原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号 不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...

  6. python3爬虫爬取百度贴吧下载图片

    python3爬虫爬取百度贴吧下载图片 学习爬虫时没事做的小练习. 百度对爬虫还是很友好的,在爬取内容方面还是较为容易. 可以方便各位读者去百度贴吧一键下载每个楼主的图片,至于是什么类型的图片,就看你 ...

  7. 使用python和PyQt5编写爬取百度图片的界面工具

    使用python和PyQt5编写爬取百度图片的界面工具 本篇文章的主要内容是展示我个人编写的,以界面小工具的方式爬取百度上面的图片,功能很单一,根据关键词爬取图片,代码很简单,新手上路请多指教. 代码 ...

  8. python + selenium +pyquery 爬虫 爬取 1688详情图片 阿里巴巴详情图片 与标题 下载图片并进行压缩

    python + selenium +pyquery 爬虫  爬取 1688详情图片 阿里巴巴详情图片 与标题 下载图片并进行压缩 用到的库和源码下载地址 需要用到chromedriver  包含wi ...

  9. python简单网站爬虫-爬取北京7天最高、最低气温

    python简单网站爬虫-爬取北京7天最高.最低气温 前置操作: 1.待爬取网站: 北京天气的网址: http://www.weather.com.cn/weather1d/101010100.sht ...

最新文章

  1. 设计模式(一) 单例模式
  2. 全球及中国奢华高档服装行业发展规划及投资价值评估报告2021年版
  3. Scala 函数声明及调用案例详解
  4. 特征提取(Feature Detection)之——HOG (Histogram of Oriented Gradient)特征
  5. 中等职业计算机等级考试,中等职业学校计算机等级考试题库(含答案):EXCEL
  6. PHP笔记-AES加解密(PHP7)
  7. java如何调用webservice_Java如何调用WebService接口
  8. mysql5.7卸载_MySQL 5.7版本卸载教程
  9. 【环境安装】Ubuntu20.04 安装yasm-1.3.0
  10. 如何维持手机电池寿命_如何延长手机电池寿命?总有些事你不知道
  11. 多多视频带货快速出单小技巧!
  12. 23种设计模式——软件设计模式概述
  13. SpringMvc整合邮件发送
  14. EMC组建BRS部门 让备份不再成为困扰
  15. paho.mqtt.cpp库编译
  16. 前后端分离 MVC 架构与 Java 接口规范,深入剖析必要性!
  17. 计算机二级基础知识点总结,全国计算机等级考试二级公共基础知识点总结
  18. git rebase 与git merge 小结
  19. 鲁菜之乡云食安 v1.5.7
  20. JSON 与 LUA Table 相互转换

热门文章

  1. Allegro基本规则设置指导书之Physical规则设置
  2. 袁绍说,吾比曹操英勇伟大,因为吾方战死数量远超
  3. MMPV开启账期提示MMPV_DATE_CHECK错误
  4. 大数据平台开源实施的难点
  5. rancher2.0 beta版本 Kubernetes安装指南
  6. 东北大学 人机交互 复习笔记
  7. python bind函数_python bind是什么意思
  8. 解决pgAdmin4安装后,启动失败的问题
  9. Some VMware images
  10. 手把手教你从零写一个日志框架