python练习题,使用爬虫爬取百度百科内置BeautifulSoup安装方法
链接 -> http://baike.baidu.com/view/284853.htm
首先安装bs4,python -m pip install bs4就可以了
Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。Beautiful Soup 会帮你节省数小时甚至数天的工作时间
import urllib.request
import re
from bs4 import BeautifulSoupdef main():url = "http://baike.baidu.com/view/284853.htm"response = urllib.request.urlopen(url)html = response.read()soup = BeautifulSoup(html, "html.parser") # 使用 Python 默认的解析器for each in soup.find_all(href=re.compile("view")):print(each.text, "->", ''.join(["http://baike.baidu.com", each["href"]]))# 上边用 join() 不用 + 直接拼接,是因为 join() 被证明执行效率要高很多if __name__ == "__main__":main()
运行:
恐龙百科 -> http://baike.baidu.com/wikicategory/view?categoryName=恐龙大全
多肉百科 -> http://baike.baidu.com/wikicategory/view?categoryName=多肉植物
锁定 -> http://baike.baidu.com/view/10812319.htm
python练习题,使用爬虫爬取百度百科内置BeautifulSoup安装方法相关推荐
- python爬虫爬取百度贴吧图片,requests方法
每天一点点,记录学习 近期爬虫项目,看完请点赞哦---: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方 ...
- python爬虫——爬取酷狗音乐top500(BeautifulSoup使用方法)
酷狗音乐Top500 酷狗top500http://www.kugou.com/yy/rank/home/1-8888.html?from=rank 进入,并按F12打开开发者工具(本文以火狐浏览器为 ...
- python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...
- python爬虫爬取百度文档
使用python爬虫爬取百度文档文字 话不多说,直接上代码! import requests import reheaders = {"User-Agent": "Moz ...
- python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...
原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号 不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...
- python3爬虫爬取百度贴吧下载图片
python3爬虫爬取百度贴吧下载图片 学习爬虫时没事做的小练习. 百度对爬虫还是很友好的,在爬取内容方面还是较为容易. 可以方便各位读者去百度贴吧一键下载每个楼主的图片,至于是什么类型的图片,就看你 ...
- 使用python和PyQt5编写爬取百度图片的界面工具
使用python和PyQt5编写爬取百度图片的界面工具 本篇文章的主要内容是展示我个人编写的,以界面小工具的方式爬取百度上面的图片,功能很单一,根据关键词爬取图片,代码很简单,新手上路请多指教. 代码 ...
- python + selenium +pyquery 爬虫 爬取 1688详情图片 阿里巴巴详情图片 与标题 下载图片并进行压缩
python + selenium +pyquery 爬虫 爬取 1688详情图片 阿里巴巴详情图片 与标题 下载图片并进行压缩 用到的库和源码下载地址 需要用到chromedriver 包含wi ...
- python简单网站爬虫-爬取北京7天最高、最低气温
python简单网站爬虫-爬取北京7天最高.最低气温 前置操作: 1.待爬取网站: 北京天气的网址: http://www.weather.com.cn/weather1d/101010100.sht ...
最新文章
- 设计模式(一) 单例模式
- 全球及中国奢华高档服装行业发展规划及投资价值评估报告2021年版
- Scala 函数声明及调用案例详解
- 特征提取(Feature Detection)之——HOG (Histogram of Oriented Gradient)特征
- 中等职业计算机等级考试,中等职业学校计算机等级考试题库(含答案):EXCEL
- PHP笔记-AES加解密(PHP7)
- java如何调用webservice_Java如何调用WebService接口
- mysql5.7卸载_MySQL 5.7版本卸载教程
- 【环境安装】Ubuntu20.04 安装yasm-1.3.0
- 如何维持手机电池寿命_如何延长手机电池寿命?总有些事你不知道
- 多多视频带货快速出单小技巧!
- 23种设计模式——软件设计模式概述
- SpringMvc整合邮件发送
- EMC组建BRS部门 让备份不再成为困扰
- paho.mqtt.cpp库编译
- 前后端分离 MVC 架构与 Java 接口规范,深入剖析必要性!
- 计算机二级基础知识点总结,全国计算机等级考试二级公共基础知识点总结
- git rebase 与git merge 小结
- 鲁菜之乡云食安 v1.5.7
- JSON 与 LUA Table 相互转换