python爬虫提取a标签_python 爬取a标签内href的方法及遇到的问题
1 #-*- coding:utf-8 -*-
2 #python 2.7
3 #XiaoDeng
4 #http://tieba.baidu.com/p/2460150866
5 #标签操作
6
7
8 from bs4 importBeautifulSoup9 importurllib.request10 importre11
12
13 #如果是网址,可以用这个办法来读取网页
14 #html_doc = "http://tieba.baidu.com/p/2460150866"
15 #req = urllib.request.Request(html_doc)
16 #webpage = urllib.request.urlopen(req)
17 #html = webpage.read()
18
19
20
21 html="""
22
The Dormouse's story23 24
The Dormouse's story
25
Once upon a time there were three little sisters; and their names were26 ,27 Lacie and28 Tillie;29 Lacie30 and they lived at the bottom of a well.
...
32 """
33 soup = BeautifulSoup(html, 'html.parser') #文档对象
34
35
36 #查找a标签,只会查找出一个a标签
37 #print(soup.a)#
38
39 for k in soup.find_all('a'):40 print(k)41 print(k['class'])#查a标签的class属性
42 print(k['id'])#查a标签的id值
43 print(k['href'])#查a标签的href值
44 print(k.string)#查a标签的string
45 #tag.get('calss'),也可以达到这个效果
python爬虫提取a标签_python 爬取a标签内href的方法及遇到的问题相关推荐
- python爬虫淘宝评论_Python爬取淘宝店铺和评论
1 安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动s ...
- python爬虫知乎图片_python 爬取知乎图片
先上完整代码 1 importrequests2 importtime3 importdatetime4 importos5 importjson6 importuuid7 from pyquery ...
- python爬虫有道词典_Python爬取有道词典,有道的反爬很难吗?也就这样啊!
前言 大家好 最近python爬虫有点火啊,啥python爬取马保国视频--我也来凑个热闹,今天我们来试着做个翻译软件--不是不是,说错了,今天我们来试着提交翻译内容并爬取翻译结果 主要内容 PS ...
- python 爬虫餐饮行业 数据分析_Python爬取美团美食板块商家数据
导语 利用Python简单爬取美团美食板块商家数据... 其实一开始我是想把美团的所有商家信息爬下来的,这样就可以美其名曰百万数据了... 然而相信很多爬过美团的朋友都发现了... 如果不进行一些小操 ...
- python爬虫免费代理池_Python爬取免费代理搭建代理池
我们在做爬虫的过程中经常会遇到这样的情况:最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403Forbidden:这时候网页上可能会出现 "您 ...
- python爬虫猫眼电影票房_python爬取猫眼电影top100排行榜
爬取猫眼电影TOP100(http://maoyan.com/board/4?offset=90) 1). 爬取内容: 电影名称,主演, 上映时间,图片url地址保存到mariadb数据库中; 2). ...
- python教程app下载地址_Python爬取APP下载链接的实现方法
首先是准备工作 Python 2.7.11:下载python 其中python2和python3目前同步发行,我这里使用的是python2作为环境.Pycharm是一款比较高效的Python IDE, ...
- 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
最新文章
- AT+CSMP 设置短消息文本参数
- iOS 键盘遮挡输入框万能解决方案(多个输入框)
- 深入理解CPU的调度原理
- 浙江省职业技能考试大纲计算机,浙江省高校计算机等级考试大纲
- vue 侦听器侦听对象属性_不删除侦听器–使用ListenerHandles
- Highcharts 本地导出图片 Java
- RequiredFieldValidator验证下拉列表框
- 松露菌行业调研报告 - 市场现状分析与发展前景预测
- 第一型曲面积分的总结思考
- 如何在C#中生成与PHP一样的MD5 Hash Code
- 64位plsql和64位Oracle客户端安装以及注册,内含百度云资源
- 信号与系统实验四 LTI系统的时域分析
- elasticsearch与kibana踩过的坑
- Keil5的详细安装教程
- 介绍几款低代码生成器,神器
- Apache2 Linux 的安装与介绍
- Linux的自动装机服务器搭建(持续优化)
- 重新出发,从“心”出发
- yocto sysroot说明
- Java new Date() 获取的时间不正确 【已解决】
热门文章
- 这就是你日日夜夜想要的docker!!!---------Dockerfile构建nginx、Tomcat、MySQL镜像
- Vue报错—Unexpected tab character
- Host is not allowed to connect to this MySQL server的解决办法
- linux创建新文件的命令
- ingress-nginx 实现内部局域网的url转发配置
- InfluxDB安装以及使用
- unity Domain Reload scene Reload 静态变量重置
- Quartz2D使用(信纸条纹)
- 机器学习笔记(4)——ID3决策树算法及其Python实现
- 国产芯片-工业级ARM板卡比拼-A40i T3 RK3399 CPU性能PK