1 #-*- coding:utf-8 -*-

2 #python 2.7

3 #XiaoDeng

4 #http://tieba.baidu.com/p/2460150866

5 #标签操作

6

7

8 from bs4 importBeautifulSoup9 importurllib.request10 importre11

12

13 #如果是网址,可以用这个办法来读取网页

14 #html_doc = "http://tieba.baidu.com/p/2460150866"

15 #req = urllib.request.Request(html_doc)

16 #webpage = urllib.request.urlopen(req)

17 #html = webpage.read()

18

19

20

21 html="""

22

The Dormouse's story23 24

The Dormouse's story

25

Once upon a time there were three little sisters; and their names were26 ,27 Lacie and28 Tillie;29 Lacie30 and they lived at the bottom of a well.

31

...

32 """

33 soup = BeautifulSoup(html, 'html.parser') #文档对象

34

35

36 #查找a标签,只会查找出一个a标签

37 #print(soup.a)#

38

39 for k in soup.find_all('a'):40 print(k)41 print(k['class'])#查a标签的class属性

42 print(k['id'])#查a标签的id值

43 print(k['href'])#查a标签的href值

44 print(k.string)#查a标签的string

45 #tag.get('calss'),也可以达到这个效果

python爬虫提取a标签_python 爬取a标签内href的方法及遇到的问题相关推荐

  1. python爬虫淘宝评论_Python爬取淘宝店铺和评论

    1 安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动s ...

  2. python爬虫知乎图片_python 爬取知乎图片

    先上完整代码 1 importrequests2 importtime3 importdatetime4 importos5 importjson6 importuuid7 from pyquery ...

  3. python爬虫有道词典_Python爬取有道词典,有道的反爬很难吗?也就这样啊!

    前言 大家好 ​ 最近python爬虫有点火啊,啥python爬取马保国视频--我也来凑个热闹,今天我们来试着做个翻译软件--不是不是,说错了,今天我们来试着提交翻译内容并爬取翻译结果 主要内容 PS ...

  4. python 爬虫餐饮行业 数据分析_Python爬取美团美食板块商家数据

    导语 利用Python简单爬取美团美食板块商家数据... 其实一开始我是想把美团的所有商家信息爬下来的,这样就可以美其名曰百万数据了... 然而相信很多爬过美团的朋友都发现了... 如果不进行一些小操 ...

  5. python爬虫免费代理池_Python爬取免费代理搭建代理池

    我们在做爬虫的过程中经常会遇到这样的情况:最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403Forbidden:这时候网页上可能会出现 "您 ...

  6. python爬虫猫眼电影票房_python爬取猫眼电影top100排行榜

    爬取猫眼电影TOP100(http://maoyan.com/board/4?offset=90) 1). 爬取内容: 电影名称,主演, 上映时间,图片url地址保存到mariadb数据库中; 2). ...

  7. python教程app下载地址_Python爬取APP下载链接的实现方法

    首先是准备工作 Python 2.7.11:下载python 其中python2和python3目前同步发行,我这里使用的是python2作为环境.Pycharm是一款比较高效的Python IDE, ...

  8. 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  9. 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

最新文章

  1. AT+CSMP 设置短消息文本参数
  2. iOS 键盘遮挡输入框万能解决方案(多个输入框)
  3. 深入理解CPU的调度原理
  4. 浙江省职业技能考试大纲计算机,浙江省高校计算机等级考试大纲
  5. vue 侦听器侦听对象属性_不删除侦听器–使用ListenerHandles
  6. Highcharts 本地导出图片 Java
  7. RequiredFieldValidator验证下拉列表框
  8. 松露菌行业调研报告 - 市场现状分析与发展前景预测
  9. 第一型曲面积分的总结思考
  10. 如何在C#中生成与PHP一样的MD5 Hash Code
  11. 64位plsql和64位Oracle客户端安装以及注册,内含百度云资源
  12. 信号与系统实验四 LTI系统的时域分析
  13. elasticsearch与kibana踩过的坑
  14. Keil5的详细安装教程
  15. 介绍几款低代码生成器,神器
  16. Apache2 Linux 的安装与介绍
  17. Linux的自动装机服务器搭建(持续优化)
  18. 重新出发,从“心”出发
  19. yocto sysroot说明
  20. Java new Date() 获取的时间不正确 【已解决】

热门文章

  1. 这就是你日日夜夜想要的docker!!!---------Dockerfile构建nginx、Tomcat、MySQL镜像
  2. Vue报错—Unexpected tab character
  3. Host is not allowed to connect to this MySQL server的解决办法
  4. linux创建新文件的命令
  5. ingress-nginx 实现内部局域网的url转发配置
  6. InfluxDB安装以及使用
  7. unity Domain Reload scene Reload 静态变量重置
  8. Quartz2D使用(信纸条纹)
  9. 机器学习笔记(4)——ID3决策树算法及其Python实现
  10. 国产芯片-工业级ARM板卡比拼-A40i T3 RK3399 CPU性能PK