如果我们编写一个搜索引擎,第一步是用爬虫把目标网站的页面抓回来,第二步是分析网页内容,看到底是新闻、图片或是视频。

接下来的示例展示分为2个步骤

1.获取目标网页的内容

2.屏幕输出网页中所有的<a>标签的连接

示列:myparser.py

1 #!/usr/bin/env Python
  2 #-*- encoding:utf-8 -*-
  3 
  4 import urllib
  5 
  6 import HTMLParser
  7 
  8 class myparser(HTMLParser.HTMLParser):
  9     def __init__(self):
 10         HTMLParser.HTMLParser.__init__(self)
 11 
 12     def handle_starttag(self, tag, attrs):
 13         if tag == 'a':
 14             for name, value in attrs:
 15                 if name == 'href':
 16                     print value
 17 
 18 if __name__ == '__main__':
 19     #a = '<html><head></head><body><div class="test"><a href="http://test.test.cn"></div></body></html>';
 20 
 21     url = 'http://www.meishij.NET/jiankang/yangsheng/';
 22 
 23     page = urllib.urlopen(url)
 24     print page
 25     assert page
 26 
 27     data = page.read() #1.
 28 
 29     my = myparser()
 30     my.feed(data) #2.

python 示列:抓取网页所有a连接相关推荐

  1. python爬网页数据用什么_初学者如何用“python爬虫”技术抓取网页数据?

    原标题:初学者如何用"python爬虫"技术抓取网页数据? 在当今社会,互联网上充斥着许多有用的数据.我们只需要耐心观察并添加一些技术手段即可获得大量有价值的数据.而这里的&quo ...

  2. python抓取网页电话号码_利用正则表达式编写python 爬虫,抓取网页电话号码!...

    利用正则表达式编写python 爬虫,抓取网页联系我们电话号码!这里以九奥科技(www.jiuaoo.com)为例,抓取'联系我们'里面的电话号码,并输出. #!/usrweilie/bin/pyth ...

  3. python正则表达式提取电话号码_利用正则表达式编写python 爬虫,抓取网页电话号码!...

    利用正则表达式编写python 爬虫,抓取网页联系我们电话号码!这里以九奥科技(www.jiuaoo.com)为例,抓取'联系我们'里面的电话号码,并输出. #!/usrweilie/bin/pyth ...

  4. python动态渲染抓取网页_爬取动态网页python+Web kit

    上一篇文章爬取动态网页python+selenium+webdriver介绍了爬取动态网站的一种模拟浏览器的方法,该方法的优劣也很明显 优: 可以模拟任何人的操作,输入账号密码,点击登录等等操作 劣: ...

  5. python用read_html抓取网页表格型数据

    本文转载自:https://www.cnblogs.com/sanduzxcvbnm/p/10250222.html 需要学习的地方: (1)read_html的用法 作用:快速获取在html中页面中 ...

  6. 【实例】python 使用beautifulSoup 抓取网页正文 以淘宝商品价格为例

    参考文章: 利用BeautifulSoup抓取新浪网页新闻的内容 使用Requests库和BeautifulSoup库来爬取网页上需要的文字与图片 -------------------------- ...

  7. python线程池抓取网页数据

    因为最近朋友实验研究需要手动复制,粘贴www.chemsrc.com网页上的数据很繁琐,大致看了一下一共有4000多页,因此想到了用爬虫来爬取数据. 有了这个想法便来考虑试试 # 如何提取单个页面的数 ...

  8. Python re 正则:抓取网页上电驴/磁力/迅雷链接

    利用re的不分组(?:pattern)和N选1(?: (?:pattern1)|(?:pattern2)|(?:pattern3)),一次性筛选出符合三种格式的链接 res = re.findall( ...

  9. python中模拟浏览器抓取网页(-)

    对于平时我们抓取网页的内容时,比较倾向于直接利用urllib进行抓取(这里我就基于python的2.7版本进行解说,对于python3之后的版本,是将python中的urllib和urllib2和并成 ...

最新文章

  1. 双十二自动刷淘宝能量,这个脚本你值得拥有
  2. 形态学处理:膨胀、腐蚀、开运算、闭运算、形态学梯度、顶帽、黑帽
  3. ftp定期任务linux,Linux FTP服务器搭建和crontab计划任务制定
  4. 2021巢湖第一中学高考成绩查询,2021年巢湖高中录取分数线是多少及高中排名榜...
  5. hdu--4028--dp
  6. android 菜鸟面单打印_1.0 Android基础入门教程
  7. 修ecshop品牌筛选以LOGO图片形式显示
  8. linux应用之Lamp(apache+mysql+php)的源码安装(centos)
  9. 点餐系统ip地址_教你一步一步做无线点餐项目(登录篇)
  10. linux命令批量修改文件名称
  11. Softlink Hardlink
  12. 科学家成功实现八光子薛定谔猫态
  13. BLUES吉他学习笔记005 bluesrv[9]
  14. 移动端安卓和苹果手机背景图片显示不全的问题
  15. xxl-job的学习使用
  16. RunC漏洞导致容器逃逸(CVE-2021-30465)
  17. 7.正则抓取页面内容
  18. 将josn对象转换成string并格式化
  19. Windows11重置提示找不到恢复环境怎么解决?
  20. ubuntu 装pyqt5_Ubuntu18.04安装pyQt5

热门文章

  1. 7000 字精华总结,Pandas/Sklearn 进行机器学习之特征筛选,有效提升模型性能
  2. 赠书 | 干货!用 Python 动手学强化学习
  3. 超级详细的 Python 数据分析指南
  4. 如果特斯拉制造相机的梦想像激光雷达一样真正实现,它可能会帮助到更多同行...
  5. 为什么说机器学习是预防欺诈的最佳工具?
  6. Python 编程语言的核心是什么?
  7. 医疗影像处理:去除医疗影像中背景的影响2D/3D【numpy-code】| CSDN博文精选
  8. 内行的AI盛会——北京智源大会带你洞见未来!(含日程及限量优惠)
  9. 秘籍 | 机器学习数据集网址大全
  10. 特斯拉“国王”王权不保