python 示列：抓取网页所有a连接

如果我们编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓回来，第二步是分析网页内容，看到底是新闻、图片或是视频。

接下来的示例展示分为2个步骤

1.获取目标网页的内容

2.屏幕输出网页中所有的<a>标签的连接

示列：myparser.py

1 #!/usr/bin/env Python
2 #-*- encoding:utf-8 -*-
3
4 import urllib
5
6 import HTMLParser
7
8 class myparser(HTMLParser.HTMLParser):
9 def __init__(self):
10 HTMLParser.HTMLParser.__init__(self)
11
12 def handle_starttag(self, tag, attrs):
13 if tag == 'a':
14 for name, value in attrs:
15 if name == 'href':
16 print value
17
18 if __name__ == '__main__':
19 #a = '<html><head></head><body><div class="test"><a href="http://test.test.cn"></div></body></html>';
20
21 url = 'http://www.meishij.NET/jiankang/yangsheng/';
22
23 page = urllib.urlopen(url)
24 print page
25 assert page
26
27 data = page.read() #1.
28
29 my = myparser()
30 my.feed(data) #2.

python 示列：抓取网页所有a连接相关推荐

python爬网页数据用什么_初学者如何用“python爬虫”技术抓取网页数据？
原标题:初学者如何用"python爬虫"技术抓取网页数据? 在当今社会,互联网上充斥着许多有用的数据.我们只需要耐心观察并添加一些技术手段即可获得大量有价值的数据.而这里的&quo ...
python抓取网页电话号码_利用正则表达式编写python 爬虫，抓取网页电话号码！...
利用正则表达式编写python 爬虫,抓取网页联系我们电话号码!这里以九奥科技(www.jiuaoo.com)为例,抓取'联系我们'里面的电话号码,并输出. #!/usrweilie/bin/pyth ...
python正则表达式提取电话号码_利用正则表达式编写python 爬虫，抓取网页电话号码！...
利用正则表达式编写python 爬虫,抓取网页联系我们电话号码!这里以九奥科技(www.jiuaoo.com)为例,抓取'联系我们'里面的电话号码,并输出. #!/usrweilie/bin/pyth ...
python动态渲染抓取网页_爬取动态网页python+Web kit
上一篇文章爬取动态网页python+selenium+webdriver介绍了爬取动态网站的一种模拟浏览器的方法,该方法的优劣也很明显优: 可以模拟任何人的操作,输入账号密码,点击登录等等操作劣: ...
python用read_html抓取网页表格型数据
本文转载自:https://www.cnblogs.com/sanduzxcvbnm/p/10250222.html 需要学习的地方: (1)read_html的用法作用:快速获取在html中页面中 ...
【实例】python 使用beautifulSoup 抓取网页正文以淘宝商品价格为例
参考文章: 利用BeautifulSoup抓取新浪网页新闻的内容使用Requests库和BeautifulSoup库来爬取网页上需要的文字与图片 -------------------------- ...
python线程池抓取网页数据
因为最近朋友实验研究需要手动复制,粘贴www.chemsrc.com网页上的数据很繁琐,大致看了一下一共有4000多页,因此想到了用爬虫来爬取数据. 有了这个想法便来考虑试试 # 如何提取单个页面的数 ...
Python re 正则:抓取网页上电驴/磁力/迅雷链接
利用re的不分组(?:pattern)和N选1(?: (?:pattern1)|(?:pattern2)|(?:pattern3)),一次性筛选出符合三种格式的链接 res = re.findall( ...
python中模拟浏览器抓取网页（-）
对于平时我们抓取网页的内容时,比较倾向于直接利用urllib进行抓取(这里我就基于python的2.7版本进行解说,对于python3之后的版本,是将python中的urllib和urllib2和并成 ...

python 示列：抓取网页所有a连接

python 示列：抓取网页所有a连接相关推荐

最新文章

热门文章