如果我们想要使用Python获取某个网页中所有a标签中的超链接网址,应该怎么做呢?

  1. 安装Python

下载地址:https://www.python.org/downloads/

可能唯一困惑的是下载哪个版本,看图解答你的疑惑

2.安装BeautifulSoup
管理员身份运行命令行,然后命令行中输入以下命令:

pip install beautifulsoup4

3.爬虫核心代码如下:

# -*- coding:utf-8 -*-
# python 3.7
#引入系统类库
import sys
# 使用文档解析类库
from bs4 import BeautifulSoup
# 使用网络请求类库
import urllib.request
# 输入网址
html_doc = "http://www.discuz.net/forum.php"
if len(sys.argv)>1:website=sys.argv[1]if(website is not None):html_doc= sys.argv[1]
# 获取请求
req = urllib.request.Request(html_doc)
# 打开页面
webpage = urllib.request.urlopen(req)
# 读取页面内容
html = webpage.read()
# 解析成文档对象
soup = BeautifulSoup(html, 'html.parser')   #文档对象
# 非法URL 1
invalidLink1='#'
# 非法URL 2
invalidLink2='javascript:void(0)'
# 集合
result=set()
# 计数器
mycount=0
#查找文档中所有a标签
for k in soup.find_all('a'):#print(k)#查找href标签link=k.get('href')# 过滤没找到的if(link is not None):#过滤非法链接if link==invalidLink1:passelif link==invalidLink2:passelif link.find("javascript:")!=-1:passelse:mycount=mycount+1#print(mycount,link)result.add(link)
#print("打印超链接个数:",mycount)
#print("打印超链接列表",result)
f = open(r'result.txt','w',encoding='utf-8')  #文件路径、操作模式、编码  # r''
for a in result:f.write(a+"\n")
f.close()
print("\r\n扫描结果已写入到result.txt文件中\r\n")

用法一:

默认请求代码中写入的网址,将网址中所有的a href 标签执向的URL记录下来

python SmartWebCrawler.py

用法二:

命令行输入网址,将网址中所有的a href 标签执向的URL记录下来

python SmartWebCrawler.py http://www.runoob.com/

源码下载

Python爬虫获取某个网页所有的a标签中的超链接网址相关推荐

  1. python爬取网页某一个a标签_Python爬虫获取某个网页所有的a标签中的超链接网址...

    Python爬虫获取某个网页所有的a标签中的超链接网址 安装BeautifulSoup 管理员身份运行命令行,然后命令行中输入以下命令: pip install beautifulsoup4 爬虫核心 ...

  2. python爬虫获取的网页数据为什么要加[0-python爬虫解析页面数据的三种方式

    re模块 re.S表示匹配单行 re.M表示匹配多行 使用re模块提取图片url,下载所有糗事百科中的图片 普通版 import requests import re import os if not ...

  3. python爬虫获取的网页数据为什么要加[0-python3爬虫爬取网页思路及常见问题(原创)...

    学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...

  4. python爬虫获取的网页数据为什么要加[0-Python爬虫实战1-解决需要爬取网页N秒后的内容的需求...

    -------谢谢您的参考,如有疑问,欢迎交流 前引: 当你需要爬取的页面内容在访问页面5秒后才会出现, 这时使用python的requests模块就很难爬取到你想要的内容了. requests和se ...

  5. python爬虫获取的网页数据为什么要加[0-[Python爬虫] 等待网页加载后再获取内容...

    0x0 背景 最近在学习Python爬虫的相关知识,主要是之前有一个小idea想要用Python实现,沉寂了一年,近期终于下定决心要利用假期时间首要解决此项任务,不然拖到最后都没完成,自己遗憾不说,还 ...

  6. python爬虫获取的网页数据为什么要加[0-使用 Python 爬取网页数据

    1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...

  7. python Chrome + selenium自动化测试与python爬虫获取网页数据

    一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...

  8. Python爬虫获取网页编码格式

    Python爬虫获取网页编码格式 网页编码格式是每个网页规定的本页面文字的编码方式,其中比较流行的是ascii, gbk, utf-8, iso等.观察许多网页的编码格式都是在meta标签的conte ...

  9. python爬虫获取url_Python爬虫如何获取页面内所有URL链接?本文详解

    如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...

最新文章

  1. 华为主题包hwt下载_华为手机非官方主题应用指南
  2. OSPF DR选举的先后
  3. [Java基础]Random
  4. translateZ 带来的Z-index 问题
  5. 通用权限管理系统组件 (GPM - General Permissions Manager) 不改数据库、甚至不写代码就集成铜墙铁壁权限管理组件...
  6. 杭电2897邂逅明下邂逅明下
  7. 比较好玩的动态添加网页元素
  8. vue--自定义验证指令
  9. 2019 必看 Android 高级面试题总结
  10. 图解PLC与变频器通讯接线
  11. cad中直径符号不显示_你知道在CAD制图软件中如何输入公差/直径符号吗?CAD入门学习技巧!...
  12. 设计模型之Visitor模式-图书馆管理系统应用C++实现
  13. python中占位符包括_python中占位符
  14. Bt(宝塔面板)安装wordpress以及如何开启最简单实用的动静分离优化
  15. 诗歌中的宇宙飞船和电子计算机代表什么,《宇宙飞船的避火衣》阅读理解及答案...
  16. ​想知道与你最般配的伴侣长什么样?这个“夫妻相”生成器要火
  17. 智能电视刷鸿蒙系统刷机教程,智能电视ROM制作教程 手把手教你做刷机包
  18. gnuplot下载安装使用
  19. 商业竞争中的战争策略 - 读《商战》
  20. 经典管理学书籍推荐:《经理人参阅:企业管理实务》

热门文章

  1. 电影院订票选座网站系统 毕业设计毕业论文参考(3)后台管理功能
  2. 网鱼网咖-利用数加快速搭建大数据平台,极致洞察,为客户带来从所未有的体验。...
  3. ios9/sdk9/xcode7/iphone6s(+)适配
  4. 高速缓存技术(1):基本原理
  5. 选品堪称“变态”,却得到5万小B支持,它如何做成了社交电商新
  6. unittest生成测试报告步骤
  7. 坦克项目的摄像机改进及殉爆效果开发记录——Unity随手记(2020.12.1)
  8. AI芯片独角兽寒武纪新融资完成:估值逾20亿美元,国家队基金入场
  9. ActionScript移动项目组件开发(1):可滚动的容器
  10. 本地电脑关联云服务器