1、安装Python requests模块(通过pip):

环境搭建好了!

2、测试一下抓取URL的过程:

抓取出来的URL有JavaScript代码,正则上还有待更加完善,有兴趣的可以研究下~!

工具源代码:

#coding:utf-8

import sys

import re

import requests

#获取输入URL,并获取网页text

input = raw_input("please input URL format like this(http://www.baidu.com):")

print 'input : %s' % input

r = requests.get(input)

data = r.text

#利用正则查找所有URL

link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" ,data)

count = 0

for url in link_list:

file = open("c:\\test.txt", "a")

file.write(url+"\n")

count = count + 1

print url

print '\n'

print 'total URL is:' + str(count)

print '\n'

print 'crawling achieve...'

file.close()

python抓取网站URL小工具相关推荐

  1. python抓取网站乱码_如何使用Python抓取网站

    python抓取网站乱码 by Devanshu Jain 由Devanshu Jain It is that time of the year when the air is filled with ...

  2. python 24位图转 8位_Python爬取PPT模板小工具下载-Python爬取PPT模板小工具免费版下载v1.0...

    由于很多PPT抓取工具都会因为版本问题无法使用,所以论坛大神就自己写了这款Python爬取PPT模板小工具,可以帮助用户轻松获取各种PPT模板,使用的时候注意一次只能下载一种类型.软件仅供交流学习,下 ...

  3. python抓取网站图片_利用python抓取网站图片

    看了网上关于python抓取网站图片的例子,所以自己也尝试着写一个,但是发现这个网站的src不是标准的路径,需要自己添加前面的目录地址,尝试了几次也不成功,所以希望有经验的朋友指导下. 本人是初学者, ...

  4. python抓取网站图片_python抓取图片示例 python抓取网页上图片

    python抓取网页上图片 这个错误时是什么意思 下面是代码 import re import urllib.request imp正则表达式匹配的url有错误 for x in add: print ...

  5. python抓取网站88titienmae88中的“图片区”的第一页的所有图片

    #-*-coding:utf-8-*- from urllib.request import urlopen, urlretrieve from bs4 import BeautifulSoup im ...

  6. python抓取网站88titienmae88中的“图片区”所有图片

    #-*-coding:utf-8-*- from urllib.request import urlopen, urlretrieve from bs4 import BeautifulSoup im ...

  7. Python网络爬虫——爬取网站图片小工具

    最近初学python爬虫,就写了一个爬取网站图片的小工具,界面如下: 用到的包主要是爬虫常用的urllib,urllib2和图形界面用的Tkinter,完整代码如下: # -*- coding:utf ...

  8. python抓取网站重要url_[Python]网络爬虫(一):抓取网页的含义和URL基本构成

    一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一 ...

  9. 【python】python 爬虫(python抓取网站的图片)

    文章目录 1.什么是爬虫 2.爬虫的思想 一些知识 1 . 环境的搭建请看: 2 . 3 .:Requests urllib的升级版本打包了全部功能并简化了使用方法(点我查看官方文档) 4 : bea ...

最新文章

  1. GlusterFS下如何修复裂脑文件?(续一)
  2. CNN 的一些可视化方法!
  3. MySQL 的 binlog 编号竟然可以这么大!
  4. SELinux进阶篇 应用目标策略管理非限制进程和用户
  5. 运行多个 npm script 的各种姿势
  6. 【转】 C#学习笔记14——Trace、Debug和TraceSource的使用以及日志设计
  7. 大学计算机课代表竞选稿,课代表竞选演讲稿
  8. Medieval Rampage
  9. 我的U盘,在某台机器上所有文件大小为0
  10. python二级考试选择题公共基础知识_计算机二级选择题(公共基础知识)
  11. python编程单词排序_Python:对输入的单词进行字典序排序输出
  12. 愿世间所有美好都恰逢其时
  13. linux系统电视盒子到底是什么
  14. python信号处理加汉明窗_SciPyTutorial-非整周期信号加窗
  15. Python再夺冠,2020年度编程语言排行榜出炉
  16. 剑指 offer 面试题精选图解 10-I.斐波那契数列
  17. echarts地图设置legend_echarts设置图例颜色和地图底色的方法实例
  18. 腾讯X5 浏览器内核加载
  19. 201671030109 韩艳艳 《英文文本统计分析》结对项目报告
  20. 滑雪与时间胶囊 题解 BZOJ2753

热门文章

  1. HP Z840 工作站配sSAS Raid 安装 Ubuntu 16.04 系统
  2. c++MMMMM:oo
  3. Apress Pro Android 2
  4. C# webkit内核 网页填表
  5. C#循环给多个控件赋值
  6. 类模板与运算符重载(一个简单的例子)
  7. 当查找名字的时候通过外围作用域向外查找(如何理解)
  8. 【C】——C项目中的菜单功能(源码)
  9. windows.h与winsock2.h的包含顺序
  10. SilverLight开发系列第1步:搭建开发环境