python爬虫爬取ip记录网站信息并存入数据库
1 import requests 2 import re 3 import pymysql 4 #10页 仔细观察路由 5 db = pymysql.connect("localhost","root","root","testdb" ) 6 cursor = db.cursor() 7 8 for i in range(1,10): 9 url = 'http://*******8****' 10 url=url+'index_'+str(i)+'.html' 11 response = requests.get(url) 12 HTML = response.text 13 pattern= re.compile(r'(((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})){3})') 14 compile_1 = re.compile(r'\s+(\d{3,6})\s') 15 compile_2 = re.compile(r'\s+([\u4e00-\u9fa5]{1,9})\s?(?:省|新疆|内蒙古|市|县|区])') 16 # compile_4 = re.compile(r's+(\d{4}/\d{2}/\d{2}\s+\d{2}:\d{2}:\d{2})\s') 17 res2 = compile_2.findall(HTML) 18 res1 = compile_1.findall(HTML) 19 result = pattern.findall(HTML) 20 # res3 = compile_4.findall(HTML) 21 # print(res3,len(result)) 22 for ip_ in result: 23 print(ip_[0]) 24 sql = "INSERT INTO test (ip,port,place) VALUES ('%s','%s','%s')" %(ip_[0],res1[0],res2[0]) 25 print(sql) 26 cursor.execute(sql) 27 db.close() 28 29 # 使用cursor()方法获取操作游标
转载于:https://www.cnblogs.com/Y139147/p/11306733.html
python爬虫爬取ip记录网站信息并存入数据库相关推荐
- Python爬虫爬取伯乐在线网站信息
一.环境搭建 1.创建环境 执行pip install scrapy安装scrapy 使用scrapy startproject ArticleSpider创建scrapy项目 使用pycharm导入 ...
- 详细实例:用python爬虫爬取幽默笑话网站!(建议收藏)
前言: 今天为大家带来的内容是详细实例:用python爬虫爬取幽默笑话网站!(建议收藏),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下! 爬取网站为 ...
- python 爬虫 爬取高考录取分数线 信息
原文链接: python 爬虫 爬取高考录取分数线 信息 上一篇: axios 原生上传xlsx文件 下一篇: pandas 表格 数据补全空值 网页 https://gkcx.eol.cn/scho ...
- python爬虫爬取58同城租房信息(使用动态IP)输出Excel文件
python爬虫爬取58同城信息(使用动态IP) 新手,为了做一个数据分析,搞了几天,终于搞出来了,大家可以给点意见啊. # coding=utf-8 import sys import csv im ...
- Python爬虫爬取知乎用户信息+寻找潜在客户
[Python应用]寻找社交网络中的目标用户 日后的更新:由于是很久以前的课程设计项目,完整的源码已经不见了,关键的网页数据获取和解析的部分代码我在文章中已经贴出来了,但写的也不够好,如果想参考爬取知 ...
- python爬虫——爬取起点中文网作品信息
首先打开起点中文网 点开红圈内的全部作品选项,本博客爬取这里面的作品信息. 接下来爬取所有作品信息,注意,不仅仅只是该面的所有作品信息,而是全部作品信息. 网页下面有跳转其他页的选项. 我们需要找到网 ...
- Python爬虫爬取马蜂窝北京景点信息
背景 来北京有些日子了,但是每个周末都窝在六环外的村里躺着.想想不能再这么浪费时间了,得出去玩!但是去哪玩呢?于是乎想着,先把北京的景点以及位置都保存起来,然后在分析分析做个出行计划.从哪里获取景点信 ...
- python 爬虫 爬取当当网图书信息
初次系统的学习python,在学习完基本语法后,对爬虫进行学习,现在对当当网进行爬取,爬取了基本图书信息,包括图书名.作者等 import requests from time import slee ...
- 利用Python爬虫爬取斗鱼直播间信息,以及直播的实际人数!
首先我准备利用mysql来存储我爬取的信息,建一个host表如下: 然后下载pymysql ,利用它与数据库链接,因为在这里我只涉及到写入的操作: Unit_Mtsql 然后就是使用Beautiful ...
最新文章
- sap转换成基本订单单位
- Matlab循环读取txt文件并对其中数据进行计算最后导出为excel
- 单链表式并查集应用举例
- jenkins的JAVA简单顺序配置git仓库
- PHP -- Traits新特性
- c语言switch的作用域,你真的懂switch吗?聊聊switch语句中的块级作用域
- 干货收藏!史上最强 Tomcat 8 性能优化来啦!| 原力计划
- Java中private修饰变量的继承问题
- 订单系统需求分析说明
- linux时间戳简介,linux 时间戳
- Win10电脑关机后立即自动重启怎么办
- H3C VRRP实验
- lucene.net和(pangu)盘古分词 搜索引擎的简单实现
- chrome插件之——Enhanced Github和Octotree
- 积化和差、和差化积公式
- 信息安全实习:实习一 古典加密算法 Swing图形化 (报告+详细代码)
- 快速排序算法原理 Quicksort —— 图解(精讲) JAVA
- 使用Excel创建线性回归模型
- Android应用程序和其设计思想--转载----做记录
- 软工大作业·历物语(二)
热门文章
- how does eclipse know what tasks it should do when we select Maven build
- use web IDE to commit change to git
- html怎么让图标动起来,让ICON生动起来 纯CSS实现带动画的天气图标
- 如何解决ipconfig、ping不是内部或外部命令
- linux主机解析虚拟机超时_Linux 内核超时导致虚拟机无法正常启动
- springboot+jsp中文乱码_【spring 国际化】springMVC、springboot国际化处理详解
- php代码在线base64解码,Base64在线编码解码实现代码 演示与下载
- docker $PWD路径_使用docker炼丹
- getsize java_Java ZipEntry getSize()用法及代码示例
- 计算机使用技巧爆文,关于小红书爆文的10个小技巧