1 import requests
 2 import re
 3 import pymysql
 4 #10页 仔细观察路由
 5 db = pymysql.connect("localhost","root","root","testdb" )
 6 cursor = db.cursor()
 7
 8 for i in range(1,10):
 9     url = 'http://*******8****'
10     url=url+'index_'+str(i)+'.html'
11     response = requests.get(url)
12     HTML = response.text
13     pattern= re.compile(r'(((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})){3})')
14     compile_1 = re.compile(r'\s+(\d{3,6})\s')
15     compile_2 = re.compile(r'\s+([\u4e00-\u9fa5]{1,9})\s?(?:省|新疆|内蒙古|市|县|区])')
16     # compile_4 = re.compile(r's+(\d{4}/\d{2}/\d{2}\s+\d{2}:\d{2}:\d{2})\s')
17     res2 = compile_2.findall(HTML)
18     res1 = compile_1.findall(HTML)
19     result = pattern.findall(HTML)
20     # res3 = compile_4.findall(HTML)
21     # print(res3,len(result))
22     for ip_ in result:
23         print(ip_[0])
24         sql = "INSERT INTO test (ip,port,place) VALUES ('%s','%s','%s')" %(ip_[0],res1[0],res2[0])
25         print(sql)
26         cursor.execute(sql)
27 db.close()
28
29 # 使用cursor()方法获取操作游标 

转载于:https://www.cnblogs.com/Y139147/p/11306733.html

python爬虫爬取ip记录网站信息并存入数据库相关推荐

  1. Python爬虫爬取伯乐在线网站信息

    一.环境搭建 1.创建环境 执行pip install scrapy安装scrapy 使用scrapy startproject ArticleSpider创建scrapy项目 使用pycharm导入 ...

  2. 详细实例:用python爬虫爬取幽默笑话网站!(建议收藏)

    前言: 今天为大家带来的内容是详细实例:用python爬虫爬取幽默笑话网站!(建议收藏),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下! 爬取网站为 ...

  3. python 爬虫 爬取高考录取分数线 信息

    原文链接: python 爬虫 爬取高考录取分数线 信息 上一篇: axios 原生上传xlsx文件 下一篇: pandas 表格 数据补全空值 网页 https://gkcx.eol.cn/scho ...

  4. python爬虫爬取58同城租房信息(使用动态IP)输出Excel文件

    python爬虫爬取58同城信息(使用动态IP) 新手,为了做一个数据分析,搞了几天,终于搞出来了,大家可以给点意见啊. # coding=utf-8 import sys import csv im ...

  5. Python爬虫爬取知乎用户信息+寻找潜在客户

    [Python应用]寻找社交网络中的目标用户 日后的更新:由于是很久以前的课程设计项目,完整的源码已经不见了,关键的网页数据获取和解析的部分代码我在文章中已经贴出来了,但写的也不够好,如果想参考爬取知 ...

  6. python爬虫——爬取起点中文网作品信息

    首先打开起点中文网 点开红圈内的全部作品选项,本博客爬取这里面的作品信息. 接下来爬取所有作品信息,注意,不仅仅只是该面的所有作品信息,而是全部作品信息. 网页下面有跳转其他页的选项. 我们需要找到网 ...

  7. Python爬虫爬取马蜂窝北京景点信息

    背景 来北京有些日子了,但是每个周末都窝在六环外的村里躺着.想想不能再这么浪费时间了,得出去玩!但是去哪玩呢?于是乎想着,先把北京的景点以及位置都保存起来,然后在分析分析做个出行计划.从哪里获取景点信 ...

  8. python 爬虫 爬取当当网图书信息

    初次系统的学习python,在学习完基本语法后,对爬虫进行学习,现在对当当网进行爬取,爬取了基本图书信息,包括图书名.作者等 import requests from time import slee ...

  9. 利用Python爬虫爬取斗鱼直播间信息,以及直播的实际人数!

    首先我准备利用mysql来存储我爬取的信息,建一个host表如下: 然后下载pymysql ,利用它与数据库链接,因为在这里我只涉及到写入的操作: Unit_Mtsql 然后就是使用Beautiful ...

最新文章

  1. sap转换成基本订单单位
  2. Matlab循环读取txt文件并对其中数据进行计算最后导出为excel
  3. 单链表式并查集应用举例
  4. jenkins的JAVA简单顺序配置git仓库
  5. PHP -- Traits新特性
  6. c语言switch的作用域,你真的懂switch吗?聊聊switch语句中的块级作用域
  7. 干货收藏!史上最强 Tomcat 8 性能优化来啦!| 原力计划
  8. Java中private修饰变量的继承问题
  9. 订单系统需求分析说明
  10. linux时间戳简介,linux 时间戳
  11. Win10电脑关机后立即自动重启怎么办
  12. H3C VRRP实验
  13. lucene.net和(pangu)盘古分词 搜索引擎的简单实现
  14. chrome插件之——Enhanced Github和Octotree
  15. 积化和差、和差化积公式
  16. 信息安全实习:实习一 古典加密算法 Swing图形化 (报告+详细代码)
  17. 快速排序算法原理 Quicksort —— 图解(精讲) JAVA
  18. 使用Excel创建线性回归模型
  19. Android应用程序和其设计思想--转载----做记录
  20. 软工大作业·历物语(二)

热门文章

  1. how does eclipse know what tasks it should do when we select Maven build
  2. use web IDE to commit change to git
  3. html怎么让图标动起来,让ICON生动起来 纯CSS实现带动画的天气图标
  4. 如何解决ipconfig、ping不是内部或外部命令
  5. linux主机解析虚拟机超时_Linux 内核超时导致虚拟机无法正常启动
  6. springboot+jsp中文乱码_【spring 国际化】springMVC、springboot国际化处理详解
  7. php代码在线base64解码,Base64在线编码解码实现代码 演示与下载
  8. docker $PWD路径_使用docker炼丹
  9. getsize java_Java ZipEntry getSize()用法及代码示例
  10. 计算机使用技巧爆文,关于小红书爆文的10个小技巧