学习目标:

python学习二十三 —数据抓取三、


学习内容:

1、简单IP地址代理
2、利用蘑菇代理实现IP地址代理刷新本地ip地址
3、利用蘑菇代理实现IP地址代理抓取安居客信息并实现多线程


1、简单IP地址代理

import requests
from lxml import etree# 代理IP地址
proxy = {"http": "代理ip:端口号"}headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}source = requests.get('http://2021.ip138.com/', headers=headers, proxy=proxy).text
demo = etree.HTML(source).xpath('/html/body/p[1]/a/text()')
content = etree.HTML(source).xpath('/html/body/p[1]/text()[2]')
print(demo)
print(content)

2、利用蘑菇代理实现IP地址代理刷新本地ip地址

import requests
from lxml import etree# 蘑菇代理的隧道订单
appKey = "Nk1WTVBqODJDMlVmOWdkRDp5cGY2SWo0RGJzZGYzNnow"
# 蘑菇隧道代理服务器地址
ip_port = 'secondtransfer.moguproxy.com:9001'
# 代理IP地址
proxy = {"http": "http://" + ip_port, "https": "https://" + ip_port}headers = {"Proxy-Authorization": 'Basic ' + appKey,"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0","Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4"
}source = requests.get('http://2021.ip138.com/', headers=headers, proxies=proxy,verify=False,allow_redirects=False).text
demo = etree.HTML(source).xpath('/html/body/p[1]/a/text()')
content = etree.HTML(source).xpath('/html/body/p[1]/text()[2]')
print(demo)
print(content)
多次输出结果不同:
['106.35.173.120']
['] 来自:中国内蒙古包头 电信\n']
['223.242.246.60']
['] 来自:中国安徽淮南田家庵区 电信\n']

3、利用蘑菇代理实现IP地址代理抓取安居客信息并实现多线程

import requests
from lxml import etree
from multiprocessing import Pool
import re
# 蘑菇代理的隧道订单
appKey = "Nk1WTVBqODJDMlVmOWdkRDp5cGY2SWo0RGJzZGYzNnow"
# 蘑菇隧道代理服务器地址
ip_port = 'secondtransfer.moguproxy.com:9001'
# 代理IP地址
proxy = {"http": "http://" + ip_port, "https": "https://" + ip_port}headers = {"Proxy-Authorization": 'Basic ' + appKey,"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0","Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4"
}lists = ['xiqing', 'tanggu', 'nankai', 'jinnan', 'wuqing', 'hedong', 'hexi', 'dongli']for i in range(8):def index(page):source = requests.get('https://tianjin.anjuke.com/sale/jinnan/' + str(lists[i]) + '/p' + str(page) + '/?from=SearchBar', headers=headers, proxies=proxy, verify=False, allow_redirects=False).textname = etree.HTML(source).xpath('//*[@id="__layout"]/div/section/section[3]/section[1]/section[2]/div/a/div[2]/div[1]/div[1]/h3/text()')content1 = "".join(etree.HTML(source).xpath('//*[@id="__layout"]/div/section/section[3]/section[1]/section[2]/div/a/div[2]/div[1]/section/div[1]/p[1]/span/ text()'))content2 = etree.HTML(source).xpath('// *[ @ id = "__layout"]/div/section/section[3]/section[1]/section[2]/div/a/div[2]/div[1]/section/div[2]/p/text()')content3 = (etree.HTML(source).xpath('//*[@id="__layout"]/div/section/section[3]/section[1]/section[2]/div/a/div[2]/div[1]/section/div[3]/span/text()'))print(lists[i])print(name)print(content1.replace('卫', '卫,'))print(content2)print(content3)print('===========当前在第' + str(page) + '页=================')if __name__ == '__main__':p = Pool(1)for page in range(1, 51):p.apply_async(index, args=(page,))print('Waiting for all subprocesses done...')p.close()p.join()print('All subprocesses done.')

python—简单数据抓取三(简单IP地址代理、利用蘑菇代理实现IP地址代理刷新本地ip地址、利用蘑菇代理实现IP地址代理抓取安居客信息并实现多线程)相关推荐

  1. 爬虫数据存储到数据库/增量爬虫+多级页面获取=====安居客信息爬取

    文章目录 前言 一.增量爬虫是什么? 二.python数据存储到数据库 三.多级页面的跳转获取 四:遇到的问题以及解决 五:代码 总结 前言:这次的爬取内容是安居客网页里面的信息,首先是我爬取的页面是 ...

  2. Python爬虫实战-详细讲解爬取安居客房价数据

    最近在尝试用python爬取安居客房价数据,在这里给需要的小伙伴们提供代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本数据爬取的 ...

  3. python输出数据到excel-python实现数据导出到excel的示例

    这篇文章主要介绍了关于python实现数据导出到excel的示例,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 此文是在django框架下编写,从数据库中获取数据使用的是django- ...

  4. python输出数据到excel-python实现数据导出到excel的示例--普通格式

    此文是在django框架下编写,从数据库中获取数据使用的是django-orm 用python导出数据到excel,简单到爆!(普通的excel格式) 安装xlwt pip install xlwt ...

  5. python—简单数据抓取七(采取蘑菇API代理设置scrapy的代理IP池并利用redis形成队列依次使用,利用ip池访问网页并将scrapy爬取转移到items的数据存入到数据库)

    学习目标: Python学习二十七-简单数据抓取七 学习内容: 1.采取蘑菇API代理设置scrapy的代理IP池并利用redis形成队列依次使用 2.利用ip池访问网页并将scrapy爬取转移到it ...

  6. python—简单数据抓取四(利用超级鹰的ocr识别图片验证码模拟登录超级鹰网站、利用百度云的ocr识别自如租房网价格图片获取到自如网的价格)

    学习目标: python学习二十四 -简单数据抓取四 学习内容: 1.利用超级鹰的ocr识别图片验证码模拟登录超级鹰网站 2.利用百度云的ocr识别自如租房网的价格图片,获取到自如网的价格数据 1.利 ...

  7. python 爬虫 数据抓取的三种方式

    python 爬虫   数据抓取的三种方式 常用抽取网页数据的方式有三种:正则表达式.Beautiful Soup.lxml 1.正则表达式 正则表达式有个很大的缺点是难以构造.可读性差.不易适用未来 ...

  8. python爬取toefl_spark学习进度6-Python爬取数据的四个简单实例

    今天本来想把昨天安装的intellij配置好,但是一直显示没有网络,网上查了相关资料也没有查出来解决办法. 然后暂停了intellij的配置,开始做了几个Python爬取简单数据的实例,先做了几个最简 ...

  9. 豆瓣新书速递数据爬取与简单数据处理 | 豆瓣爬虫 python pandas

    豆瓣新书速递数据爬取与简单数据处理 概要 数据爬取 爬取豆瓣平台提供的数据,存储到本地 json 文件. 数据说明 URL 豆瓣新书速推 HTML https://book.douban.com/la ...

最新文章

  1. sae python连接mysql_SAE Tornado 应用连接并使用 Mysql
  2. 工业用微型计算机(22)-指令系统(18)
  3. java对象持久化技术_Java对象持久化技术Hibernate 一
  4. Hosts 文件切换工具
  5. python爬公众号文章_python爬取指定微信公众号文章
  6. CANalyzer添加dbc文件
  7. 操作系统实验Lab 2:system calls(MIT 6.S081 FALL 2020)
  8. 面向后端的前端技术分享
  9. 如何在Android上安装LineageOS
  10. privilege权限级别的命令介绍及实例分析
  11. Ant下载安装及使用详解
  12. CentOS 安装 Xware 迅雷远程下载程序
  13. 读书笔记 ——《系统程序员成长计划》篇4:拥抱变化
  14. 中医大计算机考试题目,中医大计算机复习题-20210319205538.docx-原创力文档
  15. 苦难是人生最好的老师
  16. 130 余个相见恨晚的超实用网站
  17. 【web安全】——floor报错注入
  18. c:一个长方体表面积体积的计算
  19. JavaWeb新闻发布系统案例08——完结篇
  20. win怎么在计算机里按日期搜索文件,小编教你在Win10系统电脑中设置搜索内容日期范围的小技巧...

热门文章

  1. BadUSB制作教程
  2. bluestacks安装安卓引擎时出现2502 2503错误的解决办法
  3. PHP与ECMP,ECMP等价多路径路由(与PCC区别)
  4. Gitlab学习笔记--开发代码提交处理流程
  5. 2022年化工自动化控制仪表作业考试题库及化工自动化控制仪表实操考试视频
  6. win下ssh指定密码登陆
  7. Linux的NTP配置总结
  8. 关于C/C++左移右移运算符的总结
  9. Pytorch实现卷积运算(互相关)
  10. 西门子PPI协议转成OPC协议