学习目标：

python学习二十三 —数据抓取三、

学习内容：

1、简单IP地址代理
2、利用蘑菇代理实现IP地址代理刷新本地ip地址
3、利用蘑菇代理实现IP地址代理抓取安居客信息并实现多线程

1、简单IP地址代理

import requests
from lxml import etree# 代理IP地址
proxy = {"http": "代理ip:端口号"}headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}source = requests.get('http://2021.ip138.com/', headers=headers, proxy=proxy).text
demo = etree.HTML(source).xpath('/html/body/p[1]/a/text()')
content = etree.HTML(source).xpath('/html/body/p[1]/text()[2]')
print(demo)
print(content)

2、利用蘑菇代理实现IP地址代理刷新本地ip地址

import requests
from lxml import etree# 蘑菇代理的隧道订单
appKey = "Nk1WTVBqODJDMlVmOWdkRDp5cGY2SWo0RGJzZGYzNnow"
# 蘑菇隧道代理服务器地址
ip_port = 'secondtransfer.moguproxy.com:9001'
# 代理IP地址
proxy = {"http": "http://" + ip_port, "https": "https://" + ip_port}headers = {"Proxy-Authorization": 'Basic ' + appKey,"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0","Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4"
}source = requests.get('http://2021.ip138.com/', headers=headers, proxies=proxy,verify=False,allow_redirects=False).text
demo = etree.HTML(source).xpath('/html/body/p[1]/a/text()')
content = etree.HTML(source).xpath('/html/body/p[1]/text()[2]')
print(demo)
print(content)
多次输出结果不同：
['106.35.173.120']
['] 来自：中国内蒙古包头 电信\n']
['223.242.246.60']
['] 来自：中国安徽淮南田家庵区 电信\n']

3、利用蘑菇代理实现IP地址代理抓取安居客信息并实现多线程

import requests
from lxml import etree
from multiprocessing import Pool
import re
# 蘑菇代理的隧道订单
appKey = "Nk1WTVBqODJDMlVmOWdkRDp5cGY2SWo0RGJzZGYzNnow"
# 蘑菇隧道代理服务器地址
ip_port = 'secondtransfer.moguproxy.com:9001'
# 代理IP地址
proxy = {"http": "http://" + ip_port, "https": "https://" + ip_port}headers = {"Proxy-Authorization": 'Basic ' + appKey,"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0","Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4"
}lists = ['xiqing', 'tanggu', 'nankai', 'jinnan', 'wuqing', 'hedong', 'hexi', 'dongli']for i in range(8):def index(page):source = requests.get('https://tianjin.anjuke.com/sale/jinnan/' + str(lists[i]) + '/p' + str(page) + '/?from=SearchBar', headers=headers, proxies=proxy, verify=False, allow_redirects=False).textname = etree.HTML(source).xpath('//*[@id="__layout"]/div/section/section[3]/section[1]/section[2]/div/a/div[2]/div[1]/div[1]/h3/text()')content1 = "".join(etree.HTML(source).xpath('//*[@id="__layout"]/div/section/section[3]/section[1]/section[2]/div/a/div[2]/div[1]/section/div[1]/p[1]/span/ text()'))content2 = etree.HTML(source).xpath('// *[ @ id = "__layout"]/div/section/section[3]/section[1]/section[2]/div/a/div[2]/div[1]/section/div[2]/p/text()')content3 = (etree.HTML(source).xpath('//*[@id="__layout"]/div/section/section[3]/section[1]/section[2]/div/a/div[2]/div[1]/section/div[3]/span/text()'))print(lists[i])print(name)print(content1.replace('卫', '卫，'))print(content2)print(content3)print('===========当前在第' + str(page) + '页=================')if __name__ == '__main__':p = Pool(1)for page in range(1, 51):p.apply_async(index, args=(page,))print('Waiting for all subprocesses done...')p.close()p.join()print('All subprocesses done.')

python—简单数据抓取三（简单IP地址代理、利用蘑菇代理实现IP地址代理刷新本地ip地址、利用蘑菇代理实现IP地址代理抓取安居客信息并实现多线程）相关推荐

爬虫数据存储到数据库/增量爬虫+多级页面获取=====安居客信息爬取
文章目录前言一.增量爬虫是什么? 二.python数据存储到数据库三.多级页面的跳转获取四:遇到的问题以及解决五:代码总结前言:这次的爬取内容是安居客网页里面的信息,首先是我爬取的页面是 ...
Python爬虫实战-详细讲解爬取安居客房价数据
最近在尝试用python爬取安居客房价数据,在这里给需要的小伙伴们提供代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本数据爬取的 ...
python输出数据到excel-python实现数据导出到excel的示例
这篇文章主要介绍了关于python实现数据导出到excel的示例,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下此文是在django框架下编写,从数据库中获取数据使用的是django- ...
python输出数据到excel-python实现数据导出到excel的示例--普通格式
此文是在django框架下编写,从数据库中获取数据使用的是django-orm 用python导出数据到excel,简单到爆!(普通的excel格式) 安装xlwt pip install xlwt ...
python—简单数据抓取七（采取蘑菇API代理设置scrapy的代理IP池并利用redis形成队列依次使用，利用ip池访问网页并将scrapy爬取转移到items的数据存入到数据库）
学习目标: Python学习二十七-简单数据抓取七学习内容: 1.采取蘑菇API代理设置scrapy的代理IP池并利用redis形成队列依次使用 2.利用ip池访问网页并将scrapy爬取转移到it ...
python—简单数据抓取四（利用超级鹰的ocr识别图片验证码模拟登录超级鹰网站、利用百度云的ocr识别自如租房网价格图片获取到自如网的价格）
学习目标: python学习二十四 -简单数据抓取四学习内容: 1.利用超级鹰的ocr识别图片验证码模拟登录超级鹰网站 2.利用百度云的ocr识别自如租房网的价格图片,获取到自如网的价格数据 1.利 ...
python 爬虫数据抓取的三种方式
python 爬虫数据抓取的三种方式常用抽取网页数据的方式有三种:正则表达式.Beautiful Soup.lxml 1.正则表达式正则表达式有个很大的缺点是难以构造.可读性差.不易适用未来 ...
python爬取toefl_spark学习进度6-Python爬取数据的四个简单实例
今天本来想把昨天安装的intellij配置好,但是一直显示没有网络,网上查了相关资料也没有查出来解决办法. 然后暂停了intellij的配置,开始做了几个Python爬取简单数据的实例,先做了几个最简 ...
豆瓣新书速递数据爬取与简单数据处理 | 豆瓣爬虫 python pandas
豆瓣新书速递数据爬取与简单数据处理概要数据爬取爬取豆瓣平台提供的数据,存储到本地 json 文件. 数据说明 URL 豆瓣新书速推 HTML https://book.douban.com/la ...

python—简单数据抓取三（简单IP地址代理、利用蘑菇代理实现IP地址代理刷新本地ip地址、利用蘑菇代理实现IP地址代理抓取安居客信息并实现多线程）

学习目标：

python学习二十三 —数据抓取三、

学习内容：

1、简单IP地址代理

2、利用蘑菇代理实现IP地址代理刷新本地ip地址

3、利用蘑菇代理实现IP地址代理抓取安居客信息并实现多线程

python—简单数据抓取三（简单IP地址代理、利用蘑菇代理实现IP地址代理刷新本地ip地址、利用蘑菇代理实现IP地址代理抓取安居客信息并实现多线程）相关推荐

最新文章

热门文章