python天眼查爬虫_普通用户的天眼查爬取

[Python] 纯文本查看复制代码#-*- coding:utf-8 -*-

import requests

from lxml import etree

import json

import time

import random

from copy import deepcopy

class Tianyan():

def __init__(self):

self.url = 'https://www.tianyancha.com/search/ola3/p{}?key=%E6%B2%A7%E5%8E%BF%E5%A1%91%E6%96%99'

self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36",

'Cookie':'TYCID=ac1dfec0298b11e896d65952088acd0e; undefined=ac1dfec0298b11e896d65952088acd0e; ssuid=5431237103; RTYCID=a9b338e6798d4eb39fef9257fd6b9b9d; aliyungf_tc=AQAAAMBzHiKiTwgAqo/Y3f5KVHsxjcZG; csrfToken=oqv83ZlWDQkY1v32arJAja4V; jsid=SEM-BAIDU-PP-SY-000214; Hm_lvt_e92c8d65d92d534b0fc290df538b4758=1522481067,1522487432,1522586369,1522586370; bannerFlag=true; tyc-user-info=%257B%2522token%2522%253A%2522eyJhbGciOiJIUzUxMiJ9.eyJzdWIiOiIxNTUzMDQ0OTM4OSIsImlhdCI6MTUyMjU4NjcxMywiZXhwIjoxNTM4MTM4NzEzfQ.lvI-NEDnqyN7eN_V4FFvMnsmf_2S8LvEr79r3xVutqXuIJ1F4VAkQk9DXasWiE9eC2dKGUsBG7ZyHSJpuuq-iw%2522%252C%2522integrity%2522%253A%25220%2525%2522%252C%2522state%2522%253A%25220%2522%252C%2522redPoint%2522%253A%25220%2522%252C%2522vipManager%2522%253A%25220%2522%252C%2522vnum%2522%253A%25220%2522%252C%2522onum%2522%253A%25220%2522%252C%2522mobile%2522%253A%252215530449389%2522%257D; auth_token=eyJhbGciOiJIUzUxMiJ9.eyJzdWIiOiIxNTUzMDQ0OTM4OSIsImlhdCI6MTUyMjU4NjcxMywiZXhwIjoxNTM4MTM4NzEzfQ.lvI-NEDnqyN7eN_V4FFvMnsmf_2S8LvEr79r3xVutqXuIJ1F4VAkQk9DXasWiE9eC2dKGUsBG7ZyHSJpuuq-iw; Hm_lpvt_e92c8d65d92d534b0fc290df538b4758=1522586767'}

def get_url_list(self):

url_list = []

for i in range(1,6):

url = self.url.format(i)

url_list.append(url)

return url_list

def parse_url(self,url):

resp = requests.get(url,headers=self.headers)

response = resp.content.decode()

resp_html = etree.HTML(response)

div_list = resp_html.xpath("//div[@class='b-c-white search_result_container']/div")

url_content_list = []

for div in div_list:

item = {}

id = div.xpath('./@data-id')[0]

item['注册时间'] = div.xpath(".//div[@class='title overflow-width'][3]/span/text()")[0]

item['url_content'] = 'https://www.tianyancha.com/company/'+ id

url_content_list.append(item)

return url_content_list

def parse_content(self,url_content_list):

content_list = []

for item in url_content_list:

url = item['url_content']

resp = requests.get(url,headers=self.headers)

response = resp.content.decode()

resp_html = etree.HTML(response)

item['公司名字'] = resp_html.xpath("//span[@class='f18 in-block vertival-middle sec-c2']/text()")

item['地址'] = resp_html.xpath("//span[@class='in-block overflow-width vertical-top']/text()")

item['经营范围'] = resp_html.xpath("//span[@class='js-full-container ']//text()")

item['法人'] = resp_html.xpath("//div[@class='f18 overflow-width sec-c3']//text()")

item['注册号'] = resp_html.xpath("//table[@class='table companyInfo-table f14']/tbody/tr[1]/td[2]/text()")

print(item)

content_list.append(item)

return content_list

def save_content(self,content_list):

with open('信息.txt','a+') as f:

for content in content_list:

f.write(json.dumps(content,ensure_ascii=False))

f.write('\n')

def run(self):

url_list = self.get_url_list()

for url in url_list:

print(url)

url_content_list = self.parse_url(url)

content_list = self.parse_content(url_content_list)

self.save_content(content_list)

if __name__ == '__main__':

# login = Tylogin()

# login.get_login()

tianyan = Tianyan()

tianyan.run()

python天眼查爬虫_普通用户的天眼查爬取相关推荐

Python实践 - 网络爬虫笔记 - 2、从网站上爬取公开信息
Python实践笔记 - 2.从网站上爬取公开信息张板书的Python的实践笔记,包括笔记与DeBug的经历. 为了完成一个比较麻烦的实习任务,尝试着做了这样一个爬虫项目. 任务要求之一是要检索安徽 ...
java 动态爬虫_用selenium（Java）爬取b站up的动态
新人第一次发文,请多多指教. selenium设计目的是进行自动化测试,但是很显然这样的功能同样是爬虫所需要的.本文介绍如何用selenium爬取b站up动态. 无意中发现有很多up在动态中发布一些奇 ...
java爬虫_从腾讯视频播放界面爬取视频并存到本地
源码如下: package com.example.demo.test.db;import org.apache.commons.lang.RandomStringUtils;import java. ...
python人人贷爬虫_爬取人人贷网上部分借贷信息以及数据可视化
一.主题式网络爬虫设计方案:爬取人人贷网上部分借贷信息 1.主题式网络爬虫名称:爬取人人贷网上部分信息 2.主题式网络爬虫的内容与数据特征分析:爬取人人贷部分信息数据,借贷信息 3.主题式网络爬虫设计 ...
Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片
Python爬虫:运用多线程.IP代理模块爬取百度图片上小姐姐的图片 1.爬取输入类型的图片数量(用于给用户提示) 使用过百度图片的读者会发现,在搜索栏上输入关键词之后,会显示出搜索的结果,小编想大多 ...
Python爬虫系列之抖音热门视频爬取
Python爬虫系列之抖音热门视频爬取主要使用requests库以及手机抓包工具去分析接口该demo仅供参考,已经失效,需要抖音2019年5月最新所有接口请点击这里获取抖音资源获取接口文档请点击 ...
python网页爬虫漫画案例_Python爬虫-用Scrapy框架实现漫画的爬取
14.jpg 在之前一篇抓取漫画图片的文章里,通过实现一个简单的Python程序,遍历所有漫画的url,对请求所返回的html源码进行正则表达式分析,来提取到需要的数据. 本篇文章,通过 scrapy ...
Python爬虫之豆瓣电影评论数据的爬取（十四）
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080 本次代码的环境: 运行平台: Windows Python版本: ...
python爬虫网络数据包_Python爬虫之多线程图虫网数据爬取（十六）
Python爬虫之多线程图虫网数据爬取(十六) 发布时间:2019-05-14 10:11, 浏览次数:289 , 标签: Python 原创不易,转载前请注明博主的链接地址:Blessy_Zhu h ...

python天眼查爬虫_普通用户的天眼查爬取

python天眼查爬虫_普通用户的天眼查爬取相关推荐

最新文章

热门文章