[Python] 纯文本查看 复制代码#-*- coding:utf-8 -*-

import requests

from lxml import etree

import json

import time

import random

from copy import deepcopy

class Tianyan():

def __init__(self):

self.url = 'https://www.tianyancha.com/search/ola3/p{}?key=%E6%B2%A7%E5%8E%BF%E5%A1%91%E6%96%99'

self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36",

'Cookie':'TYCID=ac1dfec0298b11e896d65952088acd0e; undefined=ac1dfec0298b11e896d65952088acd0e; ssuid=5431237103; RTYCID=a9b338e6798d4eb39fef9257fd6b9b9d; aliyungf_tc=AQAAAMBzHiKiTwgAqo/Y3f5KVHsxjcZG; csrfToken=oqv83ZlWDQkY1v32arJAja4V; jsid=SEM-BAIDU-PP-SY-000214; Hm_lvt_e92c8d65d92d534b0fc290df538b4758=1522481067,1522487432,1522586369,1522586370; bannerFlag=true; tyc-user-info=%257B%2522token%2522%253A%2522eyJhbGciOiJIUzUxMiJ9.eyJzdWIiOiIxNTUzMDQ0OTM4OSIsImlhdCI6MTUyMjU4NjcxMywiZXhwIjoxNTM4MTM4NzEzfQ.lvI-NEDnqyN7eN_V4FFvMnsmf_2S8LvEr79r3xVutqXuIJ1F4VAkQk9DXasWiE9eC2dKGUsBG7ZyHSJpuuq-iw%2522%252C%2522integrity%2522%253A%25220%2525%2522%252C%2522state%2522%253A%25220%2522%252C%2522redPoint%2522%253A%25220%2522%252C%2522vipManager%2522%253A%25220%2522%252C%2522vnum%2522%253A%25220%2522%252C%2522onum%2522%253A%25220%2522%252C%2522mobile%2522%253A%252215530449389%2522%257D; auth_token=eyJhbGciOiJIUzUxMiJ9.eyJzdWIiOiIxNTUzMDQ0OTM4OSIsImlhdCI6MTUyMjU4NjcxMywiZXhwIjoxNTM4MTM4NzEzfQ.lvI-NEDnqyN7eN_V4FFvMnsmf_2S8LvEr79r3xVutqXuIJ1F4VAkQk9DXasWiE9eC2dKGUsBG7ZyHSJpuuq-iw; Hm_lpvt_e92c8d65d92d534b0fc290df538b4758=1522586767'}

def get_url_list(self):

url_list = []

for i in range(1,6):

url = self.url.format(i)

url_list.append(url)

return url_list

def parse_url(self,url):

resp = requests.get(url,headers=self.headers)

response = resp.content.decode()

resp_html = etree.HTML(response)

div_list = resp_html.xpath("//div[@class='b-c-white search_result_container']/div")

url_content_list = []

for div in div_list:

item = {}

id = div.xpath('./@data-id')[0]

item['注册时间'] = div.xpath(".//div[@class='title overflow-width'][3]/span/text()")[0]

item['url_content'] = 'https://www.tianyancha.com/company/'+ id

url_content_list.append(item)

return url_content_list

def parse_content(self,url_content_list):

content_list = []

for item in url_content_list:

url = item['url_content']

resp = requests.get(url,headers=self.headers)

response = resp.content.decode()

resp_html = etree.HTML(response)

item['公司名字'] = resp_html.xpath("//span[@class='f18 in-block vertival-middle sec-c2']/text()")

item['地址'] = resp_html.xpath("//span[@class='in-block overflow-width vertical-top']/text()")

item['经营范围'] = resp_html.xpath("//span[@class='js-full-container ']//text()")

item['法人'] = resp_html.xpath("//div[@class='f18 overflow-width sec-c3']//text()")

item['注册号'] = resp_html.xpath("//table[@class='table companyInfo-table f14']/tbody/tr[1]/td[2]/text()")

print(item)

content_list.append(item)

return content_list

def save_content(self,content_list):

with open('信息.txt','a+') as f:

for content in content_list:

f.write(json.dumps(content,ensure_ascii=False))

f.write('\n')

def run(self):

url_list = self.get_url_list()

for url in url_list:

print(url)

url_content_list = self.parse_url(url)

content_list = self.parse_content(url_content_list)

self.save_content(content_list)

if __name__ == '__main__':

# login = Tylogin()

# login.get_login()

tianyan = Tianyan()

tianyan.run()

python天眼查爬虫_普通用户的天眼查爬取相关推荐

  1. Python实践 - 网络爬虫笔记 - 2、从网站上爬取公开信息

    Python实践笔记 - 2.从网站上爬取公开信息 张板书的Python的实践笔记,包括笔记与DeBug的经历. 为了完成一个比较麻烦的实习任务,尝试着做了这样一个爬虫项目. 任务要求之一是要检索安徽 ...

  2. java 动态爬虫_用selenium(Java)爬取b站up的动态

    新人第一次发文,请多多指教. selenium设计目的是进行自动化测试,但是很显然这样的功能同样是爬虫所需要的.本文介绍如何用selenium爬取b站up动态. 无意中发现有很多up在动态中发布一些奇 ...

  3. java爬虫_从腾讯视频播放界面爬取视频并存到本地

    源码如下: package com.example.demo.test.db;import org.apache.commons.lang.RandomStringUtils;import java. ...

  4. python人人贷爬虫_爬取人人贷网上部分借贷信息以及数据可视化

    一.主题式网络爬虫设计方案:爬取人人贷网上部分借贷信息 1.主题式网络爬虫名称:爬取人人贷网上部分信息 2.主题式网络爬虫的内容与数据特征分析:爬取人人贷部分信息数据,借贷信息 3.主题式网络爬虫设计 ...

  5. Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片

    Python爬虫:运用多线程.IP代理模块爬取百度图片上小姐姐的图片 1.爬取输入类型的图片数量(用于给用户提示) 使用过百度图片的读者会发现,在搜索栏上输入关键词之后,会显示出搜索的结果,小编想大多 ...

  6. Python爬虫系列之抖音热门视频爬取

    Python爬虫系列之抖音热门视频爬取 主要使用requests库以及手机抓包工具去分析接口 该demo仅供参考,已经失效,需要抖音2019年5月最新所有接口请点击这里获取 抖音资源获取接口文档请点击 ...

  7. python网页爬虫漫画案例_Python爬虫-用Scrapy框架实现漫画的爬取

    14.jpg 在之前一篇抓取漫画图片的文章里,通过实现一个简单的Python程序,遍历所有漫画的url,对请求所返回的html源码进行正则表达式分析,来提取到需要的数据. 本篇文章,通过 scrapy ...

  8. Python爬虫之豆瓣电影评论数据的爬取(十四)

    原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080 本次代码的环境: 运行平台: Windows Python版本: ...

  9. python爬虫网络数据包_Python爬虫之多线程图虫网数据爬取(十六)

    Python爬虫之多线程图虫网数据爬取(十六) 发布时间:2019-05-14 10:11, 浏览次数:289 , 标签: Python 原创不易,转载前请注明博主的链接地址:Blessy_Zhu h ...

最新文章

  1. 基于SAAS模式的报销管理系统!
  2. 《C++面向对象高效编程(第2版)》——3.13 采用语义
  3. java 过滤掉相同请求_java并发访问重复请求过滤问题
  4. 3.1.2 内存管理的概念
  5. C/Cpp / 如何定义一个只能在堆上(栈上)生成对象的类?
  6. QT的foreach用法
  7. 如何使用弱网环境来验证游戏中的一些延迟问题
  8. 网红店主质疑拼多多销售假冒货品 官方:均为正品 再遭恶意污蔑
  9. 得到星期的sql语句和得到月末的sql语句
  10. NGUI学习笔记汇总
  11. 百度人脸识别,一次耗时600毫秒
  12. PGSQL触发器实例
  13. conver Json to map by fastJson
  14. 无货源开店已确认违法
  15. Java实现语音阅读功能开发(输入文字,转语音播放)
  16. 人脸识别考勤 Android 课程设计
  17. Hello ......
  18. gradient设置上下渐变_CSS3 渐变
  19. mysql中高阶玩法系列(九)
  20. 无尽长廊(Gallery)

热门文章

  1. criterion of IMAP4.search 限制规范
  2. 经济应用文写作【11】
  3. 服务器raid5阵列修复,RAID5磁盘阵列的安装与故障修复
  4. 【精品计划0】蓝桥杯 摔手机
  5. 这几款视频语音转文字软件你值得拥有
  6. samba 配置文件详解
  7. ae导出html,动画还原100%-AE一键导出
  8. WPS公式编辑器的MTExtra字体无效,将无法显示和打印某些字符
  9. wps去除登陆_WPS强制用户登录功能,这是要闹哪样?
  10. Deep Learning Chapter02:Python基础语法回顾