#3601
#coded by 伊玛目的门徒
import re
import requests
import time
from bs4 import BeautifulSoup
import pandas as pdurllist=[]
titlelist=[]list0=[]
start = time.clock()  # 计时-开始from concurrent.futures import ThreadPoolExecutorheader={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.XXXX.XXX Safari/537.36'}def do(i):try:cd=[]html=requests.get('http://www.zcfudao.com/article/qyjs/p'+str(i)+'.html',headers=header)html.encoding='utf-8'#print (html.text)Soup = BeautifulSoup(html.text, "lxml")#ab=Soup.select('li a[target="_blank"]')ab=Soup.select('tr')[1:]#print (ab)for x in ab:#print (x)list0.append(x)print (i)list1.remove(i)except:pass# 多线程
def multithreading():sum=0while len(list1)>0:with ThreadPoolExecutor(max_workers=10) as executor:for result in executor.map(do, list1):sum+=1return sumlist1=list(range(1,3602,1))sum=multithreading()
print ('还剩下{}页'.format(list1))end = time.clock()  # 计时-结束
print (("爬取完成 用时:"))
print ((end - start))print ('总爬取 %d 页 '%(sum))num=[]
nam=[]
pname=[]
year_t=[]
money=[]
type0=[]for thing in list0:thing=list(thing)#print (thing)if len(thing)==0:passelse:num.append(thing[1])nam.append(thing[3])pname.append(thing[5])year_t.append(thing[7])money.append(thing[9])type0.append(thing[11])df=pd.DataFrame({'num':num,'nam':nam,'pname':pname,
'year_t':year_t,
'money':money,
'type0':type0})print (df)df.to_excel('2.xlsx', index=False)'''#可作为TXT输出
with open("test.txt","w") as f:for thing in list0:f.write(str(thing))f.write('\r\n')'''

python多线程采集高新技术企业名录相关推荐

  1. python 多线程采集amac

    本文用到的知识点 通过requests发送POST请求,参数以request payload方式进行传输 时间戳转为格式化日期 通过openpyxl 将数据保存为excel 使用multiproces ...

  2. 谁有粉?就爬谁!他粉多,就爬他!Python 多线程采集 260000+ 粉丝数据

    今天你想爬谁的粉呢? 谁粉多,就爬谁. 那谁有粉? 沉默王二有粉. 今天咱们继续学习 Python 爬虫,从本篇博客开始进行短暂的(15 篇)多线程爬虫学习. 第一篇就要采集 大佬@沉默王二 的粉丝, ...

  3. Python批量采集商品数据并使用多线程(含完整源码)

    前言 嗨喽,大家好,这里是魔王~ 本次目的: Python批量采集商品数据 知识点: 爬虫基本流程 非结构化数据解析 csv数据保存 线程池的使用 开发环境: python 3.8 pycharm r ...

  4. python爬虫框架:scrapy抓取企业名录

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  5. python 爬取企业注册信息_python爬取企业名录

    爬取企业名录然后存储到数据库中. #-*- coding:utf-8 -*- import requests import MySQLdb import re from bs4 import Beau ...

  6. python爬取企业名录

    爬取企业名录然后存储到数据库中. #-*- coding:utf-8 -*- import requests import MySQLdb import re from bs4 import Beau ...

  7. Python 多线程抓取网页 牛人 use raw socket implement http request great

    Python 多线程抓取网页 - 糖拌咸鱼 - 博客园 Python 多线程抓取网页 最近,一直在做网络爬虫相关的东西. 看了一下开源C++写的larbin爬虫,仔细阅读了里面的设计思想和一些关键技术 ...

  8. python多线程爬虫实例-Python实现多线程爬虫

    编辑推荐: 本文主要介绍对Python多线程爬虫实战的整体的思路,希望对大家有帮助. 本文来知乎,由火龙果软件Alice编辑,推荐. 最近在写爬虫程序爬取亚马逊上的评论信息,因此也自学了很多爬虫相关的 ...

  9. python多线程加锁异步处理装饰器

    2019独角兽企业重金招聘Python工程师标准>>> 前言: 虽谈python多线程带有全局锁PIL,似乎对性能提升没什么意义,一般考虑多进程或者协程,但PIL没有被去掉还是应该有 ...

最新文章

  1. 论机器学习领域的内卷
  2. php5模块怎么下载,centos源码编译php5 mcrypt模块步骤详解
  3. 【转】ABAP的坑5
  4. makefile问题
  5. CG CTF WEB md5 collision
  6. Innodb存储引擎的特性(1).
  7. python3捕获异常_python中异常捕获方法详解
  8. 如何在Word里面自动生成目录
  9. 【数字逻辑设计】Logisim构建四位行波进位加法器
  10. 如何将32 x 32像素图标转换为16 x 16像素值的图标
  11. mybatis mysql net教程_MyBatis 教程
  12. 【天锐绿盾】之常见问题处理:控制台登录提示采集服务器空间不足,修改数据保存时间
  13. idea格式化代码小技巧
  14. conda 转载自 生信技能树
  15. java超市运行程序源代码_Java课程设计超市库存管理系统附源代码可以直接运行...
  16. 2021-07-15-2021年全球10大最佳单板计算机开发板(SBC)(第1-3名)
  17. IDEA标签栏多行显示设置
  18. rono在oracle的作用_oracle分区表有什么作用
  19. 解决中文乱码的一些心得
  20. cisco IOS,nexus和Arista 的vrrp

热门文章

  1. QQ小程序平台接入遇到的坑
  2. FQDN and NetBios
  3. Vue学习 — Vue响应式原理
  4. 图片各种格式的区别以及计算机如何存储图片
  5. unity 双屏,一个UI控制,一个展示
  6. 腾讯七夕出情侣宠物蛋
  7. 有关于联想电脑的无线开启功能
  8. 基于javaweb的图书进销存管理系统(java+ssm+jsp+bootstrap+mysql)
  9. adb工具包环境变量配置
  10. 微信登录,qq登录,微博登录之 tp3.2