python多线程采集高新技术企业名录

#3601
#coded by 伊玛目的门徒
import re
import requests
import time
from bs4 import BeautifulSoup
import pandas as pdurllist=[]
titlelist=[]list0=[]
start = time.clock()  # 计时-开始from concurrent.futures import ThreadPoolExecutorheader={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.XXXX.XXX Safari/537.36'}def do(i):try:cd=[]html=requests.get('http://www.zcfudao.com/article/qyjs/p'+str(i)+'.html',headers=header)html.encoding='utf-8'#print (html.text)Soup = BeautifulSoup(html.text, "lxml")#ab=Soup.select('li a[target="_blank"]')ab=Soup.select('tr')[1:]#print (ab)for x in ab:#print (x)list0.append(x)print (i)list1.remove(i)except:pass# 多线程
def multithreading():sum=0while len(list1)>0:with ThreadPoolExecutor(max_workers=10) as executor:for result in executor.map(do, list1):sum+=1return sumlist1=list(range(1,3602,1))sum=multithreading()
print ('还剩下{}页'.format(list1))end = time.clock()  # 计时-结束
print (("爬取完成 用时："))
print ((end - start))print ('总爬取 %d 页 '%(sum))num=[]
nam=[]
pname=[]
year_t=[]
money=[]
type0=[]for thing in list0:thing=list(thing)#print (thing)if len(thing)==0:passelse:num.append(thing[1])nam.append(thing[3])pname.append(thing[5])year_t.append(thing[7])money.append(thing[9])type0.append(thing[11])df=pd.DataFrame({'num':num,'nam':nam,'pname':pname,
'year_t':year_t,
'money':money,
'type0':type0})print (df)df.to_excel('2.xlsx', index=False)'''#可作为TXT输出
with open("test.txt","w") as f:for thing in list0:f.write(str(thing))f.write('\r\n')'''

python多线程采集高新技术企业名录相关推荐

python 多线程采集amac
本文用到的知识点通过requests发送POST请求,参数以request payload方式进行传输时间戳转为格式化日期通过openpyxl 将数据保存为excel 使用multiproces ...
谁有粉？就爬谁！他粉多，就爬他！Python 多线程采集 260000+ 粉丝数据
今天你想爬谁的粉呢? 谁粉多,就爬谁. 那谁有粉? 沉默王二有粉. 今天咱们继续学习 Python 爬虫,从本篇博客开始进行短暂的(15 篇)多线程爬虫学习. 第一篇就要采集大佬@沉默王二的粉丝, ...
Python批量采集商品数据并使用多线程（含完整源码）
前言嗨喽,大家好,这里是魔王~ 本次目的: Python批量采集商品数据知识点: 爬虫基本流程非结构化数据解析 csv数据保存线程池的使用开发环境: python 3.8 pycharm r ...
python爬虫框架：scrapy抓取企业名录
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
python 爬取企业注册信息_python爬取企业名录
爬取企业名录然后存储到数据库中. #-*- coding:utf-8 -*- import requests import MySQLdb import re from bs4 import Beau ...
python爬取企业名录
爬取企业名录然后存储到数据库中. #-*- coding:utf-8 -*- import requests import MySQLdb import re from bs4 import Beau ...
Python 多线程抓取网页牛人　use raw socket implement http request great
Python 多线程抓取网页 - 糖拌咸鱼 - 博客园 Python 多线程抓取网页最近,一直在做网络爬虫相关的东西. 看了一下开源C++写的larbin爬虫,仔细阅读了里面的设计思想和一些关键技术 ...
python多线程爬虫实例-Python实现多线程爬虫
编辑推荐: 本文主要介绍对Python多线程爬虫实战的整体的思路,希望对大家有帮助. 本文来知乎,由火龙果软件Alice编辑,推荐. 最近在写爬虫程序爬取亚马逊上的评论信息,因此也自学了很多爬虫相关的 ...
python多线程加锁异步处理装饰器
2019独角兽企业重金招聘Python工程师标准>>> 前言: 虽谈python多线程带有全局锁PIL,似乎对性能提升没什么意义,一般考虑多进程或者协程,但PIL没有被去掉还是应该有 ...

python多线程采集高新技术企业名录

python多线程采集高新技术企业名录相关推荐

最新文章

热门文章