python3爬取中国药学科学数据

今天我表弟说帮忙爬一下中国药学科学数据，导出json格式给他。一共18万条数据。

看了一下网站http://pharm.ncmi.cn/dataContent/admin/index.jsp?submenu=183

竟然get请求。不爬你爬谁。。。

#/usr/bin/env python
#Guoyabin
#-*- coding:utf-8 -*-
import re,requests,threading,time
def inserttxt(file,text):f=open(file,'a+')f.write(text)f.close()def down(begin,end):url='http://pharm.ncmi.cn/dataContent/dataSearch.do'for i in range(begin,end):file=str(end)+'.txt'params={'method':'viewpage','id':i,'did':26}try:html=requests.get(url,params=params,timeout=60)r=html.text.replace("\r","")html.close()r=r.replace("\n","")r=r.replace("\t","")r=r.replace("&gt;","")req='width="89%">(.*?) </td>'yaovalue=re.findall(req,r)yaokey=['{\nname:"','",\nenglish:"','",\nnumber:"','",\nshanpinmingchen:"','",\ndanwei:"','",\ndate:"','",\nclass:"','",\nguige:"','",\njixing:"','",\nleibie:"','",\npizhun:"']yao=zip(yaokey,yaovalue)for i in yao:for x in i:inserttxt(file,x)inserttxt(file,'"\n},\n')#休息3秒在爬，原来没有休息。导致大量TCP连接。且对方直接封我ip。#18万条数据/10线程*3秒等待/60秒/60分=15个小时拿完对方数据。不如改一下程序，多台独立IP电脑运行了。time.sleep(3)except:print('url访问失败')continueif __name__=='__main__':t1=threading.Thread(target=down,args=(2228,20000,))t1.start()t2=threading.Thread(target=down,args=(20000,40000,))t2.start()t3=threading.Thread(target=down,args=(40000,60000,))t3.start()t4=threading.Thread(target=down,args=(60000,80000,))t4.start()t5=threading.Thread(target=down,args=(80000,100000,))t5.start()t6=threading.Thread(target=down,args=(100000,120000,))t6.start()t7=threading.Thread(target=down,args=(120000,140000,))t7.start()t8=threading.Thread(target=down,args=(140000,160000,))t8.start()t9=threading.Thread(target=down,args=(16000,180000,))t9.start()t10=threading.Thread(target=down,args=(18000,183662,))t10.start()t10.join()input('已经下载完，按回车退出')

　　开始运行了几次没问题，已经爬下一半了，过了一会直接被封了。可能爬的太快了。容我做个悲伤的表情。

无耻的求一下赞助

转载于:https://www.cnblogs.com/guoyabin/p/7150972.html

python3爬取中国药学科学数据相关推荐

Python3爬取汽车目标经销商数据
Python3爬取汽车目标经销商数据本文采用Python3进行语法编写,Python3与Python2中的函数会有所不同,但是相差不大,具体的问题可以百度找到,因有朋友在做汽车方面的业务,因此需要一 ...
用Python爬取中国各省GDP数据
介绍在数据分析和经济研究中,了解中国各省份的GDP数据是非常重要的.然而,手动收集这些数据可能是一项繁琐且费时的任务.幸运的是,Python提供了一些强大的工具和库,使我们能够自动化地从互联网上爬取 ...
java 使用Jsoup 爬取中国政府采购网数据
int isSize = 1; Integer pageSize = 0; Integer timeType = 4; // 时间类型 6: 指定时间 5:近半年 0:今日 4:近3月 public ...
使用python爬取中国电影票房数据并写入csv文件
环境 PyCharm 2021.1.2 x64 爬取的目标网页一.代码 import requests from bs4 import BeautifulSoup url = "http: ...
通过win32api与win32con模拟按键精灵爬取中国商标网数据
# -*- coding: utf-8 -*- # Author: Yakuho # Date : 2019/8/8 import asyncio import os import time impo ...
Scrapy爬取中国地震台网1年内地震数据
目标设定爬取中国地震台网地震数据,并录入Mysql,一次全量爬取,后续增量爬取前期准备分析请求路径通过访问中国地震台网查询地震数据-http://www.ceic.ac.cn/speedsea ...
Python3爬取OpenStreetMap平台的城市道路交通网数据
Python3 爬取OpenStreetMap平台的城市道路交通网数据前言思路代码效果结语前言论文需要城市道路信息数据,OpenStreetMap平台是一个开源免费的全球地图信息平台,但 ...
python3爬取网页数据学习笔记——XPath篇
数据来源网站:2016中国企业500强排行榜(完整名单)→买购网 (maigoo.com) 参考资料:python3 爬取网页表格例子_快乐糖果屋的博客-CSDN博客右键数据部分,选择检查观察到需 ...
爬取中国最好大学网数据（Python的Scrapy框架与Xpath联合运用）
前言大二上学期学校外出实习,做了一个关于爬取中国最好大学网http://www.zuihaodaxue.com/rankings.html的项目用的这个Scrapy框架,多线程还挺好用 ...

python3爬取中国药学科学数据

python3爬取中国药学科学数据相关推荐

最新文章

热门文章