python3爬取中国药学科学数据
今天我表弟说帮忙爬一下中国药学科学数据,导出json格式给他。一共18万条数据。
看了一下网站http://pharm.ncmi.cn/dataContent/admin/index.jsp?submenu=183
竟然get请求。不爬你爬谁。。。
#/usr/bin/env python
#Guoyabin
#-*- coding:utf-8 -*-
import re,requests,threading,time
def inserttxt(file,text):f=open(file,'a+')f.write(text)f.close()def down(begin,end):url='http://pharm.ncmi.cn/dataContent/dataSearch.do'for i in range(begin,end):file=str(end)+'.txt'params={'method':'viewpage','id':i,'did':26}try:html=requests.get(url,params=params,timeout=60)r=html.text.replace("\r","")html.close()r=r.replace("\n","")r=r.replace("\t","")r=r.replace(">","")req='width="89%">(.*?) </td>'yaovalue=re.findall(req,r)yaokey=['{\nname:"','",\nenglish:"','",\nnumber:"','",\nshanpinmingchen:"','",\ndanwei:"','",\ndate:"','",\nclass:"','",\nguige:"','",\njixing:"','",\nleibie:"','",\npizhun:"']yao=zip(yaokey,yaovalue)for i in yao:for x in i:inserttxt(file,x)inserttxt(file,'"\n},\n')#休息3秒在爬,原来没有休息。导致大量TCP连接。且对方直接封我ip。#18万条数据/10线程*3秒等待/60秒/60分=15个小时拿完对方数据。不如改一下程序,多台独立IP电脑运行了。time.sleep(3)except:print('url访问失败')continueif __name__=='__main__':t1=threading.Thread(target=down,args=(2228,20000,))t1.start()t2=threading.Thread(target=down,args=(20000,40000,))t2.start()t3=threading.Thread(target=down,args=(40000,60000,))t3.start()t4=threading.Thread(target=down,args=(60000,80000,))t4.start()t5=threading.Thread(target=down,args=(80000,100000,))t5.start()t6=threading.Thread(target=down,args=(100000,120000,))t6.start()t7=threading.Thread(target=down,args=(120000,140000,))t7.start()t8=threading.Thread(target=down,args=(140000,160000,))t8.start()t9=threading.Thread(target=down,args=(16000,180000,))t9.start()t10=threading.Thread(target=down,args=(18000,183662,))t10.start()t10.join()input('已经下载完,按回车退出')
开始运行了几次没问题,已经爬下一半了,过了一会直接被封了。可能爬的太快了。容我做个悲伤的表情。
无耻的求一下赞助
转载于:https://www.cnblogs.com/guoyabin/p/7150972.html
python3爬取中国药学科学数据相关推荐
- Python3爬取汽车目标经销商数据
Python3爬取汽车目标经销商数据 本文采用Python3进行语法编写,Python3与Python2中的函数会有所不同,但是相差不大,具体的问题可以百度找到,因有朋友在做汽车方面的业务,因此需要一 ...
- 用Python爬取中国各省GDP数据
介绍 在数据分析和经济研究中,了解中国各省份的GDP数据是非常重要的.然而,手动收集这些数据可能是一项繁琐且费时的任务.幸运的是,Python提供了一些强大的工具和库,使我们能够自动化地从互联网上爬取 ...
- java 使用Jsoup 爬取 中国政府采购网数据
int isSize = 1; Integer pageSize = 0; Integer timeType = 4; // 时间类型 6: 指定时间 5:近半年 0:今日 4:近3月 public ...
- 使用python爬取中国电影票房数据并写入csv文件
环境 PyCharm 2021.1.2 x64 爬取的目标网页 一.代码 import requests from bs4 import BeautifulSoup url = "http: ...
- 通过win32api与win32con模拟按键精灵爬取中国商标网数据
# -*- coding: utf-8 -*- # Author: Yakuho # Date : 2019/8/8 import asyncio import os import time impo ...
- Scrapy爬取中国地震台网1年内地震数据
目标设定 爬取中国地震台网地震数据,并录入Mysql,一次全量爬取,后续增量爬取 前期准备 分析请求路径 通过访问中国地震台网查询地震数据-http://www.ceic.ac.cn/speedsea ...
- Python3爬取OpenStreetMap平台的城市道路交通网数据
Python3 爬取OpenStreetMap平台的城市道路交通网数据 前言 思路 代码 效果 结语 前言 论文需要城市道路信息数据,OpenStreetMap平台是一个开源免费的全球地图信息平台,但 ...
- python3爬取网页数据学习笔记——XPath篇
数据来源网站:2016中国企业500强排行榜(完整名单)→买购网 (maigoo.com) 参考资料:python3 爬取网页表格例子_快乐糖果屋的博客-CSDN博客 右键数据部分,选择检查 观察到需 ...
- 爬取中国最好大学网数据(Python的Scrapy框架与Xpath联合运用)
前言 大二上学期学校外出实习,做了一个关于爬取中国最好大学网http://www.zuihaodaxue.com/rankings.html的项目用的这个Scrapy框架,多线程还挺好用 ...
最新文章
- BZOJ1702: [Usaco2007 Mar]Gold Balanced Lineup 平衡的队列
- 面向技术编程,面向工资编程,面向用户编程?
- js更改html元素颜色,HTML - 使用JS根据值更改文本的颜色
- 保证相同类型的MDI子窗体只会被打开一次的方法
- Console-算法[for]-穷举法:百钱买百鸡
- 回顾 | 使用Visual Studio Code进行端到端应用程序开发
- Problem D: 顺序串的基本运算
- ARM:下一代架构也将继续供给华为
- ubuntu无法登陆mysql_ubuntu11.04mysql报错、无法正常工作、无法登陆mysql
- Win10下python不同版本同时安装并解决pip共存问题
- 解决 ‘Response‘ object has no attribute ‘body‘
- 《重构-改善既有代码的设计》——读后总结
- js打印服务器文件,用Electron / Node.js编写的打印服务器
- 【MFC】多线程同步—事件
- 7.2 HAVING子句
- 几率大的多线程面试题(含答案)
- Caused by: java.lang.IllegalStateException: Process 9461 exceeded cursor quota 100, will kill it
- 如何打造自动驾驶的数据闭环?
- 如何在云服务器上部署程序
- 鸿蒙内核手机,华为和安卓说再见,推出鸿蒙内核手机,不再更新安卓
热门文章
- 客户端与服务器端的认证方式(cookie,token,session)
- 终止正在运行的VBS脚本
- java图片色差_java – JPEG图像的颜色错误
- java holder_Java DataHolder.supports方法代码示例
- 【Python】Python中文编码
- Android 自定义拍照,解决图片旋转,拍照参数设置兼容问题
- 解决 Chrome 下载不了东西 失败 - 已屏蔽 的问题
- usr / bin / ld:找不到-l <nameOfTheLibrary>
- win11虚拟内存如何设置 Windows11设置虚拟内存的步骤方法
- MTK:内存管理机制简单分析