今天我表弟说帮忙爬一下中国药学科学数据,导出json格式给他。一共18万条数据。

看了一下网站http://pharm.ncmi.cn/dataContent/admin/index.jsp?submenu=183

竟然get请求。不爬你爬谁。。。

#/usr/bin/env python
#Guoyabin
#-*- coding:utf-8 -*-
import re,requests,threading,time
def inserttxt(file,text):f=open(file,'a+')f.write(text)f.close()def down(begin,end):url='http://pharm.ncmi.cn/dataContent/dataSearch.do'for i in range(begin,end):file=str(end)+'.txt'params={'method':'viewpage','id':i,'did':26}try:html=requests.get(url,params=params,timeout=60)r=html.text.replace("\r","")html.close()r=r.replace("\n","")r=r.replace("\t","")r=r.replace("&gt;","")req='width="89%">(.*?) </td>'yaovalue=re.findall(req,r)yaokey=['{\nname:"','",\nenglish:"','",\nnumber:"','",\nshanpinmingchen:"','",\ndanwei:"','",\ndate:"','",\nclass:"','",\nguige:"','",\njixing:"','",\nleibie:"','",\npizhun:"']yao=zip(yaokey,yaovalue)for i in yao:for x in i:inserttxt(file,x)inserttxt(file,'"\n},\n')#休息3秒在爬,原来没有休息。导致大量TCP连接。且对方直接封我ip。#18万条数据/10线程*3秒等待/60秒/60分=15个小时拿完对方数据。不如改一下程序,多台独立IP电脑运行了。time.sleep(3)except:print('url访问失败')continueif __name__=='__main__':t1=threading.Thread(target=down,args=(2228,20000,))t1.start()t2=threading.Thread(target=down,args=(20000,40000,))t2.start()t3=threading.Thread(target=down,args=(40000,60000,))t3.start()t4=threading.Thread(target=down,args=(60000,80000,))t4.start()t5=threading.Thread(target=down,args=(80000,100000,))t5.start()t6=threading.Thread(target=down,args=(100000,120000,))t6.start()t7=threading.Thread(target=down,args=(120000,140000,))t7.start()t8=threading.Thread(target=down,args=(140000,160000,))t8.start()t9=threading.Thread(target=down,args=(16000,180000,))t9.start()t10=threading.Thread(target=down,args=(18000,183662,))t10.start()t10.join()input('已经下载完,按回车退出')

  开始运行了几次没问题,已经爬下一半了,过了一会直接被封了。可能爬的太快了。容我做个悲伤的表情。

无耻的求一下赞助

转载于:https://www.cnblogs.com/guoyabin/p/7150972.html

python3爬取中国药学科学数据相关推荐

  1. Python3爬取汽车目标经销商数据

    Python3爬取汽车目标经销商数据 本文采用Python3进行语法编写,Python3与Python2中的函数会有所不同,但是相差不大,具体的问题可以百度找到,因有朋友在做汽车方面的业务,因此需要一 ...

  2. 用Python爬取中国各省GDP数据

    介绍 在数据分析和经济研究中,了解中国各省份的GDP数据是非常重要的.然而,手动收集这些数据可能是一项繁琐且费时的任务.幸运的是,Python提供了一些强大的工具和库,使我们能够自动化地从互联网上爬取 ...

  3. java 使用Jsoup 爬取 中国政府采购网数据

    int isSize = 1; Integer pageSize = 0; Integer timeType = 4; // 时间类型 6: 指定时间 5:近半年 0:今日 4:近3月 public ...

  4. 使用python爬取中国电影票房数据并写入csv文件

    环境 PyCharm 2021.1.2 x64 爬取的目标网页 一.代码 import requests from bs4 import BeautifulSoup url = "http: ...

  5. 通过win32api与win32con模拟按键精灵爬取中国商标网数据

    # -*- coding: utf-8 -*- # Author: Yakuho # Date : 2019/8/8 import asyncio import os import time impo ...

  6. Scrapy爬取中国地震台网1年内地震数据

    目标设定 爬取中国地震台网地震数据,并录入Mysql,一次全量爬取,后续增量爬取 前期准备 分析请求路径 通过访问中国地震台网查询地震数据-http://www.ceic.ac.cn/speedsea ...

  7. Python3爬取OpenStreetMap平台的城市道路交通网数据

    Python3 爬取OpenStreetMap平台的城市道路交通网数据 前言 思路 代码 效果 结语 前言 论文需要城市道路信息数据,OpenStreetMap平台是一个开源免费的全球地图信息平台,但 ...

  8. python3爬取网页数据学习笔记——XPath篇

    数据来源网站:2016中国企业500强排行榜(完整名单)→买购网 (maigoo.com) 参考资料:python3 爬取网页表格例子_快乐糖果屋的博客-CSDN博客 右键数据部分,选择检查 观察到需 ...

  9. 爬取中国最好大学网数据(Python的Scrapy框架与Xpath联合运用)

    前言        大二上学期学校外出实习,做了一个关于爬取中国最好大学网http://www.zuihaodaxue.com/rankings.html的项目用的这个Scrapy框架,多线程还挺好用 ...

最新文章

  1. BZOJ1702: [Usaco2007 Mar]Gold Balanced Lineup 平衡的队列
  2. 面向技术编程,面向工资编程,面向用户编程?
  3. js更改html元素颜色,HTML - 使用JS根据值更改文本的颜色
  4. 保证相同类型的MDI子窗体只会被打开一次的方法
  5. Console-算法[for]-穷举法:百钱买百鸡
  6. 回顾 | 使用Visual Studio Code进行端到端应用程序开发
  7. Problem D: 顺序串的基本运算
  8. ARM:下一代架构也将继续供给华为
  9. ubuntu无法登陆mysql_ubuntu11.04mysql报错、无法正常工作、无法登陆mysql
  10. Win10下python不同版本同时安装并解决pip共存问题
  11. 解决 ‘Response‘ object has no attribute ‘body‘
  12. 《重构-改善既有代码的设计》——读后总结
  13. js打印服务器文件,用Electron / Node.js编写的打印服务器
  14. 【MFC】多线程同步—事件
  15. 7.2 HAVING子句
  16. 几率大的多线程面试题(含答案)
  17. Caused by: java.lang.IllegalStateException: Process 9461 exceeded cursor quota 100, will kill it
  18. 如何打造自动驾驶的数据闭环?
  19. 如何在云服务器上部署程序
  20. 鸿蒙内核手机,华为和安卓说再见,推出鸿蒙内核手机,不再更新安卓

热门文章

  1. 客户端与服务器端的认证方式(cookie,token,session)
  2. 终止正在运行的VBS脚本
  3. java图片色差_java – JPEG图像的颜色错误
  4. java holder_Java DataHolder.supports方法代码示例
  5. 【Python】Python中文编码
  6. Android 自定义拍照,解决图片旋转,拍照参数设置兼容问题
  7. 解决 Chrome 下载不了东西 失败 - 已屏蔽 的问题
  8. usr / bin / ld:找不到-l <nameOfTheLibrary>
  9. win11虚拟内存如何设置 Windows11设置虚拟内存的步骤方法
  10. MTK:内存管理机制简单分析