Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门

https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6EmUbbW&id=564564604865

数据源

http://118.114.237.85:8081/searchbio.aspx

采集内容字段有的对不整齐,

def Get_one_table()函数需要修改

# -*- coding: utf-8 -*-
"""
Spyder Editor
采集思路:采一页,保存一页
This is a temporary script file.
"""
import requests,bs4,csv,time,selenium
from selenium import webdriver
list_allContent=[]site="http://piqianfa.scsyjs.org/"
site1="http://118.114.237.85:8081/searchbio.aspx"
charset="gb2312"
browser=webdriver.Firefox()
browser.get(site1)
pages=196#这种方式采集下来很粗糙,容易错位
def Get_one_table():elems=browser.find_elements_by_tag_name("tr")content=elems[0].textlist_content=content.split("\n")#列表内个数num=len(list_content)list_content2=list_content[3:num]list_allContent.append(list_content2)return list_content2
'''
list_content2[2]
Out[13]: '批签蜀检201600220 人血白蛋白 20% 25ml 5g/瓶 201601A010 26931瓶 2021年1月22日
成都蓉生药业有限责任公司 该批制品符合规定,判定合格 2016-05-04'
'''    def Write_table_to_csv(fileName,list_tableContent):#对列表格式修改,字符串写入的格式不对list_tableContent1=[i.split(" ") for i in list_tableContent]file=open(fileName,'w',newline='')writer1=csv.writer(file)writer1.writerows(list_tableContent1)file.close()   def Click_next_page():linkElem=browser.find_element_by_link_text("下一页")linkElem.click()def Get_fileName():passfor i in range(1,pages+1):list_tableContent=Get_one_table()Click_next_page()fileName=str(i)+".csv"Write_table_to_csv(fileName,list_tableContent)

  

def Get_one_table()函数需要修改
# -*- coding: utf-8 -*-
"""
Created on Fri May  6 10:24:18 2016@author: Administrator
"""
import requests,bs4,csv,time,selenium
from selenium import webdriver
site1="http://118.114.237.85:8081/searchbio.aspx"
charset="gb2312"
browser=webdriver.Firefox()
browser.get(site1)elems=browser.find_elements_by_class_name("tb")
elems1= elems[1:]
content=[i.text for i in elems1]'''
elems=browser.find_elements_by_class_name("tr")
elems
Out[33]: []elems=browser.find_elements_by_class_name("tb")
elems[1].text
Out[25]: '批签蜀检201600221'elems[2].text
Out[26]: '静注人免疫球蛋白(pH4)'elems[3].text
Out[27]: '2.5g(5%,50ml)/瓶'elems[4].text
Out[28]: '201602005'content
Out[60]:
['批签蜀检201600221','静注人免疫球蛋白(pH4)','2.5g(5%,50ml)/瓶','201602005','16020瓶','2019年1月','华兰生物工程重庆有限公司','该批制品符合规定,判定合格','2016-05-04','批签蜀检201600220','人血白蛋白','20% 25ml 5g/瓶','批签蜀检201600202','静注人免疫球蛋白(pH4)','2.5g/瓶(5%,50ml)','201511154B','16664瓶','2018年11月16日','四川远大蜀阳药业股份有限公司','该批制品符合规定,判定合格','2016-04-29']len(elems1)
Out[61]: 180''''''
content=elems[0].text
list_content=content.split("\n")
#列表内个数
num=len(list_content)
list_content2=list_content[3:num]
'''

  

转载于:https://www.cnblogs.com/webRobot/p/5465032.html

selenium_采集药品数据相关推荐

  1. 爬取医药卫生知识服务系统的药品数据——超详细流程

    爬取医药卫生知识服务系统的药品数据--超详细流程 文章目录 爬取医药卫生知识服务系统的药品数据--超详细流程 前言 一.寻找药品数据 二.爬取药品ID 1.资源获取 2.数据提取 3.资源保存 4.主 ...

  2. android 音视频流采集,Android 音视频开发(四):使用 Camera API 采集视频数据(示例代码)...

    本文主要将的是:使用 Camera API 采集视频数据并保存到文件,分别使用 SurfaceView.TextureView 来预览 Camera 数据,取到 NV21 的数据回调. 注: 需要权限 ...

  3. 使用packetbeat 采集mysql数据

    实验环境: CentOS 6.7 X86_64 ELK版本:5.6.0 实验机器IP: 10.0.20.25 大部分操作及ELK语法这里我都省略掉了. 搭建ELK 这里实验方便起见,我只用一台主机演示 ...

  4. 【Android 应用开发】分析各种Android设备屏幕分辨率与适配 - 使用大量真实安卓设备采集真实数据统计

    .主要是为了总结一下 对这些概念有个直观的认识; . 作者 : 万境绝尘  转载请注明出处 : http://blog.csdn.net/shulianghan/article/details/198 ...

  5. api可以主动采集用户数据吗_自动采集数据

    自动采集数据,三个方式: agent 方式: agent:就是一个客户端,在客户端上放置采集程序,agent采集完数据后就直接返回给api程序(目前就是django的一个程序) agent程序: #! ...

  6. php html采集,php file_get_contents函数轻松采集html数据

    当前位置:Gxlcms > php框架 > php file_get_contents函数轻松采集html数据 php file_get_contents函数轻松采集html数据 时间:2 ...

  7. 如何让采集的数据比原创还要原创!

    大家好,国庆节过了,祝大家节日快乐,特别要祝是守候在群的一线的光棍们有情人可度,有梦想可求.今天讲一下网站数据的采集及实践. 谁都知道,以前建个站都是辛辛苦苦地一个代码一个代码敲出来的, 那时的站长真 ...

  8. 函数计算FC让游戏群采集营销数据滴水不漏

    简介:稳定.高可靠的采集数据并回传以及成本最优化是客户的核心诉求,为了同时实现高性能和成本最优化,游戏群选择阿里云函数计算FC为该业务场景兜底. 作者:阿里云解决方案架构师 计缘 武汉游戏群科技有限公 ...

  9. android surfaceview 大小_Android 使用Camera2 API采集视频数据

    Android 视频数据采集系列的最后一篇出炉了,和前两篇文章想比,这篇文章从系统API层面进行一些探索,涉及到的细节更多.初次接触 Camera2 API 会觉得它的使用有些繁琐,涉及到的类有些多, ...

最新文章

  1. 得了诺奖的彩色照相术失传100多年,现在终于被找回来了
  2. UA MATH565C 随机微分方程V Markov Family的算子
  3. 【收集】常用的cmd命令
  4. http header 设置编码_【译】http.client
  5. 快速排序+统计→奶牛的耳语(洛谷P1296题题解,Java语言描述)
  6. div横向滚动条_14. Selenium 处理滚动条
  7. php定时发送生日模块消息_RabbitMQ之消息的可靠性投递
  8. SQL Server中的联合主键、聚集索引、非聚集索引、mysql 联合索引
  9. RabbitMQ,Elasticsearch学习,批量读取消息队列上的数据上传到Elasticsearch
  10. Microsoft Project项目管理实践
  11. qq空间把android改成iphone,qq空间利用代码修改iPhone6 Plus qq空间修改手机型号教程...
  12. 苹果电池显示维修_iFixit拆解苹果iPhone 12/Pro:显示屏和电池可互换
  13. SAP 之定义工厂(Plant)
  14. powerdns 安装部署备忘
  15. Centos6.3 安装rhythmbox播放器
  16. Mysql中,order by + limt的大坑
  17. 文件复制 要求边读边写
  18. EasyCHM编译的文件在点击节点时出现错误:确保Web地址//ieframe.dll/dnserrordiagoff.htm#正确
  19. Spark2.3.2源码解析: 5. SparkConf源码分析
  20. Java算法---发工资

热门文章

  1. 《工厂订单出入库信息管理系统》模块5 -- 扫码装箱
  2. hp按f10进入设置实用程序怎么进入BIOS
  3. 中小企业的四个数据存储方法和措施
  4. 解题-->在线OJ(五)
  5. iphone图书导入_iPhone图书app怎么用?
  6. 实时城市路面积水面积检测(源码&教程)
  7. 【人工智能】深度学习思维导图、人工智能思维导图、深度学习综述
  8. 基于 Websocket 协议的压力测试
  9. ORB_SLAM2编译错误
  10. 中国渔业统计年鉴(1979-2022)