爬取药智网的中药材基本信息库
最近正在做爬虫系列的东西,也是刚刚开始写,写的也不怎么样.....
下面是我写的爬取中药材基本信息库的代码,还请大家多多指导。
首先先看网页,刚开始的时候,</p>中的信息无法读出来,导致后面的信息也读不出来,所以下面就改了一下网址的源码。
然后,信息与信息之间的分割应该是空白符(原来我一直以为是换行符,多亏有大神指导!),
所以代码为:
#coding=utf-8
from bs4 import BeautifulSoup
import urllib2
import re
import time
class ZYC():def __init__(self):#伪装成浏览器访问,适用于拒绝爬虫的网站self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/534.24 (KHTML, like '}#获取中药材基本信息库的网址def gethtml(self,yeshu):full_url = "http://db.yaozh.com/zhongyaocai?p="+str(yeshu)req = urllib2.Request(full_url,None,self.headers)req_timeout=5response = urllib2.urlopen(req,None,req_timeout)html = response.read()return html#获取自己想要的内容def getinformation(self):for m in range(1,11):#修改网址标签html=self.gethtml(m)reg=re.compile(r"</p>")html=reg.sub('',html)reg=re.compile(r"<p>")html=reg.sub('',html)soup=BeautifulSoup(html,"html.parser")Trlist=soup.find_all('tr')if m==1:#获取标题for item in Trlist[0]:if item not in ['\n','\t',' ']:item=item.get_text(strip=True)with open("ZYC.txt","a") as file:file.write(item.encode('utf-8')+'|')#获取内容file=open("ZYC.txt","a")for te in Trlist[1:]:file.write('\n')for item in te:if item not in ['\n',' ','\s']:item=item.get_text(strip=True)reg=re.compile(r'\s+')item=reg.sub('',item)file.write(item.encode('UTF-8')+'|')file.close()print("--正在采集%d/11的页数--"%m)time.sleep(5)if __name__ == '__main__':ZYC().getinformation()
爬取药智网的中药材基本信息库相关推荐
- Python爬取药智网的中药材图谱网页
这次学习了python中的BeautifulSoup模块,并用bs爬取的药智网.网址:http://db.yaozh.com/tupu?p= 首先要安装bs,要注意版本问题,我一开始用的beautif ...
- 使用Beautifulsoup爬取药智网数据
使用Beautifulsoup模块爬取药智网数据 Tips:1.爬取多页时,先用一页的做测试,要不然ip容易被封 2.自己常用的处理数据的方法: reg=re.compile('正则表达式') dat ...
- cookie模拟登陆爬取药智网中药材数据库数据
第一步:注册一个你的账号 第二步:登录账号 第三步:发现我们要找的数据在https://db.yaozh.com/zhongyaocai/1.html这个网页里,一共10225条数据其实就只用修改这个 ...
- Python 爬虫 爬取安智网应用信息
2019独角兽企业重金招聘Python工程师标准>>> 爬取目标网站安卓应用的信息,爬取分类.更新时间.系统要求.下载量以及下载链接等描述信息 http://www.anzhi.co ...
- python爬取智联招聘网_python爬取智联招聘工作岗位信息
1 # coding:utf-8 2 # auth:xiaomozi 3 #date:2018.4.19 4 #爬取智联招聘职位信息 5 6 7 import urllib 8 from lxml i ...
- 克服反爬虫机制爬取智联招聘网站
一.实验内容 1.爬取网站: 智联招聘网站(https://www.zhaopin.com/) 2.网站的反爬虫机制: 在我频繁爬取智联招聘网站之后,它会出现以下文字(尽管我已经控制了爬虫的爬 ...
- 爬取智联招聘上的求职信息
爬虫爬取智联招聘上的求职信息,并将爬取的内容保存到文件中 链接:https://pan.baidu.com/s/1p4gn2enm_WnyqK_3kjnoaQ 提取码:prdb 复制这段内容后打开百度 ...
- python+selenium爬取智联招聘信息
python+selenium爬取智联招聘信息 需求 准备 代码 结果 需求 老板给了我一份公司名单(大概几百家如下图),让我到网上看看这些公司分别在招聘哪些岗位,通过分析他们的招聘需求大致能推断出我 ...
- 深圳python数据分析师招聘_Python爬取智联招聘数据分析师岗位相关信息的方法
Python爬取智联招聘数据分析师岗位相关信息的方法 发布时间:2020-09-23 23:23:12 来源:脚本之家 阅读:88 进入智联招聘官网,在搜索界面输入'数据分析师',界面跳转,按F12查 ...
最新文章
- linux下的重要服务dns
- javascript漏洞-检测到目标站点存在javascript框架库漏洞
- OpenCV实现幻灯片滑slides soble的实例(附完整代码)
- Django视图(二)
- 《那些年啊,那些事——一个程序员的奋斗史》——78
- ZooKeeper学习笔记—配置管理
- BUAA OO 2019 第三单元作业总结
- 位图缩放代码,如何伸拉图片,图片处理
- Ubuntu 命令行下修改IP等
- php是世界上最好的语言 ctf+代码审计+加密函数绕过
- GitHub上十大热门Python项目
- 32g服务器做成虚拟,服务器32g内存 tomcat设置多大
- 电脑开机后报bootsafe.sys丢失,报0x00000098状态码
- 4脚无源晶振与有源晶振
- ctab法提取dna流程图_CTAB法提取DNA原理及步骤、制胶、电泳
- 浏览器主页被劫持到*.gndh666.top
- C语言每日一练——第90天:青蛙跳台阶(升级版)
- 当下计算机的应用有哪些领域,计算机有哪些专业课程 计算机专业就业前景怎么样...
- ifttt山寨火速出炉:如果云、如果就
- 放宽心,一切都是最好的安排
热门文章
- 小米平板刷机shell怎么退_小米平板2如何一键解锁?刷机教程图解
- 2020双十一成交额 双11各电商平台销售额数据
- 兴趣标签体系告诉我,闲鱼的95后是这样的
- makefile传字符串给c语言,makefile终极奥义
- 【SQLite预习课3】SQLite 的常用语法
- 南京非211大学那个计算机强一点,江苏省,11所211高校都是业内翘楚,非211也很强...
- 为了练好口语,你敢不敢每天读一遍,坚持一个月?
- Intel官方对5月15号曝出的CPU侧信道漏洞“ZombieLoad”的详细技术分析(上)
- vnpy2.0与simnow搭建简单的量化策略开发环境
- 报错“FSADeprecationWarning: SQLALCHEMY_TRACK_MODIFICATIONS adds significant overhead and will be disa”