爬取药智网的中药材基本信息库

最近正在做爬虫系列的东西，也是刚刚开始写，写的也不怎么样.....

下面是我写的爬取中药材基本信息库的代码，还请大家多多指导。

首先先看网页，刚开始的时候，</p>中的信息无法读出来，导致后面的信息也读不出来，所以下面就改了一下网址的源码。

然后，信息与信息之间的分割应该是空白符（原来我一直以为是换行符，多亏有大神指导！），

所以代码为：

#coding=utf-8
from bs4 import BeautifulSoup
import urllib2
import re
import time
class ZYC():def __init__(self):#伪装成浏览器访问，适用于拒绝爬虫的网站self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/534.24 (KHTML, like '}#获取中药材基本信息库的网址def gethtml(self,yeshu):full_url = "http://db.yaozh.com/zhongyaocai?p="+str(yeshu)req = urllib2.Request(full_url,None,self.headers)req_timeout=5response = urllib2.urlopen(req,None,req_timeout)html = response.read()return html#获取自己想要的内容def getinformation(self):for m in range(1,11):#修改网址标签html=self.gethtml(m)reg=re.compile(r"</p>")html=reg.sub('',html)reg=re.compile(r"<p>")html=reg.sub('',html)soup=BeautifulSoup(html,"html.parser")Trlist=soup.find_all('tr')if m==1:#获取标题for item in Trlist[0]:if item not in ['\n','\t',' ']:item=item.get_text(strip=True)with open("ZYC.txt","a") as file:file.write(item.encode('utf-8')+'|')#获取内容file=open("ZYC.txt","a")for te in Trlist[1:]:file.write('\n')for item in te:if item not in ['\n',' ','\s']:item=item.get_text(strip=True)reg=re.compile(r'\s+')item=reg.sub('',item)file.write(item.encode('UTF-8')+'|')file.close()print("--正在采集%d/11的页数--"%m)time.sleep(5)if __name__ == '__main__':ZYC().getinformation()

爬取药智网的中药材基本信息库相关推荐

Python爬取药智网的中药材图谱网页
这次学习了python中的BeautifulSoup模块,并用bs爬取的药智网.网址:http://db.yaozh.com/tupu?p= 首先要安装bs,要注意版本问题,我一开始用的beautif ...
使用Beautifulsoup爬取药智网数据
使用Beautifulsoup模块爬取药智网数据 Tips:1.爬取多页时,先用一页的做测试,要不然ip容易被封 2.自己常用的处理数据的方法: reg=re.compile('正则表达式') dat ...
cookie模拟登陆爬取药智网中药材数据库数据
第一步:注册一个你的账号第二步:登录账号第三步:发现我们要找的数据在https://db.yaozh.com/zhongyaocai/1.html这个网页里,一共10225条数据其实就只用修改这个 ...
Python 爬虫爬取安智网应用信息
2019独角兽企业重金招聘Python工程师标准>>> 爬取目标网站安卓应用的信息,爬取分类.更新时间.系统要求.下载量以及下载链接等描述信息 http://www.anzhi.co ...
python爬取智联招聘网_python爬取智联招聘工作岗位信息
1 # coding:utf-8 2 # auth:xiaomozi 3 #date:2018.4.19 4 #爬取智联招聘职位信息 5 6 7 import urllib 8 from lxml i ...
克服反爬虫机制爬取智联招聘网站
一.实验内容 1.爬取网站: 智联招聘网站(https://www.zhaopin.com/) 2.网站的反爬虫机制: 在我频繁爬取智联招聘网站之后,它会出现以下文字(尽管我已经控制了爬虫的爬 ...
爬取智联招聘上的求职信息
爬虫爬取智联招聘上的求职信息,并将爬取的内容保存到文件中链接:https://pan.baidu.com/s/1p4gn2enm_WnyqK_3kjnoaQ 提取码:prdb 复制这段内容后打开百度 ...
python+selenium爬取智联招聘信息
python+selenium爬取智联招聘信息需求准备代码结果需求老板给了我一份公司名单(大概几百家如下图),让我到网上看看这些公司分别在招聘哪些岗位,通过分析他们的招聘需求大致能推断出我 ...
深圳python数据分析师招聘_Python爬取智联招聘数据分析师岗位相关信息的方法
Python爬取智联招聘数据分析师岗位相关信息的方法发布时间:2020-09-23 23:23:12 来源:脚本之家阅读:88 进入智联招聘官网,在搜索界面输入'数据分析师',界面跳转,按F12查 ...

爬取药智网的中药材基本信息库

爬取药智网的中药材基本信息库相关推荐

最新文章

热门文章