最近正在做爬虫系列的东西,也是刚刚开始写,写的也不怎么样.....

下面是我写的爬取中药材基本信息库的代码,还请大家多多指导。

首先先看网页,刚开始的时候,</p>中的信息无法读出来,导致后面的信息也读不出来,所以下面就改了一下网址的源码。

然后,信息与信息之间的分割应该是空白符(原来我一直以为是换行符,多亏有大神指导!),

所以代码为:

#coding=utf-8
from bs4 import BeautifulSoup
import urllib2
import re
import time
class ZYC():def __init__(self):#伪装成浏览器访问,适用于拒绝爬虫的网站self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/534.24 (KHTML, like '}#获取中药材基本信息库的网址def gethtml(self,yeshu):full_url = "http://db.yaozh.com/zhongyaocai?p="+str(yeshu)req = urllib2.Request(full_url,None,self.headers)req_timeout=5response = urllib2.urlopen(req,None,req_timeout)html = response.read()return html#获取自己想要的内容def getinformation(self):for m in range(1,11):#修改网址标签html=self.gethtml(m)reg=re.compile(r"</p>")html=reg.sub('',html)reg=re.compile(r"<p>")html=reg.sub('',html)soup=BeautifulSoup(html,"html.parser")Trlist=soup.find_all('tr')if m==1:#获取标题for item in Trlist[0]:if item not in ['\n','\t',' ']:item=item.get_text(strip=True)with open("ZYC.txt","a") as file:file.write(item.encode('utf-8')+'|')#获取内容file=open("ZYC.txt","a")for te in Trlist[1:]:file.write('\n')for item in te:if item not in ['\n',' ','\s']:item=item.get_text(strip=True)reg=re.compile(r'\s+')item=reg.sub('',item)file.write(item.encode('UTF-8')+'|')file.close()print("--正在采集%d/11的页数--"%m)time.sleep(5)if __name__ == '__main__':ZYC().getinformation()

爬取药智网的中药材基本信息库相关推荐

  1. Python爬取药智网的中药材图谱网页

    这次学习了python中的BeautifulSoup模块,并用bs爬取的药智网.网址:http://db.yaozh.com/tupu?p= 首先要安装bs,要注意版本问题,我一开始用的beautif ...

  2. 使用Beautifulsoup爬取药智网数据

    使用Beautifulsoup模块爬取药智网数据 Tips:1.爬取多页时,先用一页的做测试,要不然ip容易被封 2.自己常用的处理数据的方法: reg=re.compile('正则表达式') dat ...

  3. cookie模拟登陆爬取药智网中药材数据库数据

    第一步:注册一个你的账号 第二步:登录账号 第三步:发现我们要找的数据在https://db.yaozh.com/zhongyaocai/1.html这个网页里,一共10225条数据其实就只用修改这个 ...

  4. Python 爬虫 爬取安智网应用信息

    2019独角兽企业重金招聘Python工程师标准>>> 爬取目标网站安卓应用的信息,爬取分类.更新时间.系统要求.下载量以及下载链接等描述信息 http://www.anzhi.co ...

  5. python爬取智联招聘网_python爬取智联招聘工作岗位信息

    1 # coding:utf-8 2 # auth:xiaomozi 3 #date:2018.4.19 4 #爬取智联招聘职位信息 5 6 7 import urllib 8 from lxml i ...

  6. 克服反爬虫机制爬取智联招聘网站

    一.实验内容 1.爬取网站: 智联招聘网站(https://www.zhaopin.com/) 2.网站的反爬虫机制:     在我频繁爬取智联招聘网站之后,它会出现以下文字(尽管我已经控制了爬虫的爬 ...

  7. 爬取智联招聘上的求职信息

    爬虫爬取智联招聘上的求职信息,并将爬取的内容保存到文件中 链接:https://pan.baidu.com/s/1p4gn2enm_WnyqK_3kjnoaQ 提取码:prdb 复制这段内容后打开百度 ...

  8. python+selenium爬取智联招聘信息

    python+selenium爬取智联招聘信息 需求 准备 代码 结果 需求 老板给了我一份公司名单(大概几百家如下图),让我到网上看看这些公司分别在招聘哪些岗位,通过分析他们的招聘需求大致能推断出我 ...

  9. 深圳python数据分析师招聘_Python爬取智联招聘数据分析师岗位相关信息的方法

    Python爬取智联招聘数据分析师岗位相关信息的方法 发布时间:2020-09-23 23:23:12 来源:脚本之家 阅读:88 进入智联招聘官网,在搜索界面输入'数据分析师',界面跳转,按F12查 ...

最新文章

  1. linux下的重要服务dns
  2. javascript漏洞-检测到目标站点存在javascript框架库漏洞
  3. OpenCV实现幻灯片滑slides soble的实例(附完整代码)
  4. Django视图(二)
  5. 《那些年啊,那些事——一个程序员的奋斗史》——78
  6. ZooKeeper学习笔记—配置管理
  7. BUAA OO 2019 第三单元作业总结
  8. 位图缩放代码,如何伸拉图片,图片处理
  9. Ubuntu 命令行下修改IP等
  10. php是世界上最好的语言 ctf+代码审计+加密函数绕过
  11. GitHub上十大热门Python项目
  12. 32g服务器做成虚拟,服务器32g内存 tomcat设置多大
  13. 电脑开机后报bootsafe.sys丢失,报0x00000098状态码
  14. 4脚无源晶振与有源晶振
  15. ctab法提取dna流程图_CTAB法提取DNA原理及步骤、制胶、电泳
  16. 浏览器主页被劫持到*.gndh666.top
  17. C语言每日一练——第90天:青蛙跳台阶(升级版)
  18. 当下计算机的应用有哪些领域,计算机有哪些专业课程 计算机专业就业前景怎么样...
  19. ifttt山寨火速出炉:如果云、如果就
  20. 放宽心,一切都是最好的安排

热门文章

  1. 小米平板刷机shell怎么退_小米平板2如何一键解锁?刷机教程图解
  2. 2020双十一成交额 双11各电商平台销售额数据
  3. 兴趣标签体系告诉我,闲鱼的95后是这样的
  4. makefile传字符串给c语言,makefile终极奥义
  5. 【SQLite预习课3】SQLite 的常用语法
  6. 南京非211大学那个计算机强一点,江苏省,11所211高校都是业内翘楚,非211也很强...
  7. 为了练好口语,你敢不敢每天读一遍,坚持一个月?
  8. Intel官方对5月15号曝出的CPU侧信道漏洞“ZombieLoad”的详细技术分析(上)
  9. vnpy2.0与simnow搭建简单的量化策略开发环境
  10. 报错“FSADeprecationWarning: SQLALCHEMY_TRACK_MODIFICATIONS adds significant overhead and will be disa”