爬取百度百科冷僻药物，自动生成简易说明书

用utf-8编码，保存以下冷僻药物到同目录下的txt文件中，双击py文件就可以自动生成简易说明书。

巴特日七味丸
绿袍散
茵陈五苓糖浆
脑灵素胶囊
槐耳颗粒
小儿珠珀散
黄藤素软胶囊
灭菌结晶磺胺
草酸艾司西酞普兰片
炔雌醇环丙孕酮片
阿昔莫司胶囊
苹果酸氯波必利片
翘栀牙痛颗粒
双环醇片
氟米龙滴眼液
昆仙胶囊
当归龙荟片
硒酵母片
吡哌酸片
汞溴红溶液（红药水）
吡诺克辛滴眼液
依巴斯汀
美辛唑酮红古豆醇酯栓
硫酸羟氯喹片 关节炎
骨化三醇胶丸 骨质疏松
茴三硫片
铝镁二甲硅油片
氨糖美辛肠溶片
L-谷氨酰胺呱仑酸钠颗粒
吡诺克辛滴眼液 白内障
曲咪新乳膏
枫蓼肠胃康颗粒
枸橼酸铋钾片/替硝唑片/克拉霉素片组合
奥沙普秦片
富马酸喹硫平片
氨咖甘片
长春宝口服液
九气拈痛丸 痛经
美索巴莫分散片
丹鹿通督片
盐酸达泊西汀片
替普瑞酮胶囊
复合凝乳酶胶囊
坤灵丸
脾氨肽口服冻干粉
五海瘿瘤丸
嘎日迪五味丸
卵磷脂络合碘片
海马追风膏
小儿珠珀散
氟比诺芬凝胶贴膏
洋地黄片以下为具体代码：

import requests
import re

def getweb(drug_name):
url_entrance = f’https://baike.baidu.com/item/{drug_name}’

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}
r = requests.get(url_entrance,headers=headers)
r.raise_for_status()
r.encoding = r.apparent_encoding
r = r.textpat = r'<meta name="description" content="(.*?)">'
result = re.compile(pat).findall(r)[0].strip('...').strip('.')
return result

if name == ‘main’:

drug_names0 = []
with open('冷僻药物名.txt','r',encoding='utf-8') as file:while True:drug_name = file.readline().strip('\n')#if drug_name == '':breakdrug_names0.append(drug_name)
print('去重前：',len(drug_names0),'种药')
drug_names = list(set(drug_names0))
drug_names.sort(key=drug_names0.index)print('去重后：',len(drug_names),'种药')for i in range(len(drug_names)):drug_name = drug_names[i]      string = str(i+1).rjust(2,'0') + ' ' + '【' +  drug_name + '】'try:result = getweb(drug_name)with open('冷僻药物简易说明书.txt','a+') as f:f.write(string)f.write('\n')f.write(result)f.write('\n'*2)print(string)print(result)except Exception as e:# print(e)with open('冷僻药物简易说明书.txt','a+') as f:f.write(string)f.write('\n')f.write('百科未查到，请自行添加：')f.write('\n'*3)print(string)print('百科未查到，请自行添加：')print('\n','=='*30,'\n')continueprint('\n','=='*30,'\n')print('程序结束！')

爬取百度百科冷僻药物，自动生成简易说明书相关推荐

实战爬取百度百科1000多个页面，发现惊天大密，你们猜猜看
推荐一下我建的python学习交流qun:850973621,群里有免费的视频教程,开发工具. 电子书籍.项目源码分享.一起交流学习,一起进步! 爬虫最简单的架构就三个方面: 1.URL管理器:主要负 ...
python 爬取百度知道,Python 爬虫爬取百度百科网站
利用python写一个爬虫,爬取百度百科的某一个词条下面的全部链接和每一个链接内部的词条主题和摘要.利用request库爬取页面,然后利用BeautifulSoup对爬取到的页面提取url和关键内容. ...
用python 爬取百度百科内容-爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...
python 百度百科爬虫_爬虫爬取百度百科数据
以前段时间<青春有你2>为例,我们使用Python来爬取百度百科中<青春有你2>所有参赛选手的信息. 什么是爬虫? 为了获取大量的互联网数据,我们自然想到使用爬虫代替我们完成这 ...
学习开源web知识图谱项目，爬取百度百科中文页面
github上找到的项目,感觉比较适合知识图谱入门源码地址:https://github.com/lixiang0/WEB_KG ubuntu环境(如果在windows下跑改下文件路径,我改了一下还 ...
python爬取百度百科表格_第一个python爬虫（python3爬取百度百科1000个页面）
以下内容参考自:http://www.imooc.com/learn/563 一.爬虫简介爬虫:一段自动抓取互联网信息的程序爬虫可以从一个url出发,访问其所关联的所有的url.并从每个url指向 ...
HttpClient 实现爬取百度搜索结果（自动翻页）
如果你对HttpClient还不是很了解,建议先移步我的另一篇博客HttpClient4.x之请求示例后再来看这篇博客.我们这里的项目采用maven搭建.在阅读前要对jdk和maven有一定的了解.另 ...
爬取百度百科周星驰页面电影名称并生成词云图
文章目录前言代码总结前言数据是很重要的,爬虫是获取数据的一个很有用的方式代码最近时间精力有限,代码注释部分见gitee链接:爬取周星驰电影名并做词云可视化总结如果您发现我写的有错误, ...
爬取百度百科上中国所有城市的信息
1 # coding=utf-8 2 import xlrd 3 import xlwt 4 import requests 5 import re 6 import json 7 import os ...

爬取百度百科冷僻药物，自动生成简易说明书

爬取百度百科冷僻药物，自动生成简易说明书相关推荐

最新文章

热门文章