用utf-8编码,保存以下冷僻药物到同目录下的txt文件中,双击py文件就可以自动生成简易说明书。

巴特日七味丸
绿袍散
茵陈五苓糖浆
脑灵素胶囊
槐耳颗粒
小儿珠珀散
黄藤素软胶囊
灭菌结晶磺胺
草酸艾司西酞普兰片
炔雌醇环丙孕酮片
阿昔莫司胶囊
苹果酸氯波必利片
翘栀牙痛颗粒
双环醇片
氟米龙滴眼液
昆仙胶囊
当归龙荟片
硒酵母片
吡哌酸片
汞溴红溶液(红药水)
吡诺克辛滴眼液
依巴斯汀
美辛唑酮红古豆醇酯栓
硫酸羟氯喹片 关节炎
骨化三醇胶丸 骨质疏松
茴三硫片
铝镁二甲硅油片
氨糖美辛肠溶片
L-谷氨酰胺呱仑酸钠颗粒
吡诺克辛滴眼液 白内障
曲咪新乳膏
枫蓼肠胃康颗粒
枸橼酸铋钾片/替硝唑片/克拉霉素片组合
奥沙普秦片
富马酸喹硫平片
氨咖甘片
长春宝口服液
九气拈痛丸 痛经
美索巴莫分散片
丹鹿通督片
盐酸达泊西汀片
替普瑞酮胶囊
复合凝乳酶胶囊
坤灵丸
脾氨肽口服冻干粉
五海瘿瘤丸
嘎日迪五味丸
卵磷脂络合碘片
海马追风膏
小儿珠珀散
氟比诺芬凝胶贴膏
洋地黄片以下为具体代码:

import requests
import re

def getweb(drug_name):
url_entrance = f’https://baike.baidu.com/item/{drug_name}’

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}
r = requests.get(url_entrance,headers=headers)
r.raise_for_status()
r.encoding = r.apparent_encoding
r = r.textpat = r'<meta name="description" content="(.*?)">'
result = re.compile(pat).findall(r)[0].strip('...').strip('.')
return result

if name == ‘main’:

drug_names0 = []
with open('冷僻药物名.txt','r',encoding='utf-8') as file:while True:drug_name = file.readline().strip('\n')#if drug_name == '':breakdrug_names0.append(drug_name)
print('去重前:',len(drug_names0),'种药')
drug_names = list(set(drug_names0))
drug_names.sort(key=drug_names0.index)print('去重后:',len(drug_names),'种药')for i in range(len(drug_names)):drug_name = drug_names[i]      string = str(i+1).rjust(2,'0') + ' ' + '【' +  drug_name + '】'try:result = getweb(drug_name)with open('冷僻药物简易说明书.txt','a+') as f:f.write(string)f.write('\n')f.write(result)f.write('\n'*2)print(string)print(result)except Exception as e:# print(e)with open('冷僻药物简易说明书.txt','a+') as f:f.write(string)f.write('\n')f.write('百科未查到,请自行添加:')f.write('\n'*3)print(string)print('百科未查到,请自行添加:')print('\n','=='*30,'\n')continueprint('\n','=='*30,'\n')print('程序结束!')

爬取百度百科冷僻药物,自动生成简易说明书相关推荐

  1. 实战爬取百度百科1000多个页面,发现惊天大密,你们猜猜看

    推荐一下我建的python学习交流qun:850973621,群里有免费的视频教程,开发工具. 电子书籍.项目源码分享.一起交流学习,一起进步! 爬虫最简单的架构就三个方面: 1.URL管理器:主要负 ...

  2. python 爬取百度知道,Python 爬虫爬取百度百科网站

    利用python写一个爬虫,爬取百度百科的某一个词条下面的全部链接和每一个链接内部的词条主题和摘要.利用request库爬取页面,然后利用BeautifulSoup对爬取到的页面提取url和关键内容. ...

  3. 用python 爬取百度百科内容-爬虫实战(一) 用Python爬取百度百科

    最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释 我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果 但是自己又没有心思做这样一个数 ...

  4. python 百度百科 爬虫_爬虫爬取百度百科数据

    以前段时间<青春有你2>为例,我们使用Python来爬取百度百科中<青春有你2>所有参赛选手的信息. 什么是爬虫? 为了获取大量的互联网数据,我们自然想到使用爬虫代替我们完成这 ...

  5. 学习开源web知识图谱项目,爬取百度百科中文页面

    github上找到的项目,感觉比较适合知识图谱入门 源码地址:https://github.com/lixiang0/WEB_KG ubuntu环境(如果在windows下跑改下文件路径,我改了一下还 ...

  6. python爬取百度百科表格_第一个python爬虫(python3爬取百度百科1000个页面)

    以下内容参考自:http://www.imooc.com/learn/563 一.爬虫简介 爬虫:一段自动抓取互联网信息的程序 爬虫可以从一个url出发,访问其所关联的所有的url.并从每个url指向 ...

  7. HttpClient 实现爬取百度搜索结果(自动翻页)

    如果你对HttpClient还不是很了解,建议先移步我的另一篇博客HttpClient4.x之请求示例后再来看这篇博客.我们这里的项目采用maven搭建.在阅读前要对jdk和maven有一定的了解.另 ...

  8. 爬取百度百科周星驰页面电影名称并生成词云图

    文章目录 前言 代码 总结 前言 数据是很重要的,爬虫是获取数据的一个很有用的方式 代码 最近时间精力有限,代码注释部分见gitee链接:爬取周星驰电影名并做词云可视化 总结 如果您发现我写的有错误, ...

  9. 爬取百度百科上中国所有城市的信息

    1 # coding=utf-8 2 import xlrd 3 import xlwt 4 import requests 5 import re 6 import json 7 import os ...

最新文章

  1. 多目标决策问题1.1.1:线性加权法——熵权法确定权重
  2. 不要把为师我说出来就不错了
  3. 今天我勇敢的点就一个gpio口
  4. SQL Server事务日志体系结构
  5. 图像语义分析--深度学习方法
  6. 菊安酱的机器学习实战
  7. Python处理 JSON 数据
  8. nginx 5xx 状态码分析
  9. 对软件迭代开发的一些感悟
  10. 关于java的文件操作
  11. WIN10 下 autocad2006 及其他版本打开文件多窗口不能一个窗口的解决办法
  12. Android 自定义View:实现一个 FM 刻度尺
  13. 电视hdmi接口在哪_变废为宝!把旧笔记本电脑当电视盒子用
  14. biosequence analysis using profile hidden Markov models(使用隐马尔可夫模型分析序列)
  15. 纯CSS+HTML+JS实现的简易个人网站
  16. android使用popupwindow仿微信点赞功能
  17. Towards Ghost-free Shadow Removal via Dual Hierarchical Aggregation Network and Shadow Matting GAN
  18. 物化视图日志结构与ORA-12034 Mview log younger than last refresh
  19. camus执行任务,偶发性异常
  20. 【Web前端】CSS使用方法

热门文章

  1. Hack The Box - Crocodile关卡
  2. 『Python - Xlwings』Excel报表自动化中常用函数/方法
  3. 【论文笔记】UNet++:一种用于医学图像分割的嵌套U-Net结构
  4. ATT汇编中的高级数学方法
  5. Windows下钩子
  6. 大力飞砖之暴力解法(上)
  7. 2019年春季学期:学习资料汇总
  8. jenkins之获取最后一次构建结果
  9. 初步了解如何自己写一个网格控件
  10. 数据仓库Hive安装部署及基本操作