抓取百度文库中的文献

目前只能抓百度文库里的,google scholar(镜像)和wos、知网爬虫连接不上

version = python 3.8
import urllib
import urllib.request
import random
from bs4 import BeautifulSoup#  http://www.goubanjia.com/  代理ipdef get_url(url):  # 为了避免被反所以添加请求头、代理ip,ip要时常换my_headers = ["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36","Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14","Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)",'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11','Opera/9.25 (Windows NT 5.1; U; en)','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)','Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)','Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12','Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',"Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7","Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 "]proxy_list = ["218.64.151.59:9000","110.243.5.230:9999","175.42.123.67:9999","27.206.180.250:9000","27.220.160.58:9000","117.69.151.80:9999"]proxy = random.choice(proxy_list)header = random.choice(my_headers)urlhandle = urllib.request.ProxyHandler({'http': proxy})opener = urllib.request.build_opener(urlhandle)urllib.request.install_opener(opener)req = urllib.request.Request(url)req.add_header('User-Agent', header)return urllib.request.urlopen(req, timeout=120)def handle_txt(url):  # outname must strresponse = get_url(url)bs = BeautifulSoup(response, 'html.parser')list_titles = bs.find_all('div', class_="sc_content")for i in list_titles:title = i.find('h3', class_="t c_font").textf.write("题目:" + title.strip() + "\n")half_link = i.find('h3', class_="t c_font").find('a')['href']wholelink = 'https:' + str(half_link)re = get_url(wholelink)if re.status == 200:bs2 = BeautifulSoup(re, 'html.parser')infos = bs2.find('div', class_="main-info").find('div', class_="c_content")# abstractif infos.find('div', class_="abstract_wr") is not None:abstract = infos.find('div', class_="abstract_wr").find('p', class_="abstract").text.strip()f.write("摘要:" + abstract + "\n")# yearif infos.find('div', class_="year_wr") is not None:year = infos.find('div', class_="year_wr").find('p', class_="kw_main").text.strip()f.write("年份:" + year + '\n')# authorif infos.find('div', class_="author_wr") is not None:author = infos.find('div', class_="author_wr").find('p', class_="author_text").text.strip()f.write('作者:' + author + '\n')# referredif infos.find('div', class_="ref_wr") is not None:referred = infos.find('div', class_="ref_wr").find('a', class_="sc_cite_cont").text.strip()f.write('被引量:' + referred + '\n')# keywordsif infos.find('div', class_="kw_wr") is not None:try:kw = infos.find('div', class_="kw_wr").find("p", class_="kw_main").find_all("a")f.write("关键词:")for each in kw:f.write("," + each.text)f.write("\n")except:passf.write("\n\n")f = open('{}.txt'.format("baidu"), 'w', encoding='utf-8')
for i in np.arange(0, 100, 10):  # 抓了10页(注意看每一页的网址变化在哪)url = "https://xueshu.baidu.com/s?wd=transportation%20carbon%20emission&pn={}&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&f=3&sc_f_para=sc_tasktype%3D%7BfirstSimpleSearch%7D&sc_hit=1".format(i)handle_txt(url)
f.close()

爬虫抓取百度文库中的文献相关推荐

  1. python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...

    原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号 不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...

  2. python爬虫抓取百度图片_Python爬虫抓取百度的高清摄影图片

    成果预览: 源代码: import requests import re url = 'https://image.baidu.com/search/index' headers = { 'User- ...

  3. Python爬虫抓取百度搜索图片

    最近玩机器学习,想搞一个关于识别动漫图片的训练集,苦于没有太多的动漫图片,后来忽然想到百度图片可以拿来用,于是乎写了个简单的爬虫,用来抓取百度图片(关于某个关键字的图片) 第一步,找到搜索图片的url ...

  4. python 爬虫——爬取百度文库VIP内容

    转载自:爬取百度文库 代码实现 import requests import re import json import ossession = requests.session()def fetch ...

  5. IT宅男利用Python网络爬虫抓取百度贴吧评论区图片和视频(实战篇)

    [一.项目背景] 百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到评论区的图片想下载呢?或者看到一段视频想进行下载呢? 今天,小编带大家通过搜索关键字来获取评论区的图片和视频. [二.项目 ...

  6. python爬虫爬取百度文库txt以及ppt资料

    使用bs4,requests,re库完成对百度文库部分格式文件的爬取 案例中的目标文档地址: https://wenku.baidu.com/view/cbb4af8b783e0912a3162a89 ...

  7. JS脚本实现模拟按钮点击:批量抓取百度推广中的关键词建议

    点击html5搜更精彩! JavaScript是个好东东,轻量级,好学易懂.尤其在HTML5时代,这个老朽的语言犹如凤凰涅槃,重获新生. 在Chrome浏览器中,利用小乐图客扩展中的JS代码模块(完美 ...

  8. python爬虫百度贴吧代码大全_零基础写python爬虫之抓取百度贴吧代码分享

    这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! # -*- coding: utf-8 -*- #------------------------- ...

  9. 使用python中的Selenium爬取百度文库word文章

    参考文章:Python3网络爬虫(九):使用Selenium爬取百度文库word文章,链接为: https://blog.csdn.net/c406495762/article/details/723 ...

  10. 【Python爬虫教学】百度篇·手把手教你抓取百度搜索关键词后的页面源代码

    [开门见山] 最近整理了下之前做过的项目,学的东西不少,乱七八糟.打算写点关于 Python 爬虫的东西,新人一枚,还望大佬们多多担待,别把我头给打歪了. 前面我先磨叽磨叽些基础的东西,对爬虫新人友好 ...

最新文章

  1. 分享13个Spring Boot 优质开源项目!商城,ERP,管理系统
  2. 惠普企业第三财季净利润23亿美元 同比增长914%
  3. BTrace生产调试
  4. 南京人工智能高等研究院孔慧:多向技术驱动,让企业具备长久竞争力
  5. mysql 8 centos_CentOS8下安装mysql8
  6. 使用机器学习预测天气_如何使用机器学习预测着陆
  7. 召回离线评估指标(二)
  8. ajax上传多行数据及数组循环添加对象
  9. 使用PS2EXE将PowerShell脚本编译为可执行程序
  10. Scratch 3.X中的部分错误汇总
  11. AirDisk存宝有没有迅雷下载功能?
  12. ATmega / AVR单片机型号标识规则及选型
  13. 电脑运行c语言程序就蓝屏,常见电脑蓝屏代码,产生原因和解决办法
  14. 如何创建CGColorRef在view.layer.borderColor上使用
  15. Apache Pulsar的数据写入和读取流程,及读写异常处理流程
  16. docker images 导入导出
  17. cuda11.2版本的对应安装的pytorch版本
  18. cocos creator 游戏背景音乐处理(音乐循环淡入淡出等)
  19. sparkRDD算子数据处理实践
  20. object-c iOS 教程 git for mac

热门文章

  1. object类型转换为int类型
  2. Python常用模块15-python的configparser模块
  3. 做scratch游戏心得1
  4. php工具箱下载安装方法
  5. Servlet容器和IOC容器
  6. 大数据Top K问题
  7. 【安卓学习积累】Android连续点击事件的实现
  8. 计算机ps基础知识大全,全国计算机ps一级考试题型
  9. eemd优缺点_改进EEMD算法在心电信号去噪中的应用
  10. Misc-Xp0int(数据包分析)