DBLP 搜索爬虫项目

mywang88

2018-12-14

简介

由于项目需要，计划抓取 dblp 网站关键词搜索结果的文章列表。

目标站点：dblp: computer science bibliography 以及文章所属期刊网站

维基词条：DBLP - Wkikpedia

1 流程设计

从需求方获取“关键词列表”。
在 DBLP 主页，使用关键词列表中的每个关键词，发起搜索。
获取搜索结果页面中，每个条目（文章）的详细信息，包括文章链接。
提取信息，存入数据库文章表。
获取文章表中的文章链接，访问文章页面。
从文章页面中解析出更多信息，例如 Abstract 等，更新文章信息中的对应字段。
由于不同文章往往属于不同站点，需要给每个对应站点编写单独的解析方法。

2 主要工具

Python 解释器，版本 3.7.0

官网：https://www.python.org/
最好有个 Python 的编辑器（例如 notepad++）或者 IDE（例如 PyCharm）
Scrapy 爬虫框架，版本 1.5.1

官网：https://scrapy.org/
Google Chrome 浏览器，版本 71.0.3578.98（正式版本）（64 位）
MySQL 数据库。
其它 Python 工具包，例如 pymysql，json 等。
Scrapy 和其它 Python 工具包都可以使用 pip 命令安装。

3 项目实施

3.1 创建爬虫项目

提前安装好 scrapy 框架。
在命令行模式下进入一个准备好的文件夹。
创建一个 scrapy 项目。

scrapy startproject project_name

进入项目文件夹，使用 scrapy genspider 指令创建一个 spider 爬虫。

cd project_name
scrapy genspider dblp domain.com

一个爬虫实际上是一个类，一个 scrapy.spider 类的子类。
在爬虫文件中定义 start_request 和 parse 等方法。

3.2 获取关键词列表

从需求方获取关键词列表。
本项目中，关键词列表存放于 MySQL 数据库中。
Python 的 pymysql 工具包用来与 MySQL 数据库通信。

# 爬虫文件
import scrapy
import pymysql
import jsonclass DblpSpider(scrapy.Spider):name = 'dblp'def start_request(self):# 建立连接conn = pymysql.connect(host='192.168.1.8',port=3306,user='mywang88',password='hahahaha',db='dblp')cur = conn.cursor()# 构造查询语句sql = 'SELECT keyword FROM table_name'# 执行查询语句cur.execute(sql)# 提取查询结果word_list = list(cur.fetchall())# 关闭连接conn.close()

3.3 构造搜索结果 url ，提交请求

本项目中，dblp 对于关键词搜索提供了直接将搜索结果导出为 json 格式的服务。
其它类型的搜索，即非关键词搜索，似乎没有这个服务。
关键词对应的 json 数据的 url 是这样构造的：

 for keyword in word_list:# 构造 urlurl = 'https://dblp.uni-trier.de/search/publ/api?q='url += keyword[0]url += '&h=1000&format=json'# 创建 scrapy.Request 实例req = scrapy.Request(url=url,callback=self.parse)yield req# 请求会被提交给 scrapy 框架的请求队列# 完成请求会返回一个 scrapy.Response 对象，传递给 parse 函数

3.4 解析搜索结果

向构造的 url 发送 GET 请求，获取响应。
使用 json 工具包来加载响应的 json 数据：

 def parse(self, response):result = json.loads(response.text)

这是一个字典对象，结果存放在这个路径下：

     tips = result['result']['hits']['hit']

这是一个列表对象，每篇文章对应列表中的一个字典对象。
字典中的'info'字段存放了文章的详细信息。
以篇为单位，将文章详细信息存入 MySQL 数据库中，其中包括文章的 url 。
至此，第一阶段完成。

3.5 后续工作

新创建一个爬虫。
SELECT 已经抓取并存入数据库的文章。
通过文章 url 访问文章所属期刊网站上的文章页面。
从文章页面中解析更多文章的详细信息并 UPDATE 数据库。
需要针对每个不同的站点，开发出不同的解析函数（parser）
根据 response.url 的不同，调用不同的解析函数来提取信息。
解析函数中可使用 scc 与 xpath 选择器提高效率。

4 小结

本想写一篇技术文，实现过程中却发现项目太简单，后续工作又太繁琐，先写到这里吧。

好吧，这是一篇科普文。

综上，本文介绍了爬虫项目中的几种常用工具。

整个项目的源代码就不贴了，好多文件的… 有兴趣的小伙伴可以留言。

DBLP 搜索爬虫项目相关推荐

python爬虫项目-32个Python爬虫实战项目，满足你的项目慌
原标题:32个Python爬虫实战项目,满足你的项目慌爬虫项目名称及简介一些项目名称涉及企业名词,小编用拼写代替 1.[WechatSogou]- weixin公众号爬虫.基于weixin公众号爬 ...
python爬虫项目-33个Python爬虫项目实战(推荐)
今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...
python爬虫项目-32个Python爬虫项目让你一次吃到撑
今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1]- ...
python爬虫项目-23个Python爬虫开源项目代码
今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号 ...
python爬虫新手项目-33个Python爬虫项目实战(推荐)
今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...
python爬虫教程推荐-33个Python爬虫项目实战(推荐)
今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...
post获取重定向的链接 python_欧美音乐网站Python爬虫项目实战
爬虫项目实战 0x01 目标分析最近发现一个比较好的欧美音乐下载网站,可以下载大部分高质量欧美音乐.该爬虫项目要实现自动化批量获取用户想要下载的音乐.本文从网站分析.爬虫设计.代码实现三个方面出发, ...
自己帮别人写的网站可以公开源码吗_专注爬虫：20个精心总结爬虫项目，爬虫技术这里强（附源码）...
写在前面你想成为Python爬虫的高手么?你想爬取你想要的高质量数据么? 那么你得需要进行爬虫项目的演练,那样你才有可能在Python爬虫的道路上走的更远小编在这里精心总结了20个爬虫项目的演练, ...
32个Python爬虫项目
今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...