爬取豆瓣读书-豆瓣成员常用的标签（Python爬虫实战）

前两篇博客，我们介绍了如何对豆瓣读书历史记录进行抓取，这一篇博客是一个收尾工作。
传送门：

爬取豆瓣读书-用户信息页链接（Python爬虫实战）
爬取豆瓣读书-用户所有阅读书籍名称、日期和书籍链接（Python爬虫实战）

本文适用于利用标签系统（Tagging System）对豆瓣读书用户的读书兴趣建模，对用户进行相关推荐研究工作。

import requests
from bs4 import BeautifulSoupheaders = {"Host": "book.douban.com",'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}def GetBookTags(link):res=requests.get(link,headers=headers,allow_redirects=False)res.encoding='utf-8'soup=BeautifulSoup(res.text)#获取书籍标签tags=[]for tag in soup.select('a[class="tag"]'):tags.append(str(tag.text))print(tags)if __name__=="__main__":url=r"https://book.douban.com/subject/1209078/"GetBookTags(url)

当然，除了通过直接爬取豆瓣用户常用的标签来构建标签系统以外，我们还可以通过对书籍的介绍文本内容进行关键词提取（常见算法有TextRank，LDA和HMM），感兴趣的朋友可以去学习相关算法的原理和使用。

这里给出一个TextRank算法提取书籍介绍文本的代码仅供参考，使用jieba中文开源工具进行关键词抽取。代码如下：

#导入jieba工具包
import jieba.analyse#课程介绍文本-爬取方法不难实现，可参照本文第一个代码
text="你的博文爬取豆瓣读书书籍（豆瓣成员常用的标签）标签-Python爬虫实战因涉及“版权不明”， 审核未通过，您可以修改相关内容后再次发布。健康和谐的网络环境，需要我们共同维护，如有问题请联系客服。"#1.分词
fenci_text = jieba.cut(text)
#2.去掉停用词
textrank=jieba.analyse.textrank
stopwords = {}.fromkeys([line.rstrip() for line in open('stop_words.txt')])#stop_words.txt是一个停用词表，在nlp处理中很常见，可以自行搜索下载
final=""
for word in fenci_text:if word not in stopwords:final=final+word
#提取关键词
keywords_TR=textrank(final, topK=20)#top-k的值可以按照实际效果进行设置，这里采用K=20
print(keywords_TR)

爬取豆瓣读书-豆瓣成员常用的标签（Python爬虫实战）相关推荐

爬虫python下载网站所有图片_爬取某图片网站多页图片的python爬虫
1.[代码][Python]代码 # coding=utf-8 import requests import re from lxml import etree import time import ...
利用python爬取知乎评论_一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: 1 # -*- c ...
python爬取正确但不出文件_[求助] Python 爬虫爬取豆瓣_请不要害羞，语法没有报错，但是最终没有得到图片，请各位大神帮我看看，到底哪里出现了问题？？急求...
don't be shy.py #coding=utf-8 import requests #导入 requests 模块 from bs4 import BeautifulSoup #导入 Beau ...
python+selenium爬取淘宝商品信息+淘宝自动登录——爬虫实战
1.前言继续学习爬虫内容,这回是以selenium模拟操作进行抓取,其中有几个需要登陆的注意事项. 2.自动登陆+查找页面由于现在淘宝的反爬机制,需要登陆才好下一步操作.在搜索输入后页面会调入登陆 ...
python selenium 爬取js加载的内容为空,Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容...
1,引言在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor.本文记录了确定gsExtractor的技术路线过程中所做的编程实验.这是第二部分,第一 ...
python爬取网页上的特定链接_自学python爬虫二：如何正常操作urllib2通过指定的URL抓取网页内容...
所谓网页抓取, 就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 在P ...
进一步了解XPath（利用XPath爬取飞哥的博客）【python爬虫入门进阶】（04）
您好,我是码农飞哥,感谢您阅读本文,欢迎一键三连哦. 本文是爬虫专栏的第四篇,重点介绍lxml库与XPath搭配使用解析网页提取网页内容. 干货满满,建议收藏,系列文章持续更新. 小伙伴们如有问题及需 ...
python爬取天天基金_「天天基金网每日净值」python爬虫简单爬取天天基金的基金信息和每日净值 - 金橙教程网...
天天基金网每日净值 fROM bs4 import BeautifulSoup import Requests import JSON import js2py import time from el ...
python爬虫实战之爬取有道翻译
文章目录介绍网页分析代码实战当我们学习python爬虫时我们需要做大量的练习,往后我会发布更多的python爬虫练习实战代码,进一步剖析爬虫的每一个细节介绍本次爬取的是有道翻译,利用pyt ...

爬取豆瓣读书-豆瓣成员常用的标签（Python爬虫实战）

爬取豆瓣读书-豆瓣成员常用的标签（Python爬虫实战）相关推荐

最新文章

热门文章