前两篇博客,我们介绍了如何对豆瓣读书历史记录进行抓取,这一篇博客是一个收尾工作。
传送门:

  • 爬取豆瓣读书-用户信息页链接(Python爬虫实战)
  • 爬取豆瓣读书-用户所有阅读书籍名称、日期和书籍链接(Python爬虫实战)

本文适用于利用标签系统(Tagging System)对豆瓣读书用户的读书兴趣建模,对用户进行相关推荐研究工作。

import requests
from bs4 import BeautifulSoupheaders = {"Host": "book.douban.com",'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}def GetBookTags(link):res=requests.get(link,headers=headers,allow_redirects=False)res.encoding='utf-8'soup=BeautifulSoup(res.text)#获取书籍标签tags=[]for tag in soup.select('a[class="tag"]'):tags.append(str(tag.text))print(tags)if __name__=="__main__":url=r"https://book.douban.com/subject/1209078/"GetBookTags(url)

当然,除了通过直接爬取豆瓣用户常用的标签来构建标签系统以外,我们还可以通过对书籍的介绍文本内容进行关键词提取(常见算法有TextRank,LDA和HMM),感兴趣的朋友可以去学习相关算法的原理和使用。

这里给出一个TextRank算法提取书籍介绍文本的代码仅供参考,使用jieba中文开源工具进行关键词抽取。代码如下:

#导入jieba工具包
import jieba.analyse#课程介绍文本-爬取方法不难实现,可参照本文第一个代码
text="你的博文爬取豆瓣读书书籍(豆瓣成员常用的标签)标签-Python爬虫实战因涉及“版权不明”, 审核未通过,您可以修改相关内容后再次发布。健康和谐的网络环境,需要我们共同维护,如有问题请联系客服。"#1.分词
fenci_text = jieba.cut(text)
#2.去掉停用词
textrank=jieba.analyse.textrank
stopwords = {}.fromkeys([line.rstrip() for line in open('stop_words.txt')])#stop_words.txt是一个停用词表,在nlp处理中很常见,可以自行搜索下载
final=""
for word in fenci_text:if word not in stopwords:final=final+word
#提取关键词
keywords_TR=textrank(final, topK=20)#top-k的值可以按照实际效果进行设置,这里采用K=20
print(keywords_TR)

爬取豆瓣读书-豆瓣成员常用的标签(Python爬虫实战)相关推荐

  1. 爬虫python下载网站所有图片_爬取某图片网站多页图片的python爬虫

    1.[代码][Python]代码 # coding=utf-8 import requests import re from lxml import etree import time import ...

  2. 利用python爬取知乎评论_一个简单的python爬虫,爬取知乎

    一个简单的python爬虫,爬取知乎 主要实现 爬取一个收藏夹 里 所有问题答案下的 图片 文字信息暂未收录,可自行实现,比图片更简单 具体代码里有详细注释,请自行阅读 项目源码: 1 # -*- c ...

  3. python爬取正确但不出文件_[求助] Python 爬虫爬取豆瓣_请不要害羞,语法没有报错,但是最终没有得到图片,请各位大神帮我看看,到底哪里出现了问题??急求...

    don't be shy.py #coding=utf-8 import requests #导入 requests 模块 from bs4 import BeautifulSoup #导入 Beau ...

  4. python+selenium爬取淘宝商品信息+淘宝自动登录——爬虫实战

    1.前言 继续学习爬虫内容,这回是以selenium模拟操作进行抓取,其中有几个需要登陆的注意事项. 2.自动登陆+查找页面 由于现在淘宝的反爬机制,需要登陆才好下一步操作.在搜索输入后页面会调入登陆 ...

  5. python selenium 爬取js加载的内容为空,Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容...

    1,引言 在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor.本文记录了确定gsExtractor的技术路线过程中所做的编程实验.这是第二部分,第一 ...

  6. python爬取网页上的特定链接_自学python爬虫二:如何正常操作urllib2通过指定的URL抓取网页内容...

    所谓网页抓取, 就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 在P ...

  7. 进一步了解XPath(利用XPath爬取飞哥的博客)【python爬虫入门进阶】(04)

    您好,我是码农飞哥,感谢您阅读本文,欢迎一键三连哦. 本文是爬虫专栏的第四篇,重点介绍lxml库与XPath搭配使用解析网页提取网页内容. 干货满满,建议收藏,系列文章持续更新. 小伙伴们如有问题及需 ...

  8. python爬取天天基金_「天天基金网每日净值」python爬虫简单爬取天天基金的基金信息和每日净值 - 金橙教程网...

    天天基金网每日净值 fROM bs4 import BeautifulSoup import Requests import JSON import js2py import time from el ...

  9. python爬虫实战之爬取有道翻译

    文章目录 介绍 网页分析 代码实战 当我们学习python爬虫时我们需要做大量的练习,往后我会发布更多的python爬虫练习实战代码,进一步剖析爬虫的每一个细节 介绍 本次爬取的是有道翻译,利用pyt ...

最新文章

  1. 如何在文件夹中运行cmd命令行
  2. 莱特准则 matlab,初学MATLAB,遇到一简单的题目,一点头绪也没有啊.99
  3. 微软系统修复工具(试用版)
  4. CountDownLatch应用实战
  5. python吃香吗_python编程为何这么吃香
  6. JavaScript 流行度最高,Java 屈居第三! | 2020 最新软件开发状况报告
  7. Team Foundation Server XXX 不存在,或者此时不可访问:解决方案
  8. java工程师占比_25岁零基础转行学Java,他如今月入16k
  9. 脱离 Windows 完全使用 Linux你花了多少时间适应?
  10. Centos 安装 K8S
  11. 小米(xiaomi)红米(Redmi)手机一开机就自动重启:find device closed unexpectedly
  12. 【06月25日】指数估值排名
  13. python eel + vue开发桌面应用
  14. Spark的搭建及实现单词统计
  15. python 基础之 控制结构 篇
  16. flex 的 三个参数:flex-grow、flex-shrink、flex-basis
  17. gitee 图床因外链访问过多被封,我们该怎么办
  18. Mybatis-plus :分页带条件查询
  19. 固态硬盘多大合适 php,固态硬盘温度一般多少度
  20. MES系统具有哪些优势

热门文章

  1. 2020高级操作系统 复习考点(五)
  2. 计算机控制系统fcs是,在计算机控制系统中,FCS是指()。A.集散控制系统B.数字仪表控制系统C.现场总线控制系统...
  3. 读书笔记:不可能的技艺,巅峰人生需要凶猛的起点
  4. java实现QQ、微信等第三方账号登陆
  5. pdf文件内容查看器 -- 采用wpf开发
  6. logitech摄像头 linux,logitech webcam linux 驱动安装
  7. Vue 路由器入门指南
  8. 世界顶级人像摄影大师作品欣赏
  9. 02 ,概率论 :初级概念,极差,频率,直方图,曲线图
  10. 奢华运动服饰品牌博格纳中国首家精品店北京开业;乐高集团品牌零售业务在华发展跃上新台阶 | 知消...