1.实验目的
l 掌握使用Scrapy等爬虫工具编写爬虫程序的基本思路;
l 掌握抓取列表+详情的静态组合页面的方法
2.实验要求

  1. 抓取目标。可以选择以下网站作为抓取目标,也可以自行寻找自己感兴趣的抓取目标:
    爬取网页:“李开复的博客”:http://blog.sina.com.cn/kaifulee
  2. 任务要求。
    1)分析页面结构,确定待抓取的数据项,至少应抓取文章标题、发表时间、正文内容、文章URL等,可以根据选择的抓取目标的内容特点增加额外的数据项,如抓取新浪博客时可以额外抓取标签、分类、阅读数、评论数等数据项,新闻类可以额外抓取作者、新闻来源等数据项。

2)正确处理目录页面和正文页面,能够自动抓取至少100篇网页内容。

3)数据持久化。将数据存入磁盘文件,Scrapy可以参考下列文章:
https://blog.csdn.net/qy20115549/article/details/52575291
爬取结果:
csv文件



github源码链接:
https://github.com/wmj555/datapython

爬取李开复博客并导入mongodb数据库相关推荐

  1. 数据采集实验-爬取李开复博客并保存在csv和mongodb中

    文章目录 实验目的 实验要求 实验程序及运行结果 实验内容概述 代码解说 翻页:通过回调函数实现翻页. 显示页数:利用response.xpath获得当前页数. 爬取目录页:标题.时间.链接. 爬取动 ...

  2. python requests爬虫——爬取李开复博客信息(包括javascript部分信息)

    今天是国庆假期第二天,已经玩了一天了,今天整理一下前两天写的数据分析作业思路,给实验报告打一下底稿.供对爬虫有兴趣的小伙伴们参考,也希望给实验没完成的同学提供一点小小的帮助. 任务要求. 1)分析页面 ...

  3. 使用Python爬取CSDN历史博客文章列表,并生成目录

    使用Python爬取CSDN历史博客文章列表,并生成目录 这篇博客将介绍如何使用Python爬取CSDN历史博客文章列表,并生成目录. 2020年 2020年04月 cv2.threshold() 阈 ...

  4. Python爬虫小实践:爬取任意CSDN博客所有文章的文字内容(或可改写为保存其他的元素),间接增加博客访问量...

    Python并不是我的主业,当初学Python主要是为了学爬虫,以为自己觉得能够从网上爬东西是一件非常神奇又是一件非常有用的事情,因为我们可以获取一些方面的数据或者其他的东西,反正各有用处. 这两天闲 ...

  5. Selenium3+python3自动化(四十三)--爬取我的博客园粉丝的名称,并写入.text文件...

    爬取目标 1.爬取目标网站:我的博客:https://home.cnblogs.com/u/canglongdao/followers/ 爬取内容:爬取我的博客的所有粉丝的名称,并保存到txt 3.由 ...

  6. python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库

    python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库 准备阶段 在正式开始在前需要先准备好做爬虫的工具,本例使用chrome无头浏览器进行爬取工作,也可使用 ...

  7. python爬取好友qq空间_python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库...

    title: python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库 准备阶段 在正式开始在前需要先准备好做爬虫的工具,本例使用chrome无头浏览器进行爬取 ...

  8. python爬虫教程:基于python框架Scrapy爬取自己的博客内容过程详解

    前言 python中常用的写爬虫的库常有urllib2.requests,对于大多数比较简单的场景或者以学习为目的,可以用这两个库实现.这里有一篇我之前写过的用urllib2+BeautifulSou ...

  9. Python Ajax爬取微博个人博客数据

    文章目录 利用request.pyquery.xlwings等库抓取微博个人博客数据. (1)抓取[目标网址](https://m.weibo.cn/u/2830678474) (2)用 Chrome ...

最新文章

  1. Linux环境编程--linux中的perror、exit、_exit、wait 和 waitpid
  2. 选择适合过一辈子的人
  3. 如何将qmainwidget 客户区坐标_滋补品行业营销感悟之:如何将同行变成客户?
  4. mysql把一个字段加到另一张表中_mysql如何能把一个表中的某一字段下的数据加入另一个表中相同字段下,条件是两表中的某字段相同?...
  5. 用随机梯度下降来优化人生
  6. sqlserver日志文件在哪_用友SQL SERVER数据库置疑修复实例
  7. 开源正在蚕食 500 亿美元的数据库行业!
  8. python权威指南 pdf_Python高级编程(第2版) 中文完整pdf扫描版[76MB]
  9. 线程池版本的mysql_MySQL线程池内幕
  10. linux命令last格式,Linux last和lastlog命令:查看过去登陆的用户信息
  11. TiledMap使用笔记
  12. 用计算机知识写祝福,计算机课程设计心得体会
  13. [V811双核] 最新昂达V811最新2.0固件ROOT方法
  14. 3分钟教会你Graylog收集Windows主机日志
  15. Python基本数据类型大集合
  16. 实用分析工具推荐 | OmicsView:交互式可视化分析多组学数据
  17. java实现拆分元素,java-将列表沿元素拆分为子列表
  18. c语言vc2010使用方法
  19. 入木三分学网络第一篇--VRRP协议详解-----(2)
  20. 对NVMe SSD热插拔时,我需要注意什么?

热门文章

  1. Vue 颜色选择器组件
  2. 【测试环境】cywin的简单介绍
  3. php json语法错误,在PHP json_decode()中检测到错误的json数据?
  4. 2021年美容师(初级)模拟考试题及美容师(初级)实操考试视频
  5. 枚举算法经典日期问题详解java
  6. Windows多次复制粘贴快捷键
  7. chatgpt赋能python:Python如何变大字体的SEO技巧
  8. 国外程序员整理的机器学习资源大全
  9. echarts饼图属性
  10. echarts饼图 配置,及案例