总体来说,功能是实现了,大体python 代码400行左右,但是和一个真正的爬虫还差远,只能算是一个定制化的信息抓取的程序。而后台检索是用开源的coreseek,所以整体来说,跟我没啥关系。

下面简单的阐明下流程:

  1. bbs 有很多栏目,在seed文件中手工输入要爬取栏目的rss地址;
  2. 读入rss地址,分析里面的链接和内容,这里是用beatifulsoup 来做的 ,并插入数据库,当然不会爬取相同的页面
  3. 之后去除html的标签 放在数据库某个字段中
  4. coreseek 安装,并配置conf 文件,使其index 我爬下来的东西,coreseek 自己集成了mmseg 这个分词软件,所以分词也不用管了
  5. 写两个web页面,python 写的,使其 可以连接coreseek 的search 程序,查询关键字,并返回相应的信息,提取其中的id,然后从数据库中取出命中的链接,然后在搜索结果上显示。

细细想来,真正核心的东西不多,稍微有点亮点的东西

  • beatifulsoup 解析标签,快速学习,快速使用这个东西
  • 写了一些脚本,包括shell的 ,算是再次熟悉了一些东西
中途出现一个小插曲,自己周五把卡丢了,当时在失物招领的版块里一个一个打开页面,找我的名字,觉得挺麻烦的 ,然后在搜索页面搜我的名字,或一卡通,确实搜出了一些信息,

那么这个东西算是告一段落,下周要忙下公司和公开课的事情,这个代码算是一个demo,以后再继续完善。

原始博客地址:点击

北邮bbs爬取阶段性总结相关推荐

  1. 北邮 python 学堂在线动态请求页面内容爬取

    声明:用途仅供学习使用 实验一 爬取学堂在线: 一.实验题目 爬取学堂在线的计算机类课程页面内容 点击跳转学堂在线 要求将课程名称.老师.所属学校和选课人数信息,保存到一个csv文件中. 二.实验环境 ...

  2. Python 爬取北京二手房数据,分析北漂族买得起房吗?(附完整源码)

    来源:CSDN 本文约3500字,建议阅读9分钟. 本文根据Python爬取了赶集网北京二手房数据,R对爬取的二手房房价做线性回归分析,适合刚刚接触Python&R的同学们学习参考. 房价高是 ...

  3. 北上资金 python_股票数据抓取——北上基金持股数据(selenium抓取数据),爬取,之,北向,资金,通过...

    目前很多网站对爬虫都有防范措施,传统的爬数据方法不一定有效.我们只能曲线救国,通过模拟网页浏览方式爬取数据,虽然速度慢,既能达到目标又不会网站服务器增加压力,双赢吧. Python环境要先下载sele ...

  4. python 北上资金_python爬虫技术:北向资金数据自动爬取!

    好久不见!今天我们继续python的话题啦.python现在势头凶得很,没事刷抖音.刷朋友圈.看公众号,弹出的广告总少不了python."python带你发家致富,财富自由!"广告 ...

  5. perl脚本爬虫程序,支持爬取北大未名bbs、163新闻、ifeng新闻、猫扑论坛、sina新闻等

    [实例简介] 采用perl脚本写的爬虫程序,可以爬取北大未名bbs.163新闻.ifeng新闻.猫扑论坛.sina新闻等 [实例截图] 文件:590m.com/f/25127180-494436243 ...

  6. python二手房数据分析_Python 爬取北京二手房数据,分析北漂族买得起房吗? | 附完整源码...

    作者 徐麟 本文经授权转自公众号数据森麟(ID: shujusenlin) 房价高是北漂们一直关心的话题,本文就对北京的二手房数据进行了分析. 本文主要分为两部分:Python爬取赶集网北京二手房数据 ...

  7. Python爬虫之路-爬取北、上、广租房信息

    链家网 在实现爬取北.上.广租房信息时,需要使用fake_useragent.asyncio.aiohttp.requests.lxml以及pandas模块. 各模块关键技术如下: 1.fake_us ...

  8. python爬虫阶段性总结和项目实操——爬取猫眼票房Top100

    本博客通过爬取猫眼票房Top100来简要复习一下网页的HTML获取(requests库)解析(Beautiful Soup库)和数据保存(csv库)以及总结一下爬取过程中遇到的问题和解决方法 运行结果 ...

  9. Python网络爬虫实例——“中国最好大学排名爬取”(嵩天:北理工大学)学习笔记

    这个例子比较简单也容易理解,我将细致的解析这个例子中算法流程.写一个博客算是给自己一个激励吧.一起加油.(_ZHJ三月和九月) 完整版代码 import requests from bs4 impor ...

  10. 停招!MSRA,被曝停招国防七子及北邮学生!!

    转自:量子位 杨净 | 编辑:Jack Cui 微软亚洲研究院--MSRA,被曝停招国防七子高校及北邮的学生! 看到消息,我特意去问了下在 MSRA 呆过的朋友: 直白说,北京理工大学,北京航空航天大 ...

最新文章

  1. Ka的回溯编程练习 Part1|整划什么的。。
  2. 配置nginx对php的支持
  3. 非你所想:eigrp非等价负载均衡
  4. gc方法写法_清标的内容、技巧及书写方式
  5. 怪物猎人服务器维护时间,怪物猎人云服务器
  6. [html] 在网格布局中都有哪些概念呢?比如:网格线
  7. 【项目管理】三球模型
  8. Kotlin学习笔记17 反射Part1
  9. Java Applet编程总结
  10. 我的网站恢复访问了,http://FansUnion.cn
  11. 软件开发项目管理经验总结
  12. 829-信息检索教程【考点汇总】
  13. 在网站优化中怎么做好关键词密度?
  14. 英雄联盟|王者|穿越火线 bgm AI配乐大赛分享
  15. 【重识云原生】第六章容器基础6.4.10.1节——StatefulSet概述
  16. ps神经网络滤镜用不了,ps神经网络滤镜安装包
  17. Win10 或者Win7 64位系统安装32位的CAD2010教程
  18. Nginx最新教程通俗易懂
  19. 高通 MSM8K GPT异常导致无法开机问题分析
  20. Unity 基于LineRenderer组件实现连线功能

热门文章

  1. php遵义旅游管理系统的设计与实现毕业设计源码091801
  2. STM32,仿照LL库,编写FLASH的LL库(内有完成代码)(STM32F0)
  3. python——正则表达式详解(二)
  4. 考高级用计算机和外语证,济南:“老外”也能评职称了!2018年度申报开始,这些专业评高级不用考外语计算机...
  5. Mysql B+树索引的使用
  6. DXF文件结构与示意
  7. 小米冲高端?差了几口气
  8. Centos Piranha安装过程
  9. 2013年系统架构师考试题详解
  10. Window安装Redis并设置为开机启动