Python爬虫之初识简介以及舆情系统简介【爬虫篇一】
目录
- 爬虫简介
- 爬虫基本操作
- 爬虫的作用:
- 舆情系统:
- 简单示例:
爬虫简介
爬虫技术的形成(搜索公司的出现)
第一阶段:大黄页(自己建立一个文档,记录域名 和该域名作用)
第二阶段:搜索公司出现,收录所有网站的关键字信息 ,别人一搜索关键字,我就把网站跳出来,该阶段依靠网站提供给搜索公司
第三阶段:由于网站数量和关键字太多,爬虫的兴起
爬虫第一阶段:弄个机器人对所有的域名和对应的关键字,保存起来
爬虫第二阶段:爬一个网站里面所有的a标签,不出意外肯定有一个超链接链接的别人的网站(一般友情链接),别人的网站同样也有超链接,所以大家的网站都是有关联的,这里形成了所谓的蜘蛛网(关系网),这样只要你在该蜘蛛网某条线上,早往可以获取到所有在网站关键信息(开个自动化的程序,任意在网络畅游获取你想要的信息)
爬虫第三阶段:搜索公司进入点击广告模式,付费优先让你网站被搜索到
爬虫基本操作
爬虫
- 定向: 指定你所需要的资源,如你要搜索爱情类的电影
- 非定向:蜘蛛网全世界遨游(上面都爬取)
爬虫的作用:
爬虫公共信息,为自己所用
一个刚创业做汽车资讯的,由于没有编辑,所以希望去各知名大网站爬取相应的文章资讯信息放在自己的app,这样app内容就丰富了,然后别人一点击就跳转别人的资讯内容url。这就是一个资讯的集合(资讯汇总)
比如你自己弄个公众号,需要推一些文章,文章你能自己写吗?每天都写?或者每天去网络找文章发到公众号?
又如租房app,我只想要做个人房源(抛掉中介的房源),你需要个各大租房网站爬取个人房源信息做个筛选吧个人信息拿过来(当然这个比喻,租房app没那么简单)
舆情系统:
取监听各大门户网站(新浪,天涯,搜狐,腾讯,猫扑,网易等等)的热词、热门词条、热门新闻。
然后这些拿到我们自己的网站进行展示.(屏幕)
然后由一个管理员进行观看,对于这些热门的词汇,新闻等等是否对自己的企业有影响,如果有就进一步去处理
比如,新浪新闻:在其搜索里面搜索自己企业的名字
自己定义一些关键字:企业老总的名字,企业名字,企业自己的产品,企业业务,等等一些关于自身企业重要的信息根据新浪的搜索url进行授信
1然后下载搜索出来的页面
2.进行正则匹配筛选出新闻的条目标签(根据div包裹div包裹h2标签这样匹配),(Python有模块已经有人帮你下好正则了)
3.获取的信息拿到自己的网站展示,然后管理员看到相关信息,如果对企业自身或者该行业有重要新闻影响,就进一步处理
简单示例:
__author__ = "Burgess Zheng"
#!/usr/bin/env python
#-*- coding:utf-8 -*-import requests #访问模块
from bs4 import BeautifulSoup #爬虫模块
response = requests.get(url='http://search.sina.com.cn/?q=%CD%F8%BA%EC%B0%CB%D8%D4&range=all&c=news&sort=time'
)
#response.txt:获取该url的html文本(下载下来的是字节,会出现乱码,因为不知道该网站使用什么字符集)
response.encoding = response.apparent_encoding #字符集转换成utf8(就不会出现乱码)soup = BeautifulSoup(response.text,features='html.parser')#html文本转换成对象#features='html.parser' 一种模式,把html文本的标签转换成对象的模式#生存环境使用另外一个模式features='lxml'需要额外安装才可以使用(性能更好)target = soup.find(attrs={'class':'result'})#进行匹配soup(html对象)里面的id='xx'的标签对象 (记住每个标签都是一个对象,对象里面可以包括对象)
new_list = target.find_all(attrs={'class':'box-result clearfix'})
# print(new_list)for item in new_list:title_a = item.find('h2').find('a')title_url = title_a.attrs.get('href')title_name = title_a.textprint('%s:%s' %(title_url,title_name))
执行结果:
Python爬虫之初识简介以及舆情系统简介【爬虫篇一】相关推荐
- python商品评论数据采集与分析可视化系统 Flask框架 requests爬虫 NLP情感分析 毕业设计 源码
一.项目介绍 python商品评论数据采集与分析可视化系统 Flask框架.MySQL数据库. requests爬虫.可抓取指定商品评论.Echarts可视化.评论多维度分析.NLP情感分析.LDA主 ...
- 基于python的网络舆情系统通用框架
一.前言 网络舆情是目前各类企业和机构研究的热点内容,舆情数据种类繁多衍生出各类舆情系统.舆情系统的数据来源可以通过数据网站进行购卖,更多的可以利用网络爬虫技术进行数据爬取.舆情系统整体上应具有数据采 ...
- 品牌舆情监测系统简介,品牌舆情监测及应对方案?
品牌舆情监测是指通过观察和分析互联网和社交媒体上关于企业.产品或服务的信息,以了解消费者对企业.产品或服务的看法和感受.品牌舆情监测可以帮助企业了解消费者对企业.产品或服务的反馈,从而改进产品和服务, ...
- 舆情监控系统python开源_TiDB 在西山居实时舆情监控系统中的应用
公司简介 西山居创建 1995 年初夏,在美丽的海滨小城珠海,西山居工作室孕育而生,一群西山居居士们十年如一日尅勊业业的奋斗."创造快乐,传递快乐!" 一直是西山居居士们的创作宗旨 ...
- 微专业python爬虫工程师_从零起步 系统入门Python爬虫工程师
课程简介: 从零起步 系统入门Python爬虫工程师 大数据时代,python爬虫工程师人才猛增,本课程专为爬虫工程师打造,课程有四个阶段,爬虫0基础入门->项目实战->爬虫难点突破-&g ...
- python成绩查询系统_Python爬虫实战:登录教务系统查成绩
本文记录我用Python登录教务系统查询成绩的过程.手动输入验证码,简单获取成绩页面.后续将可能更新自动识别验证码登录查询 前期准备 本爬虫用到了Python的Requests库和BeautifulS ...
- 【大数据分析毕设之基于python爬虫的旅游大数据分析可视化系统】
[大数据分析毕设之基于python爬虫的旅游大数据分析可视化系统-哔哩哔哩] https://b23.tv/z2OUTkp flask web框架,数据使用selenium模块爬取携程网获取数据,使用 ...
- 【厚积薄发系列】C++项目总结11—基于Python爬虫框架的Bug规范性检查系统
需求背景: 日常开发和集成测试期间由于团队的庞大,每天测试新建的Bug和开发关闭的Bug数量也比较多,难免有些测试提Bug时其描述不规范,或者开发关Bug时备注不规范.如果每天投入人力去全部过这些Bu ...
- 由浅到深玩转Python爬虫(一)初识爬虫
文章目录 前言 1. Python版本如何选择? 2. IDE如何选择? 3. 初识爬虫 4. 爬虫前景怎么样? 5. 怎么编写爬虫? 6. 来!我们上道具 7. 致谢 前言 由于自身对爬虫技术的 ...
最新文章
- 【UI设计培训基础知识】设计中的点线面-线
- Django MTV模型思想
- java 接口与抽象类的区别
- python对XML的解析
- python科学计算模块有什么_Python科学计算—numpy模块总结(1)
- BugKuCTF WEB 输入密码查看flag
- HAOI2018 染色
- SQL Server2008 查找用户登录日志
- ubuntu arm qt_Cyclone V SOC(ARM+FPGA)开发文档_之开发流程详解
- 此版本的visual studio无法打开下列项目_深度学习实现高精度钢琴曲转谱Piano transcription项目简明使用教程...
- Java基础教程【第三章:Java运算符】
- 1. Browser 对象 - Window 对象
- 开关电源三种拓扑的产生
- ubuntu16.04 设置开机自动运行程序
- 四核网络机顶盒芯片局势分析(开放市场):rk3128将会成为四核主流
- 台式win10怎么开启无线服务器,无线网卡怎么用? win10系统台式机安装无线网卡的详细教程...
- 大秦帝国和芈月传对比
- 详解cmd修复系统命令操作方法
- 68 个 Python 内置函数详解
- python 全栈开发,Day86(上传文件,上传头像,CBV,python读写Excel,虚拟环境virtualenv)