python爬取文字编程_Python怎么爬取人人网新鲜事
Python怎么爬取人人网新鲜事
发布时间:2020-08-24 18:10:44
来源:亿速云
阅读:113
这篇文章将为大家详细讲解有关Python怎么爬取人人网新鲜事,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。
Python实现登录人人网并抓取新鲜事的方法:from sgmllib import SGMLParser
import sys,urllib2,urllib,cookielib
class spider(SGMLParser):
def __init__(self,email,password):
SGMLParser.__init__(self)
self.h4=False
self.h4_is_ready=False
self.div=False
self.h4_and_div=False
self.a=False
self.depth=0
self.names=""
self.dic={}
self.email=email
self.password=password
self.domain='renren.com'
try:
cookie=cookielib.CookieJar()
cookieProc=urllib2.HTTPCookieProcessor(cookie)
except:
raise
else:
opener=urllib2.build_opener(cookieProc)
urllib2.install_opener(opener)
def login(self):
url='http://www.renren.com/PLogin.do'
postdata={
'email':self.email,
'password':self.password,
'domain':self.domain
}
req=urllib2.Request(
url,
urllib.urlencode(postdata)
)
self.file=urllib2.urlopen(req).read()
#print self.file
def start_h4(self,attrs):
self.h4 = True
def end_h4(self):
self.h4=False
self.h4_is_ready=True
def start_a(self,attrs):
if self.h4 or self.div:
self.a=True
def end_a(self):
self.a=False
def start_div(self,attrs):
if self.h4_is_ready == False:
return
if self.div==True:
self.depth += 1
for k,v in attrs:
if k == 'class' and v == 'content':
self.div=True;
self.h4_and_div=True #h4 and div is connected
def end_div(self):
if self.depth == 0:
self.div=False
self.h4_and_div=False
self.h4_is_ready=False
self.names=""
if self.div == True:
self.depth-=1
def handle_data(self,text):
#record the name
if self.h4 and self.a:
self.names+=text
#record says
if self.h4 and (self.a==False):
if not text:pass
else: self.dic.setdefault(self.names,[]).append(text)
return
if self.h4_and_div:
self.dic.setdefault(self.names,[]).append(text)
def show(self):
type = sys.getfilesystemencoding()
for key in self.dic:
print ( (''.join(key)).replace(' ','')).decode('utf-8').encode(type), \
( (''.join(self.dic[key])).replace(' ','')).decode('utf-8').encode(type)
renrenspider=spider('your email','your password')
renrenspider.login()
renrenspider.feed(renrenspider.file)
renrenspider.show()
关于Python怎么爬取人人网新鲜事就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
python爬取文字编程_Python怎么爬取人人网新鲜事相关推荐
- python爬虫知乎点赞_Python爬虫爬取知乎小结
最近学习了一点网络爬虫,并实现了使用Python来爬取知乎的一些功能,这里做一个小的总结.网络爬虫是指通过一定的规则自动的从网上抓取一些信息的程序或脚本.我们知道机器学习和数据挖掘等都是从大量的数据出 ...
- python 实时数据推送_python scrapy 爬取金十数据并自动推送到微信
一.背景 因业务需要获取风险经济事件并采取应对措施,但因为种种原因又疏忽于每天去查看财经日历,于是通过爬取金十数据网站并自动推送到微信查看. 二.目标实现 image 三.环境与工具 1.pychar ...
- python怎么使用int四舍五入_python中如何取整数
首先,不得不提醒大家一个容易被忽视或者搞混的问题--一般的,0.5这种末尾是5的小数,四舍五入取整应进位.这个进位的意思是:-0.5 → -1:0.5 → 1.即正负情况不同,都向着远离0,使得绝对值 ...
- python极客项目编程_Python极客项目编程 ([美]Mahesh Venkitachalam) 中文pdf完整版
Python是一种解释型.面向对象.动态数据类型的高级程序设计语言.通过Python编程,我们能够解决现实生活中的很多任务.Python极客项目编程通过14个有趣的项目,帮助和鼓励读者探索Python ...
- python语言支持函数式编程_python是函数式语言么
函数式编程:functional,是一种编程范式. 函数式编程的特点:1. 把计算视为函数而非指令 2. 纯函数式编程:不需要变量,没有副作用,测试简单 3. 支持高阶函数,代码简洁 Python支持 ...
- python处理excel实例编程_python处理Excel的简单示例
对python这个高级语言感兴趣的小伙伴,下面一起跟随编程之家 jb51.cc的小编两巴掌来看看吧! Python中一般使用xlrd库来读取Excel文件,使用xlwt库来生成Excel文件,使用xl ...
- python 爬虫可视化编程_Python爬虫爬取博客实现可视化过程解析
源码: from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link='https ...
- 如何使用python爬取百度图片_python实现爬取百度图片的方法示例
本文实例讲述了python实现爬取百度图片的方法.分享给大家供大家参考,具体如下: import json import itertools import urllib import requests ...
- python爬去百度图片_python实现爬取百度图片的方法示例
本文实例讲述了python实现爬取百度图片的方法.分享给大家供大家参考,具体如下: import json import itertools import urllib import requests ...
最新文章
- 用Leangoo看板工具做办公室采购流程管理
- 肠·道 | 朱元方:产检消毒恐误伤菌脉,6大举措则促菌脉相承
- ubuntu 常见配置文件
- 盘点十个最伟大的公式,1+1=2仅排到了第七
- CSS图片水平垂直居中
- 数据科学和统计学_数据科学中的统计
- 重磅!阿里首次全面公开展示AI布局(附布局图/成绩单/六产业详解)
- (转)getElementByID getElementsByName getElementsByTagName用法详解
- autotools归纳
- shell之sed、awk
- http2-协议协商过程
- ssd变频器说明书_变频器说明书大全
- Linux自学之旅-安装篇(格式化)
- 笔记本计算机信号不强,增强笔记本WiFi无线信号的方法
- mysql表结构设计工具_表结构设计器(EZDML)
- 匹配数字、大小写字母、汉字、-、_而且不能以_开头或结尾
- excel 筛选 粘贴_在筛选的Excel列表中粘贴快捷方式
- (14)[驱动开发]配置环境 VS2019 + WDK10 写 xp驱动
- python 频数表_python里计算每个数字出现的频数
- linux聊天python_Python socket C/S结构的聊天室应用