python爬取文字编程_Python怎么爬取人人网新鲜事

Python怎么爬取人人网新鲜事

发布时间：2020-08-24 18:10:44

来源：亿速云

阅读：113

这篇文章将为大家详细讲解有关Python怎么爬取人人网新鲜事，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。

Python实现登录人人网并抓取新鲜事的方法：from sgmllib import SGMLParser

import sys,urllib2,urllib,cookielib

class spider(SGMLParser):

def __init__(self,email,password):

SGMLParser.__init__(self)

self.h4=False

self.h4_is_ready=False

self.div=False

self.h4_and_div=False

self.a=False

self.depth=0

self.names=""

self.dic={}

self.email=email

self.password=password

self.domain='renren.com'

try:

cookie=cookielib.CookieJar()

cookieProc=urllib2.HTTPCookieProcessor(cookie)

except:

raise

else:

opener=urllib2.build_opener(cookieProc)

urllib2.install_opener(opener)

def login(self):

url='http://www.renren.com/PLogin.do'

postdata={

'email':self.email,

'password':self.password,

'domain':self.domain

}

req=urllib2.Request(

url,

urllib.urlencode(postdata)

)

self.file=urllib2.urlopen(req).read()

#print self.file

def start_h4(self,attrs):

self.h4 = True

def end_h4(self):

self.h4=False

self.h4_is_ready=True

def start_a(self,attrs):

if self.h4 or self.div:

self.a=True

def end_a(self):

self.a=False

def start_div(self,attrs):

if self.h4_is_ready == False:

return

if self.div==True:

self.depth += 1

for k,v in attrs:

if k == 'class' and v == 'content':

self.div=True;

self.h4_and_div=True #h4 and div is connected

def end_div(self):

if self.depth == 0:

self.div=False

self.h4_and_div=False

self.h4_is_ready=False

self.names=""

if self.div == True:

self.depth-=1

def handle_data(self,text):

#record the name

if self.h4 and self.a:

self.names+=text

#record says

if self.h4 and (self.a==False):

if not text:pass

else: self.dic.setdefault(self.names,[]).append(text)

return

if self.h4_and_div:

self.dic.setdefault(self.names,[]).append(text)

def show(self):

type = sys.getfilesystemencoding()

for key in self.dic:

print ( (''.join(key)).replace(' ','')).decode('utf-8').encode(type), \

( (''.join(self.dic[key])).replace(' ','')).decode('utf-8').encode(type)

renrenspider=spider('your email','your password')

renrenspider.login()

renrenspider.feed(renrenspider.file)

renrenspider.show()

关于Python怎么爬取人人网新鲜事就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

python爬取文字编程_Python怎么爬取人人网新鲜事相关推荐

python爬虫知乎点赞_Python爬虫爬取知乎小结
最近学习了一点网络爬虫,并实现了使用Python来爬取知乎的一些功能,这里做一个小的总结.网络爬虫是指通过一定的规则自动的从网上抓取一些信息的程序或脚本.我们知道机器学习和数据挖掘等都是从大量的数据出 ...
python 实时数据推送_python scrapy 爬取金十数据并自动推送到微信
一.背景因业务需要获取风险经济事件并采取应对措施,但因为种种原因又疏忽于每天去查看财经日历,于是通过爬取金十数据网站并自动推送到微信查看. 二.目标实现 image 三.环境与工具 1.pychar ...
python怎么使用int四舍五入_python中如何取整数
首先,不得不提醒大家一个容易被忽视或者搞混的问题--一般的,0.5这种末尾是5的小数,四舍五入取整应进位.这个进位的意思是:-0.5 → -1:0.5 → 1.即正负情况不同,都向着远离0,使得绝对值 ...
python极客项目编程_Python极客项目编程 ([美]Mahesh Venkitachalam) 中文pdf完整版
Python是一种解释型.面向对象.动态数据类型的高级程序设计语言.通过Python编程,我们能够解决现实生活中的很多任务.Python极客项目编程通过14个有趣的项目,帮助和鼓励读者探索Python ...
python语言支持函数式编程_python是函数式语言么
函数式编程:functional,是一种编程范式. 函数式编程的特点:1. 把计算视为函数而非指令 2. 纯函数式编程:不需要变量,没有副作用,测试简单 3. 支持高阶函数,代码简洁 Python支持 ...
python处理excel实例编程_python处理Excel的简单示例
对python这个高级语言感兴趣的小伙伴,下面一起跟随编程之家 jb51.cc的小编两巴掌来看看吧! Python中一般使用xlrd库来读取Excel文件,使用xlwt库来生成Excel文件,使用xl ...
python 爬虫可视化编程_Python爬虫爬取博客实现可视化过程解析
源码: from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link='https ...
如何使用python爬取百度图片_python实现爬取百度图片的方法示例
本文实例讲述了python实现爬取百度图片的方法.分享给大家供大家参考,具体如下: import json import itertools import urllib import requests ...
python爬去百度图片_python实现爬取百度图片的方法示例
本文实例讲述了python实现爬取百度图片的方法.分享给大家供大家参考,具体如下: import json import itertools import urllib import requests ...

python爬取文字编程_Python怎么爬取人人网新鲜事

python爬取文字编程_Python怎么爬取人人网新鲜事相关推荐

最新文章

热门文章