Python怎么爬取人人网新鲜事

发布时间:2020-08-24 18:10:44

来源:亿速云

阅读:113

这篇文章将为大家详细讲解有关Python怎么爬取人人网新鲜事,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

Python实现登录人人网并抓取新鲜事的方法:from sgmllib import SGMLParser

import sys,urllib2,urllib,cookielib

class spider(SGMLParser):

def __init__(self,email,password):

SGMLParser.__init__(self)

self.h4=False

self.h4_is_ready=False

self.div=False

self.h4_and_div=False

self.a=False

self.depth=0

self.names=""

self.dic={}

self.email=email

self.password=password

self.domain='renren.com'

try:

cookie=cookielib.CookieJar()

cookieProc=urllib2.HTTPCookieProcessor(cookie)

except:

raise

else:

opener=urllib2.build_opener(cookieProc)

urllib2.install_opener(opener)

def login(self):

url='http://www.renren.com/PLogin.do'

postdata={

'email':self.email,

'password':self.password,

'domain':self.domain

}

req=urllib2.Request(

url,

urllib.urlencode(postdata)

)

self.file=urllib2.urlopen(req).read()

#print self.file

def start_h4(self,attrs):

self.h4 = True

def end_h4(self):

self.h4=False

self.h4_is_ready=True

def start_a(self,attrs):

if self.h4 or self.div:

self.a=True

def end_a(self):

self.a=False

def start_div(self,attrs):

if self.h4_is_ready == False:

return

if self.div==True:

self.depth += 1

for k,v in attrs:

if k == 'class' and v == 'content':

self.div=True;

self.h4_and_div=True  #h4 and div is connected

def end_div(self):

if self.depth == 0:

self.div=False

self.h4_and_div=False

self.h4_is_ready=False

self.names=""

if self.div == True:

self.depth-=1

def handle_data(self,text):

#record the name

if self.h4 and self.a:

self.names+=text

#record says

if self.h4 and (self.a==False):

if not text:pass

else: self.dic.setdefault(self.names,[]).append(text)

return

if self.h4_and_div:

self.dic.setdefault(self.names,[]).append(text)

def show(self):

type = sys.getfilesystemencoding()

for key in self.dic:

print ( (''.join(key)).replace(' ','')).decode('utf-8').encode(type), \

( (''.join(self.dic[key])).replace(' ','')).decode('utf-8').encode(type)

renrenspider=spider('your email','your password')

renrenspider.login()

renrenspider.feed(renrenspider.file)

renrenspider.show()

关于Python怎么爬取人人网新鲜事就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

python爬取文字编程_Python怎么爬取人人网新鲜事相关推荐

  1. python爬虫知乎点赞_Python爬虫爬取知乎小结

    最近学习了一点网络爬虫,并实现了使用Python来爬取知乎的一些功能,这里做一个小的总结.网络爬虫是指通过一定的规则自动的从网上抓取一些信息的程序或脚本.我们知道机器学习和数据挖掘等都是从大量的数据出 ...

  2. python 实时数据推送_python scrapy 爬取金十数据并自动推送到微信

    一.背景 因业务需要获取风险经济事件并采取应对措施,但因为种种原因又疏忽于每天去查看财经日历,于是通过爬取金十数据网站并自动推送到微信查看. 二.目标实现 image 三.环境与工具 1.pychar ...

  3. python怎么使用int四舍五入_python中如何取整数

    首先,不得不提醒大家一个容易被忽视或者搞混的问题--一般的,0.5这种末尾是5的小数,四舍五入取整应进位.这个进位的意思是:-0.5 → -1:0.5 → 1.即正负情况不同,都向着远离0,使得绝对值 ...

  4. python极客项目编程_Python极客项目编程 ([美]Mahesh Venkitachalam) 中文pdf完整版

    Python是一种解释型.面向对象.动态数据类型的高级程序设计语言.通过Python编程,我们能够解决现实生活中的很多任务.Python极客项目编程通过14个有趣的项目,帮助和鼓励读者探索Python ...

  5. python语言支持函数式编程_python是函数式语言么

    函数式编程:functional,是一种编程范式. 函数式编程的特点:1. 把计算视为函数而非指令 2. 纯函数式编程:不需要变量,没有副作用,测试简单 3. 支持高阶函数,代码简洁 Python支持 ...

  6. python处理excel实例编程_python处理Excel的简单示例

    对python这个高级语言感兴趣的小伙伴,下面一起跟随编程之家 jb51.cc的小编两巴掌来看看吧! Python中一般使用xlrd库来读取Excel文件,使用xlwt库来生成Excel文件,使用xl ...

  7. python 爬虫可视化编程_Python爬虫爬取博客实现可视化过程解析

    源码: from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link='https ...

  8. 如何使用python爬取百度图片_python实现爬取百度图片的方法示例

    本文实例讲述了python实现爬取百度图片的方法.分享给大家供大家参考,具体如下: import json import itertools import urllib import requests ...

  9. python爬去百度图片_python实现爬取百度图片的方法示例

    本文实例讲述了python实现爬取百度图片的方法.分享给大家供大家参考,具体如下: import json import itertools import urllib import requests ...

最新文章

  1. 用Leangoo看板工具做办公室采购流程管理
  2. 肠·道 | 朱元方:产检消毒恐误伤菌脉,6大举措则促菌脉相承
  3. ubuntu 常见配置文件
  4. 盘点十个最伟大的公式,1+1=2仅排到了第七
  5. CSS图片水平垂直居中
  6. 数据科学和统计学_数据科学中的统计
  7. 重磅!阿里首次全面公开展示AI布局(附布局图/成绩单/六产业详解)
  8. (转)getElementByID getElementsByName getElementsByTagName用法详解
  9. autotools归纳
  10. shell之sed、awk
  11. http2-协议协商过程
  12. ssd变频器说明书_变频器说明书大全
  13. Linux自学之旅-安装篇(格式化)
  14. 笔记本计算机信号不强,增强笔记本WiFi无线信号的方法
  15. mysql表结构设计工具_表结构设计器(EZDML)
  16. 匹配数字、大小写字母、汉字、-、_而且不能以_开头或结尾
  17. excel 筛选 粘贴_在筛选的Excel列表中粘贴快捷方式
  18. (14)[驱动开发]配置环境 VS2019 + WDK10 写 xp驱动
  19. python 频数表_python里计算每个数字出现的频数
  20. linux聊天python_Python socket C/S结构的聊天室应用

热门文章

  1. qt creator提示no valid kits found
  2. 【数学】固定弦长公式
  3. 神州泰岳确认将获飞信合约 称续签只是时间问题
  4. 喜马拉雅音频数据+Python+xm-sign突破
  5. STM32F4简易示波器
  6. 18.5cm拉杆天线 vs 9.7cm铜柱天线测试对比~~~
  7. Mac使用技巧之如何禁用独立显卡
  8. 色选机工作原理与工作流程详解
  9. 谈谈爱情——祭奠那逝去的青春
  10. 写作如何挣钱?【转】