python爬取网上文章_python 爬取微信文章

本人想搞个采集微信文章的网站，无奈实在从微信本生无法找到入口链接，网上翻看了大量的资料，发现大家的做法总体来说大同小异，都是以搜狗为入口。下文是笔者整理的一份python爬取微信文章的代码，有兴趣的欢迎阅读

#coding:utf-8

author = 'haoning'

**#!/usr/bin/env python

import time

import datetime

import requests**

import json

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

import re

import xml.etree.ElementTree as ET

import os

#OPENID = 'oIWsFtyel13ZMva1qltQ3pfejlwU'

OPENID = 'oIWsFtw_-W2DaHwRz1oGWzL-wF9M&ext'

XML_LIST = []

# get current time in milliseconds

current_milli_time = lambda: int(round(time.time() * 1000))

def get_json(pageIndex):

global OPENID

the_headers = {

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',

'Referer': 'http://weixin.sogou.com/gzh?openid={0}'.format(OPENID),

'Host': 'weixin.sogou.com'

}

url = 'http://weixin.sogou.com/gzhjs?cb=sogou.weixin.gzhcb&openid={0}&page={1}&t={2}'.format(OPENID, pageIndex, current_milli_time()) #url

print(url)

response = requests.get(url, headers = the_headers)

# TO-DO; check if match the reg

response_text = response.text

print response_text

json_start = response_text.index('sogou.weixin.gzhcb(') + 19

json_end = response_text.index(')') - 2

json_str = response_text[json_start : json_end] #get json

#print(json_str)

# convert json_str to json object

json_obj = json.loads(json_str) #get json obj

# print json_obj['totalPages']

return json_obj

def add_xml(jsonObj):

global XML_LIST

xmls = jsonObj['items'] #get item

#print type(xmls)

XML_LIST.extend(xmls) #用新列表扩展原来的列表

**[#www.oksousou.com][2]**

# ------------ Main ----------------

print 'play it :) '

# get total pages

default_json_obj = get_json(1)

total_pages = 0

total_items = 0

if(default_json_obj):

# add the default xmls

add_xml(default_json_obj)

# get the rest items

total_pages = default_json_obj['totalPages']

total_items = default_json_obj['totalItems']

print total_pages

# iterate all pages

if(total_pages >= 2):

for pageIndex in range(2, total_pages + 1):

add_xml(get_json(pageIndex)) #extend

print 'load page ' + str(pageIndex)

print len(XML_LIST)

本文标题: python 爬取微信文章

本文地址: http://www.cppcns.com/jiaoben/python/141437.html

python爬取网上文章_python 爬取微信文章相关推荐

python公众号留言功能_Python 爬取公众号文章、评论
前段时间有个爬取公众号评论小需求,花了几天查了不少资料,实现方案有好几种,最后其中一种得以实现.参考 [Python爬虫]微信公众号历史文章和文章评论API分析 . 本人是 Python 小白,会忽略 ...
python爬取动态网页_python爬取动态网页数据，详解
原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...
python爬取json数据_Python爬取数据保存为Json格式的代码示例
python爬取数据保存为Json格式代码如下: #encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup impo ...
python 柱状图上显示字体_Python爬取百部电影数据，我发现了这个惊人真相！
2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...
python抓取微博评论_Python爬取新浪微博评论数据，你有空了解一下？
开发工具 Python版本:3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建安装Pyth ...
python开源代码百度盘_python爬取百度云网盘资源-源码
今天测试用了一下python爬取百度云网盘资源. 代码片段import urllib import urllib.request import webbrowser import re def yun ...
python爬关键词百度指数_Python 抓取指定关键词的百度指数
百度指数很多时候在我们做项目的时候会很有帮助,从搜索引擎的流量端给到我们一些帮助,比如:家具行业的销量跟"装修","新房","二手房"等关键 ...
python下载微信公众号文章_python如何导出微信公众号文章
[相关学习推荐:python教程] 1.安装wkhtmltopdf 下载地址:https://wkhtmltopdf.org/downloads.html 我测试用的是windows的,下载安装后结果 ...
python下载微信公众号文章_python如何导出微信公众号文章方法详解
1.安装wkhtmltopdf 下载地址:https://wkhtmltopdf.org/downloads.html 我测试用的是windows的,下载安装后结果如下 2 编写python 代码导出 ...

python爬取网上文章_python 爬取微信文章

python爬取网上文章_python 爬取微信文章相关推荐

最新文章

热门文章