本人想搞个采集微信文章的网站,无奈实在从微信本生无法找到入口链接,网上翻看了大量的资料,发现大家的做法总体来说大同小异,都是以搜狗为入口。下文是笔者整理的一份python爬取微信文章的代码,有兴趣的欢迎阅读

#coding:utf-8

author = 'haoning'

**#!/usr/bin/env python

import time

import datetime

import requests**

import json

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

import re

import xml.etree.ElementTree as ET

import os

#OPENID = 'oIWsFtyel13ZMva1qltQ3pfejlwU'

OPENID = 'oIWsFtw_-W2DaHwRz1oGWzL-wF9M&ext'

XML_LIST = []

# get current time in milliseconds

current_milli_time = lambda: int(round(time.time() * 1000))

def get_json(pageIndex):

global OPENID

the_headers = {

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',

'Referer': 'http://weixin.sogou.com/gzh?openid={0}'.format(OPENID),

'Host': 'weixin.sogou.com'

}

url = 'http://weixin.sogou.com/gzhjs?cb=sogou.weixin.gzhcb&openid={0}&page={1}&t={2}'.format(OPENID, pageIndex, current_milli_time()) #url

print(url)

response = requests.get(url, headers = the_headers)

# TO-DO; check if match the reg

response_text = response.text

print response_text

json_start = response_text.index('sogou.weixin.gzhcb(') + 19

json_end = response_text.index(')') - 2

json_str = response_text[json_start : json_end] #get json

#print(json_str)

# convert json_str to json object

json_obj = json.loads(json_str) #get json obj

# print json_obj['totalPages']

return json_obj

def add_xml(jsonObj):

global XML_LIST

xmls = jsonObj['items'] #get item

#print type(xmls)

XML_LIST.extend(xmls) #用新列表扩展原来的列表

**[#www.oksousou.com][2]**

# ------------ Main ----------------

print 'play it :) '

# get total pages

default_json_obj = get_json(1)

total_pages = 0

total_items = 0

if(default_json_obj):

# add the default xmls

add_xml(default_json_obj)

# get the rest items

total_pages = default_json_obj['totalPages']

total_items = default_json_obj['totalItems']

print total_pages

# iterate all pages

if(total_pages >= 2):

for pageIndex in range(2, total_pages + 1):

add_xml(get_json(pageIndex)) #extend

print 'load page ' + str(pageIndex)

print len(XML_LIST)

本文标题: python 爬取微信文章

本文地址: http://www.cppcns.com/jiaoben/python/141437.html

python爬取网上文章_python 爬取微信文章相关推荐

  1. python公众号留言功能_Python 爬取公众号文章、评论

    前段时间有个爬取公众号评论小需求,花了几天查了不少资料,实现方案有好几种,最后其中一种得以实现.参考 [Python爬虫]微信公众号历史文章和文章评论API分析 . 本人是 Python 小白,会忽略 ...

  2. python爬取动态网页_python爬取动态网页数据,详解

    原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...

  3. python爬取json数据_Python爬取数据保存为Json格式的代码示例

    python爬取数据保存为Json格式 代码如下: #encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup impo ...

  4. python 柱状图上显示字体_Python爬取百部电影数据,我发现了这个惊人真相!

    2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...

  5. python抓取微博评论_Python爬取新浪微博评论数据,你有空了解一下?

    开发工具 Python版本:3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装Pyth ...

  6. python开源代码百度盘_python爬取百度云网盘资源-源码

    今天测试用了一下python爬取百度云网盘资源. 代码片段import urllib import urllib.request import webbrowser import re def yun ...

  7. python爬关键词百度指数_Python 抓取指定关键词的百度指数

    百度指数很多时候在我们做项目的时候会很有帮助,从搜索引擎的流量端给到我们一些帮助,比如:家具行业的销量跟"装修","新房","二手房"等关键 ...

  8. python下载微信公众号文章_python如何导出微信公众号文章

    [相关学习推荐:python教程] 1.安装wkhtmltopdf 下载地址:https://wkhtmltopdf.org/downloads.html 我测试用的是windows的,下载安装后结果 ...

  9. python下载微信公众号文章_python如何导出微信公众号文章方法详解

    1.安装wkhtmltopdf 下载地址:https://wkhtmltopdf.org/downloads.html 我测试用的是windows的,下载安装后结果如下 2 编写python 代码导出 ...

最新文章

  1. 使用vtwinfx插件时fcpx意外退出_FCPX插件:60种电视屏幕切换转场 TRANSTELE
  2. oracle 批量修改表结构,关于Oracle批量修改表结构相关内容的整理
  3. 学会用core dump调试程序错误
  4. 基于存储过程的ASP.NET用户登录示例
  5. [2020-11-28 contest]素数(数学),精灵(区间dp),农夫约的假期(结论),观察(树链剖分lca+set)
  6. Android programming on Mac 之安装Eclipse
  7. 1059. C语言竞赛(20)
  8. mysql asp 字段部分内容_sql 修改、更新、替换 某个字段的部分内容(转载)
  9. arm-none-eabi-gcc.exe -v
  10. MYSQL基本知识:TRUNCATE和DELETE的区别
  11. js/jquery禁止页面回退
  12. 用gdb调试动态链接库
  13. 中国移动企业文化考试试题含答案
  14. Froala Editor HTML Editor Crack
  15. ERP开源框架 + 二次开发平台 介绍
  16. 按键精灵 - 安卓版 - 罗盘 - 八向方位模拟 - 自动寻路
  17. Pandas学习笔记(6)Renaming and Combining
  18. 手绘图说电子元器件-集成电路
  19. 狗狗最近不爱吃饭了,还好有办法应对
  20. HTML网页图片使用技巧集锦

热门文章

  1. 彻夜怒肝!SpringBoot+Sentinel+Nacos高并发已撸完
  2. 美团陶云霜:CRM平台建设实践(胶片)
  3. 张一鸣:优秀年轻人的五个特点
  4. JEECG_3.7 权限开发讲解-张代浩-专题视频课程
  5. jeecg公开课今晚主题:新版本功能介绍、online原理和代码生成器,欢迎大家报名
  6. 虚拟机系列 | 执行引擎和垃圾回收
  7. 用户管理实用命令(第二版)
  8. Spark2.3.1在Idea控制台调整日志等级
  9. BZOJ1970 [Ahoi2005] 矿藏编码
  10. 应用虚拟化IT:需要决策支持做后盾