今天是6.16号。

昨天去面越秀金融风险控制部计算机实习生,去面了才知道主要也就是做数据抓取这一块。面试过程中有问到分词,然后自己心虚的说了有接触过分词这一块,面试结果就不去想了,过不过都其实不重要了。此外还有问到:你觉得实习和项目的经历最大的收获是什么?你想从这份实习中收获什么?你觉得自己最大的优势和缺点是什么?这些问题在9月份的求职生活中应该还会遇到的。

趁现在有时间,然后看知乎又看到了图片云的一篇文章,其中还涉及到了结巴分词的使用,所以决定这两天好好研究一下怎么使用。然后找一个问题来分析,并得到最终的结果,本来想找学校BBS里面的帖子主体进行分析,但打开简书来写时,想想用简书首页的热门文章来分析也不错。

代码是6.16号运行的,但简书首页每天都在更新,所以最终得到的云标签会与其他时间运行得到的结果有所差异,但主要的核心还是掌握在实现过程中会涉及到的知识点:

1.异步加载;(往下拉时需要点击显示更多才会出现新的文章)

2.分词;

3.标签云。

一、异步加载

一般异步加载出来的页面都可以在chrome浏览器下的network中找到规律,简书中点击“点击查看更多后”可以在network中看到一个xhr文件,然后可以从headers里面直接看到新加载出来的页面的网址。

1.png

二、分词

三、标签云

最后贴上代码:

第一部分:抓取首页上热门标签下所有文章的标题

自己试了一下,简书首页热门标签文章点击查看更多最多也只能加载10页。

#!/usr/bin/env python

# * coding: utf-8 *

import requests

from bs4 import BeautifulSoup

import re

import time

from multiprocessing import Pool

start_url='http://www.jianshu.com/'

host='http://www.jianshu.com'

headers={

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Accept-Encoding':'gzip, deflate, sdch',

'Accept-Language':'zh-CN,zh;q=0.8',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'Cookie':'read_mode=day; default_font=font2; __utmt=1; Hm_lvt_0c0e9d9b1e7d617b3e6842e85b9fb068=1466054262,1466057911,1466057983,1466064672; Hm_lpvt_0c0e9d9b1e7d617b3e6842e85b9fb068=1466065361; __utma=194070582.1669649852.1452758384.1466054263.1466064585.135; __utmb=194070582.12.10.1466064585; __utmc=194070582; __utmz=194070582.1466054263.134.11.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utmv=194070582.|2=User%20Type=Member=1; _session_id=amhxY2NtUENjQXdkMS9JRStlc0ZvV0RaaU96TXZrZ3pkK0Ewc280cmtQcHdTTFNOWk1PcGRkVDc4YzVDOGJhT2xXMlFkakN4WHpBT1d4a3Z1bUJUbXc9PS0tTjg2UGQ0aWZjdTFsNmlCdmhYRThPdz09--363edd825b2b9f3fd9d52848169fe2829b4ad3a3',

# 'Host':'www.jianshu.com

'If-None-Match':'W/"ab6ec19c0f005cad8d2c630dffbeb0a5"',

'Referer':'http://www.jianshu.com/',

'Upgrade-Insecure-Requests':'1',

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36'

}

links=[start_url]

i=0

def get_all_links(url):

web_data=requests.get(url,headers=headers)

soup=BeautifulSoup(web_data.text,'lxml')

if soup.find(attrs={'class':'load-more'}):

link=str(soup.find(attrs={'class':'load-more'}))

link1=host+re.findall(r'data-url="(.*?)"',link,re.M)[0]

links.append(link1)

time.sleep(1)

if len(links)<=200: #modify the number of page you want to scrapy

global i

i=i+1

get_all_links(links[i])

else:

pass

def get_contents(url):

web_data=requests.get(url,headers=headers)

soup=BeautifulSoup(web_data.text,'lxml')

titles=soup.select('h4.title a')

authors=soup.select('a.author-name.blue-link')

route1=r'C:\Users\guohuaiqi\Desktop\title.txt'

route2=r'C:\Users\guohuaiqi\Desktop\author.txt'

with open(route1,'a') as f:

for i in titles:

try:

f.write(i.get_text())

except UnicodeEncodeError:

continue

with open(route2,'a') as f1:

for j in authors:

try:

f1.write(j.get_text()+'\n')

except UnicodeEncodeError:

continue

if __name__=='__main__':

get_all_links(start_url)

pool=Pool()

pool.map(get_contents,links)

print('All have done successfully!')

第二部分:对抓取下来的标题进行分词

好几个月了还没有写完,对分词模块还是有点不会用,后面有机会再去学习。

未完待续。。。

python关键词 打标签详解_Python学习日记13|利用python制作简书首页热门文章关键词标签云...相关推荐

  1. awk命令详解_python学习之利用urllib和urllib2访问http的GET/POST详解

    前言 本文主要给大家介绍了关于python如何学习访问http的GET/POST的相关内容,使用urllib和urllib2,可以轻松实现对http的访问,下面话不多说了,来一起看看详细的介绍吧. 示 ...

  2. python中logging模块详解_python logging日志模块详解

    logging 日志模块详解 用Python写代码的时候,在想看的地方写个print xx 就能在控制台上显示打印信息,这样子就能知道它是什么了,但是当我需要看大量的地方或者在一个文件中查看的时候,这 ...

  3. python使用kafka原理详解_Python操作Kafka原理及使用详解

    Python操作Kafka原理及使用详解 一.什么是Kafka Kafka是一个分布式流处理系统,流处理系统使它可以像消息队列一样publish或者subscribe消息,分布式提供了容错性,并发处理 ...

  4. python 微信支付接口 详解_Python支付接口汇总大全(包含微信、支付宝等,长期更新、欢迎补充)...

    wzhifuSDK- 由微信支付SDK 官方PHP Demo移植而来,v3.37下载地址 学习Python中有不明白推荐加入交流群 号:864573496 群里有志同道合的小伙伴,互帮互助, 群里有不 ...

  5. python xlwt xlrd模块详解_python操作excel之xlrd、xlwt模块详解

    python操作excel主要用到xlrd和xlwt这两个库,即xlrd是读excel,xlwt是写excel的库. 可从这里下载https://pypi.python.org/pypi.下面分别记录 ...

  6. python凯撒密码详解_四十八、Python用smtp发邮件详解(163和QQ邮箱)

    Python发邮件详解 一.利用163的smtp发送邮件 import smtplibfrom email.mime.text import MIMETextfrom email.header imp ...

  7. python跳一跳脚本详解_微信跳一跳游戏 python脚本辅助得高分

    微信小程序一时间火爆朋友圈,关键是还有排行榜!游戏操作简单,可直接根据电脑识别,用python写出自动跳辅助脚本,本想动手写下,索性网上有大神写了现成脚本,修改了一小部分参数,就可以稳定使用了霸榜没有 ...

  8. python爬取豆瓣电影top250编码_Python学习日记1| 用python爬取豆瓣电影top250

    今天是3.17号. 离毕业论文开题只剩下不到15天,自己这边还不知道要写什么好,问了导师,导师给的范围超级广泛,实在是想吐槽.想了几天,决定了要尽快给老师说自己的想法和方向,做什么还是靠自己比较靠谱. ...

  9. python学习详解_Python学习入门到精通:Python列表讲解

    列表导读 从列表开始,我们将陆续学习元组,集合,字典这4中容器类型数据.容器类型数据,只是望文生义,你大概能够猜测出这4种数据类型的作用,他们如同容器一样,可以存储int,float,bool,str ...

最新文章

  1. G7终极2.3.7完美版,黑白分明,值得永久收藏使用
  2. mooc浙大数据结构PTA习题之一元多项式的乘法与加法运算
  3. 如何构建Android MVVM 应用框架
  4. android 显示Gift图片
  5. 【论文写作】毕业论文写作时的常见问题
  6. 关于map的初级应用
  7. 本地项目第一次上传到SmartSvn
  8. 备战蓝桥杯(4)——第九届蓝桥杯嵌入式省赛赛题实战
  9. 《数据结构与算法分析:Java语言描述》.pdf
  10. MFC中利用ListControl制作空表格,由键盘输入数据并保存在数组中
  11. scrapy IP代理池 scrapyd spiderkeeper docker flask uwsgi nginx
  12. C4D快速入门教程——软件界面介绍
  13. Gif动态图片怎样在线生成?一招快速完成gif在线制作
  14. 【Google Play】APK 扩展包 ( 2021年09月 最新处理方案 | 文件准备 | 拷贝文件至内置存储 | 解压及使用扩展文件 )
  15. 常见的四种回归测试分析
  16. 比你拼命的人多的是,最可怕的是比你牛的人比你还拼命(每天看一段一个月刚刚好)
  17. css-隐藏滚动条并可以滚动内容
  18. 5月刊推荐:怎样才是真正的架构师
  19. 营业执照识别api接口调用OCR识别
  20. Java对txt文件、二进制文件的基本读写

热门文章

  1. Angular2+简单入门
  2. 计算机SCI 源代码,计算机类SCI检索源刊.doc
  3. MAC无法识别硬盘的解决方案
  4. Linux下使用ps命令查看某个进程文件的启动位置
  5. Luogu P2657 [SCOI2009]windy数
  6. [luogu2657][windy数]
  7. MySQL8从入门到精通学习笔记
  8. font-size 单位
  9. 与网络相连的计算机称为什么,网络把许多计算机连接在一起,而互联网则把许多( )通过路由器连接在一起。与网络相连的计算机常称为( )。...
  10. 推荐一款快速开发平台,web中最好的快速开发平台