-3、GoogLeNet Inception_v1:大约只有500万参数,只相当于Alexnet的1/12(GoogLeNet的caffemodel大约50M,VGGNet的caffemodel则要超过600M

Inception_v2:大卷积核换成小卷积核     5x5卷积核参数是3x3卷积核的25/9=2.78倍。为此,作者提出可以用2个连续的3x3卷积层(stride=1)组成的小网络来代替单个的5x5卷积层,(保持感受野范围的同时又减少了参数量,减少计算量)       大量实验可以表明不会造成表达缺失

任意nxn的卷积都可以通过1xn卷积后接nx1卷积来替代。 中度大小的feature map上使用效果才会更好

-2、利用图像指纹检测高相似度的图像:图像哈希法  difference hash  dHash着力探究相邻像素之间的区别。

-1、用什么算法 看应用场景、看数据量。

0、线性模型:Glmnet>LASSO(L1)>Ridge(L2)>LR/Logistic。   L1得到的系数0多,L2得到的系数只是接近0的多。

复杂模型:XGBoost>=GBDT>=RF  RF在Kaggle中很少见。    Xgboost比GBDT的优点:基分类器可以选择线性分类器;优化求解时,用一阶导数的同时,还利用了二阶导数信息;代价函数中加入了正则项,控制模型的复杂度;

GBDT(GBDT的每棵树是按照顺序生成的(这个和RF完全不一样,RF并行生成就Ok),每棵树的生成都利用上之前生成的数留下的信息)和random forest(一个bagged tree充分利用近1/3-2/3的样本集)等集成学习方法并不比SVM、LogiticRegression更容易过拟合。

森林的缺点:缺点在于其随机性,同一个数据集,运行两次,得到两个不同的结果,导致不能知道结果是因为选择更好的特征导致的还是由于选择样本时的随机性导致的。

树:分裂时,找到使不纯度下降最快的分裂变量和分裂点。通过变量选择迭代地建立一棵分类树,使得每次分类平面能最好地将剩余数据分为两类。

优点:可以进行变量选择,可以克服缺失值;缺点:不稳定。

逻辑回归过拟合的话,可以??????减小??????LinearSVC中的C参数

100个以上变量,以下两个模型出现了过拟合(测试集、训练集效果相差较大):增加样本、减少维度(降低模型的复杂度,而更不容易刻画到噪声数据的分布。)

RF:在N个样本中用Booststrap采样选出n个样本,建立CART;在树的每个节点上,从属性中随机选择K个属性subspace,选择出最佳分割属性作为节点。

GBDT:Gradient Boosting Decision Tree,boosting的一种。每次建立一个弱的模型,都是在之前模型的损失函数的梯度方向(bossting:更在意之前错分的点),使损失函数不断下降。

1、PageRank网页排名:用来计算网页的重要性。网页之间的链接关系用图表示。网页A的重要性为:链接至A的网页的重要性的加权和

2、迁移学习:源训练好的模型 迁移应用到 目标待求解问题。适用于目标问题的y不易得到,而源模型好得到的情况

3、SVM

4、蒙特卡罗采样算法

5、缺失值填充:略过,填中位数、均值,回归插补

6、LDA主题模型

jieba中文自然语言处理:分词、调整词典、提取关键词、词性标注、返回词语在原文的起止位置

import jieba

seg_list = jieba.cut("您好!请转告任辉:我们是银行委托代理人,关于任辉的欠款数额较大,拖欠时间较久,且任辉拒不接听电话,有恶意逃避嫌疑,因案情紧急特通知您转告务请配合我方调查,签收法律文书,二日内还清欠款。如在限定时间内仍不清还欠款,我方将全面启动法律程序,将向任辉老家派出所、政府、村委(或居委)等有关部门发送协助函要求协助调查,并将电话联系村干部(居委干部)、派出所了解情况,调查组将立即出发到任辉单位及老家展开调查,根据调查结果涉嫌犯罪的,将向公安机关报案。黄勇先生/小姐:我们是银行代理人,您拒不接听电话有逃避嫌疑,因案情紧急特通知您,务请配合我方调查,签收法律文书,二日内还清欠款。如在限定时间内仍不清还欠款,我们将全面启动法律程序,包括但不限于催告函(律师函),向您老家派出所、政府、村委(或居委)等有关部门发送协助函要求协助调查,并将电话联系村干部(或居委干部)、派出所了解情况,调查组将立即出发到单位及老家展开调查,根据调查结果,将立即向人民法院起诉,查封财产。如涉嫌诈骗犯罪的,将向公安机关报案。",cut_all=False,HMM=True)
print "新词识别:", "/ ".join(seg_list)     #分词

for co in sample['sample_content']:
    big_string+=co
seg_list = jieba.cut(big_string,cut_all=False,HMM=True)
a=", ".join(seg_list)
b=a.split(',')
c=pd.DataFrame(b)
d=c[0].value_counts()                       #对sample_content列进行分词,看词语的出现频次

import jieba.analyse

jieba.analyse.set_stop_words('D:\\Python27\\stopword.txt')

jieba.analyse.extract_tags('【臻信事务所】姓名:苏城关于你办理消费分期逾期一案。已多次通知公示并发函至户籍地:云南省大理白族自治州漾濞彝族自治县苍山西镇

苍山中路5号村[居]委、派出所上门调查完毕。如你继续拖欠,将拟向深圳市福田区人民法院立案庭进行排期审理,当事人如收到法院传票应于2016年12月26日15点前持应诉

通知书及申请合同资料、个人证件、答辩状处理。若当事人无正当理由拒不到庭,法院将有权当庭做被告缺席审理,判决被告方败诉并承担所有费用。案件负责人:余助理电

话:0755-25199252手机:18938079992(若非本人敬请转达)',withWeight=True)

print pd.DataFrame(tags)                  #TF-IDF权重最大 提取关键词

a=jieba.analyse.textrank('【臻信事务所】姓名:苏城关于你办理消费分期逾期一案。已多次通知公示并发函至户籍地:云南省大理白族自治州漾濞彝族自治县苍山西镇苍山中路5号村[居]委、派出所上门调查完毕。如你继续拖欠,将拟向深圳市福田区人民法院立案庭进行排期审理,当事人如收到法院传票应于2016年12月26日15点前持应诉通知书及申请合同资料、个人证件、答辩状处理。若当事人无正当理由拒不到庭,法院将有权当庭做被告缺席审理,判决被告方败诉并承担所有费用。案件负责人:余助理电话:0755-25199252手机:18938079992(若非本人敬请转达)',withWeight =True)

c=pd.DataFrame(a)  #TextRank提取关键词

7、寻找文本中的关键词TextRank:倾向于将频繁词作为关键词

词汇的共现通常可分为同义、反义、互补、上下义、组合等,这些搭配关系有别于传统意义上的语法搭配和习惯用法搭配,而是在一特定的语境中存在某种语义上的联系,它围绕着某一主题展开,就某一话题出现的相关词汇。

8、文本的情感分析:微博和商品评论本身就一定存在强烈的情感色彩。

8.1基于词典的情感分析步骤:

分解句子中的词汇;搜索情感词并标注和计数;搜索情感词前的程度词,根据程度大小,赋予不同权值;搜索情感词前的否定词,赋予反转权值(-1);计算句子的情感得分

8.2基于机器学习的情感分析

文本向量化后,训练模型后用于预测。

8.3判断是不是催收短信:收集词库(催收场景的词语、委外催收的词语、非催收场景的词语),分解短信;各种词语标记、计数;

9、长短期记忆网络LSTM

10、

A卡(Application score card)申请评分卡

B卡(Behavior score card)行为评分卡

C卡(Collection score card)催收评分卡

11、为什么要迁移学习:数据量不一定都大;提高模型的adaptive能力。

学生学会了一道题,要迁移到新的题目的求解上面。知识(模型、参数)的流转。

本质:找出问题的不变量。

实例:用银行小额贷款用户的模型 迁移到 银行大额贷款营销模型,  使得响应率提高了1倍。

12、图模型(关系) 结合 深度学习 风险预测及监控       深度学习需要大样本,训练集、测试机要比较一致,无可解释性

13、蚂蚁金服:模型服务平台    车辆定损宝:判断车辆维修价格

14、基于哈希的海量特征提取

15、深度强化学习:时序决策——营销与推荐

16、增强学习

算法 代码拷来终觉浅,绝知此事要躬行相关推荐

  1. 纸上得来终觉浅 绝知此事要躬行

    摘自:https://baike.baidu.com/item/%E7%BA%B8%E4%B8%8A%E5%BE%97%E6%9D%A5%E7%BB%88%E8%A7%89%E6%B5%85%EF%B ...

  2. 每日启程——2019.12.15(纸上谈来终觉浅,绝知此事要躬行。)

    每日启程--2019.12.15(纸上谈来终觉浅,绝知此事要躬行.) 早上本来想多睡一会.没想到对面的工地可不答应.硬是一锤一锤的把我叫醒.好吧,谁叫我昨天晚上睡得太晚了呢.不过呢.昨天没有做启程和总 ...

  3. 学内核之十八:纸上得来终觉浅,绝知此事要躬行

    目录 0 前言 1 ioremap.vmalloc与原子上下文 2 copy_to_user与进程上下文 3 fasync与指针初始化 4 wait_event_interruptible与条件变量 ...

  4. 纸上得来终觉浅,绝知此事要躬行。

    在ITPUB上看帖子的时候,有个网友的回复就是标题中的一句诗:纸上得来终觉浅,绝知此事要躬行. 为弄明白这首诗的含义,我GOOGLE了,在百度知道中找到相关解释.觉得其中的意思比较适合我目前的状态. ...

  5. 纸上得来终觉浅,绝知此事要躬行

    周末时,领导在团队一个小群分享了一篇文章,全文很长 周二时打开了看了十几分钟,因为其他事情被打断,只看了1/5不到就搁置了 今天是周三,负责技术管理的同事将文章转到了大群,一起发出来的还有一张思维导图 ...

  6. 【人生参悟】纸上得来终觉浅,绝知此事要躬行

    这几天一直在研究saltstack和zabbix,参看了不少文档和博客,终于saltstack的部署研究得7788,zabbix所需要的LNMP环境也搭建完毕了.纵观这几天的工作,我有一个很深的感悟, ...

  7. 就业感言:纸上得来终觉浅,绝知此事要躬行

    来源:华清远见嵌入式学院就业部   学员姓名:曲仕辉   所在班级:北京1001期班   就业单位:朝歌宽带   工作职位:应用开发工程师 转眼间在华清远见嵌入式培训结束了,我也找到了一份比较满意的工 ...

  8. 书上得来终觉浅,绝知此事要躬行-以太坊平台实战篇

    网上和书上的教程大多是在私有链单机CPU挖矿的情况,遗漏了实战环境中遇到的问题.接下来一步步的阐述实战经验,并结合理论分析. 有些概念先介绍下         transactionHash:交易的流 ...

  9. 纸上来得终觉浅,绝知此事要躬行(一)

        实际上最好的学习,我也比较认同的一句话:"我听过的我会忘记,我看过的我会记得,我做过的我才真的懂得"     相信各位少侠对我们之前的招式有了一定的掌握,已经摩拳擦掌,跃跃 ...

  10. 纸上来得终觉浅,绝知此事要躬行(二)

    下面我们要来实现第二部分,热键控制部分 在这一部分我们需要加入#include<conio.h>头文件中的 getch()和kbhit()两个函数来实现热键的扫描和输入 #include ...

最新文章

  1. 复旦肖仰华:领域知识图谱落地实践中的问题与对策
  2. 微型计算机只能使用机器语言,道计算机等级考试精选题全.doc
  3. 有效可靠地管理大规模 Kubernetes 集群
  4. IntelliJ IDEA JRebel Maven Tomcat 实现热部署
  5. 手把手教您如何识别翻新机子
  6. 包装类java_Java 包装类
  7. mseq matlab,Matlab生成M序列
  8. Ubuntu18.0.1 安装 anaconda conda cudnn pytorch-gpu
  9. 《大数据》期刊“农业大数据”专刊征文通知
  10. 使用opensocial接入social game
  11. 列表、超链接、相对路径-HTML
  12. 分布式 | log4j2 漏洞修复方案
  13. golang微服务网关
  14. 《计算机系统:核心概念及软硬件实现(原书第4版)》——3.1 无符号二进制表示...
  15. signature=4d7e0a8216b57730ec16fe4e5ae2b93f,dragonfly对接harbor拉取镜像没有走dragonfly问题
  16. vue中使用vue-awesome-swiper的方法(实现一屏展示多个图片,点击左右滚动一张)
  17. 三星Android Pie软件,三星开始向欧洲Galaxy S9用户推送Android Pie稳定版更新包
  18. 如何仿照OSINT模式进行机密信息的收集与发掘
  19. unity调用windows画图打印图片
  20. 数据结构与算法--图的广度优先搜索 (BFS)

热门文章

  1. 八、软考·系统架构师——架构设计
  2. 现代黑科技版“指鹿为马:使用CycleGAN实现男女“无痛变性”
  3. 解决phpstudy的Apache启动失败
  4. 让你拥有超常记忆力的小习惯
  5. pytorch之warm-up预热学习策略
  6. 使用HTML语言和CSS开发商业站点_利用CSS3制作网页动画
  7. java9 javascript_[Java教程]9最好的JavaScript压缩工具
  8. 2.10 MapReduce文件合并
  9. 【使用Modern UI快速开发WPF应用】
  10. cps linux命令,Linux基本网络及文件传输命令