原文链接:http://www.hankcs.com/nlp/extraction-and-identification-of-mutual-information-about-the-phrase-based-on-information-entropy.html

在中文语言处理领域,一项重要的任务就是提取中文短语,也即固定多字词表达串的识别。短语提取经常用于搜索引擎的自动推荐,新词识别等领域。本文主要实现了从陌生文本中自动发现固定短语,并给出原理和步骤。

测试数据

算法工程师

算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工程师就是利用算法处理事物的人。

1职位简介

算法工程师是一个非常高端的职位;

专业要求:计算机、电子、通信、数学等相关专业;

学历要求:本科及其以上的学历,大多数是硕士学历及其以上;

语言要求:英语要求是熟练,基本上能阅读国外专业书刊;

必须掌握计算机相关知识,熟练使用仿真工具MATLAB等,必须会一门编程语言。

2研究方向

视频算法工程师、图像处理算法工程师、音频算法工程师 通信基带算法工程师

3目前国内外状况

目前国内从事算法研究的工程师不少,但是高级算法工程师却很少,是一个非常紧缺的专业工程师。算法工程师根据研究领域来分主要有音频/视频算法处理、图像技术方面的二维信息算法处理和通信物理层、雷达信号处理、生物医学信号处理等领域的一维信息算法处理。

在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法:机器视觉成为此类算法研究的核心;另外还有2D转3D算法(2D-to-3D conversion),去隔行算法(de-interlacing),运动估计运动补偿算法(Motion estimation/Motion Compensation),去噪算法(Noise Reduction),缩放算法(scaling),锐化处理算法(Sharpness),超分辨率算法(Super Resolution),手势识别(gesture recognition),人脸识别(face recognition)。

在通信物理层等一维信息领域目前常用的算法:无线领域的RRM、RTT,传送领域的调制解调、信道均衡、信号检测、网络优化、信号分解等。

另外数据挖掘、互联网搜索算法也成为当今的热门方向。

算法工程师逐渐往人工智能方向发展。

我取百科中对“算法工程师”的定义,很明显这个短语应当被第一个提取出来,另外,一些固定表达也应当能够识别。

预处理

使用中文处理工具(我这里使用了自己写的HanLP)对其断句、分词、去除停用词,得到如下结果:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
[算法/n, 工程师/nnt]
[算法/n, Algorithm/nx, 解决问题/v, 清晰/a, 指令/n]
[也就是说/l]
[能够/v, 规范/v, 输入/v]
[有限/a, 时间/n, 获得/v, 要求/n, 输出/vn]
[算法/n, 有缺陷/nz]
[适合于/v, 问题/n]
[执行/v, 算法/n, 不会/v, 解决/v, 问题/n]
[不同/a, 算法/n, 可能/v, 不同/a, 时间/n, 空间/n, 效率/n, 完成/v, 同样/d, 任务/n]
[算法/n, 优劣/n, 空间/n, 复杂度/nz, 时间/n, 复杂度/nz, 衡量/v]
[算法/n, 工程师/nnt, 利用/v, 算法/n, 处理/vn, 事物/n]
[职位/n, 简介/n]
[算法/n, 工程师/nnt, 非常/d, 高端/nz, 职位/n]
[专业/n, 要求/n, 计算机/n, 电子/n, 通信/vn, 相关/vn, 专业/n]
[学历/n, 要求/n, 本科/n, 学历/n]
[硕士/nnt, 学历/n]
[语言/n, 要求/n, 英语/nz, 要求/n, 熟练/a]
[基本上/d, 阅读/v, 国外/s, 专业/n, 书刊/n]
[必须/d, 掌握/v, 计算机相关/n, 知识/n]
[熟练/a, 使用/v, 仿真/vn, 工具/n, MATLAB/nx]
[必须/d, 编程语言/gi]
[研究/vn, 方向/n]
[视频/n, 算法/n, 工程师/nnt, 图像/n, 处理/vn, 算法/n, 工程师/nnt, 音频/n, 算法/n, 工程师/nnt]
[通信/vn, 基带/nz, 算法/n, 工程师/nnt]
[目前/t, 国内外/s, 状况/n]
[目前/t, 国内/s, 从事/vi, 算法/n, 研究/vn, 工程师/nnt]
[高级/a, 算法/n, 工程师/nnt, 很少/ad]
[非常/d, 紧缺/a, 专业/n, 工程师/nnt]
[算法/n, 工程师/nnt, 研究/vn, 领域/n, 音频/n, 视频/n, 算法/n, 处理/vn, 图像/n, 技术/n, 方面/n, 信息/n, 算法/n, 处理/vn, 通信/vn, 物理层/gi, 雷达/n, 信号处理/gi, 生物/n, 医学/n, 信号处理/gi, 领域/n, 一维/n, 信息/n, 算法/n, 处理/vn]
[计算机/n, 视频/n, 图形图像/nz, 技术/n, 信息/n, 算法/n, 处理/vn, 方面/n, 目前/t, 比较/d, 先进/a, 视频/n, 处理/vn, 算法/n, 机器/n, 视觉/n, 成为/v, 算法/n, 研究/vn, 核心/n]
[2D/nx, 3D/nx, 算法/n, 2D-to-3D/nx]
[conversion/nx]
[隔行/gi, 算法/n, de-interlacing/nx]
[运动/vn, 估计/v, 运动/vn, 补偿/vn, 算法/n, Motion/nx]
[estimation/Motion/nx]
[Compensation/nx]
[算法/n, Noise/nx]
[Reduction/nx]
[缩放/gi, 算法/n, scaling/nx]
[锐化/gi, 处理/vn, 算法/n, Sharpness/nx]
[分辨率/n, 算法/n, Super/nx]
[Resolution/nx]
[手势/n, 识别/vn, gesture/nx]
[recognition/nx]
[人脸识别/nz, face/nx]
[recognition/nx]
[通信/vn, 物理层/gi, 信息/n, 领域/n, 目前/t, 常用/a, 算法/n, 领域/n, RRM/nx, RTT/nx]
[传送/v, 领域/n, 调制/vn, 解调/vn, 信道/n, 均衡/a, 信号/n, 检测/vn, 网络/n, 优化/v, 信号/n, 分解/v]
[数据挖掘/gi, 互联网/n, 搜索/vn, 算法/n, 成为/v, 当今/t, 热门/a, 方向/n]
[算法/n, 工程师/nnt, 逐渐/d, 人工智能/n, 方向/n, 发展/vn]

统计词语共现

这里需要统计的共现频次有如下几种

一阶共现

也就是每个单词的词频。事实上,在我的实验结果中,光凭从文档中统计出来的词频不能反映一个词语在整个语言中的稀有程度,所以我使用外部词频词典。

二阶共现

也就是“算法→研究”这样的接续。

三阶共现

也就是二阶短语“算法→研究”后面的接续:“算法→研究→工程师”。同时,为了接下来计算的方便,还需要统计二阶串“算法→研究”的前面可能的接续“从事→算法→研究”;在我的实现中,我使用了前缀树来储存词与词频,所以略微转个弯,记作“算法→研究←从事”。

统计结果

在这个例子中,所有的词频统计如下(词频列表比较长,点击跳过):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
二阶共现:
2D→3D= tf=1
3D→算法= tf=1
Algorithm→解决问题= tf=1
RRM→RTT= tf=1
一维→信息= tf=1
不会→解决= tf=1
不同→时间= tf=1
不同→算法= tf=1
专业→书刊= tf=1
专业→工程师= tf=1
专业→要求= tf=1
互联网→搜索= tf=1
人工智能→方向= tf=1
人脸识别→face= tf=1
从事→算法= tf=1
仿真→工具= tf=1
优劣→空间= tf=1
优化→信号= tf=1
传送→领域= tf=1
估计→运动= tf=1
使用→仿真= tf=1
信号→分解= tf=1
信号→检测= tf=1
信号处理→生物= tf=1
信号处理→领域= tf=1
信息→算法= tf=3
信息→领域= tf=1
信道→均衡= tf=1
先进→视频= tf=1
分辨率→算法= tf=1
利用→算法= tf=1
医学→信号处理= tf=1
可能→不同= tf=1
同样→任务= tf=1
国内→从事= tf=1
国内外→状况= tf=1
国外→专业= tf=1
图像→处理= tf=1
图像→技术= tf=1
图形图像→技术= tf=1
均衡→信号= tf=1
基带→算法= tf=1
基本上→阅读= tf=1
处理→事物= tf=1
处理→图像= tf=1
处理→方面= tf=1
处理→算法= tf=3
处理→通信= tf=1
复杂度→时间= tf=1
复杂度→衡量= tf=1
学历→要求= tf=1
完成→同样= tf=1
工具→MATLAB= tf=1
工程师→利用= tf=1
工程师→图像= tf=1
工程师→很少= tf=1
工程师→研究= tf=1
工程师→逐渐= tf=1
工程师→非常= tf=1
工程师→音频= tf=1
常用→算法= tf=1
当今→热门= tf=1
必须→掌握= tf=1
必须→编程语言= tf=1
成为→当今= tf=1
成为→算法= tf=1
手势→识别= tf=1
执行→算法= tf=1
技术→信息= tf=1
技术→方面= tf=1
掌握→计算机相关= tf=1
搜索→算法= tf=1
效率→完成= tf=1
数据挖掘→互联网= tf=1
方向→发展= tf=1
方面→信息= tf=1
方面→目前= tf=1
时间→复杂度= tf=1
时间→空间= tf=1
时间→获得= tf=1
有限→时间= tf=1
本科→学历= tf=1
机器→视觉= tf=1
检测→网络= tf=1
比较→先进= tf=1
清晰→指令= tf=1
热门→方向= tf=1
熟练→使用= tf=1
物理层→信息= tf=1
物理层→雷达= tf=1
生物→医学= tf=1
电子→通信= tf=1
目前→国内= tf=1
目前→国内外= tf=1
目前→常用= tf=1
目前→比较= tf=1
相关→专业= tf=1
研究→工程师= tf=1
研究→方向= tf=1
研究→核心= tf=1
研究→领域= tf=1
硕士→学历= tf=1
空间→复杂度= tf=1
空间→效率= tf=1
算法→2D-to-3D= tf=1
算法→Algorithm= tf=1
算法→Motion= tf=1
算法→Noise= tf=1
算法→Sharpness= tf=1
算法→Super= tf=1
算法→de-interlacing= tf=1
算法→scaling= tf=1
算法→不会= tf=1
算法→优劣= tf=1
算法→可能= tf=1
算法→处理= tf=5
算法→工程师= tf=10
算法→成为= tf=1
算法→有缺陷= tf=1
算法→机器= tf=1
算法→研究= tf=2
算法→领域= tf=1
紧缺→专业= tf=1
缩放→算法= tf=1
网络→优化= tf=1
职位→简介= tf=1
能够→规范= tf=1
英语→要求= tf=1
获得→要求= tf=1
补偿→算法= tf=1
要求→本科= tf=1
要求→熟练= tf=1
要求→英语= tf=1
要求→计算机= tf=1
要求→输出= tf=1
规范→输入= tf=1
视觉→成为= tf=1
视频→图形图像= tf=1
视频→处理= tf=1
视频→算法= tf=2
解决→问题= tf=1
解决问题→清晰= tf=1
解调→信道= tf=1
计算机→电子= tf=1
计算机→视频= tf=1
计算机相关→知识= tf=1
识别→gesture= tf=1
语言→要求= tf=1
调制→解调= tf=1
运动→估计= tf=1
运动→补偿= tf=1
适合于→问题= tf=1
逐渐→人工智能= tf=1
通信→基带= tf=1
通信→物理层= tf=2
通信→相关= tf=1
锐化→处理= tf=1
阅读→国外= tf=1
隔行→算法= tf=1
雷达→信号处理= tf=1
非常→紧缺= tf=1
非常→高端= tf=1
音频→算法= tf=1
音频→视频= tf=1
领域→RRM= tf=1
领域→一维= tf=1
领域→目前= tf=1
领域→调制= tf=1
领域→音频= tf=1
高端→职位= tf=1
高级→算法= tf=1
三阶共现:
2D→3D→算法= tf=1
3D→算法→2D-to-3D= tf=1
3D→算法←2D= tf=1
Algorithm→解决问题→清晰= tf=1
Algorithm→解决问题←算法= tf=1
RRM→RTT←领域= tf=1
一维→信息→算法= tf=1
一维→信息←领域= tf=1
不会→解决→问题= tf=1
不会→解决←算法= tf=1
不同→时间→空间= tf=1
不同→时间←可能= tf=1
不同→算法→可能= tf=1
专业→书刊←国外= tf=1
专业→工程师←紧缺= tf=1
专业→要求→计算机= tf=1
互联网→搜索→算法= tf=1
互联网→搜索←数据挖掘= tf=1
人工智能→方向→发展= tf=1
人工智能→方向←逐渐= tf=1
从事→算法→研究= tf=1
从事→算法←国内= tf=1
仿真→工具→MATLAB= tf=1
仿真→工具←使用= tf=1
优劣→空间→复杂度= tf=1
优劣→空间←算法= tf=1
优化→信号→分解= tf=1
优化→信号←网络= tf=1
传送→领域→调制= tf=1
估计→运动→补偿= tf=1
估计→运动←运动= tf=1
使用→仿真→工具= tf=1
使用→仿真←熟练= tf=1
信号→分解←优化= tf=1
信号→检测→网络= tf=1
信号→检测←均衡= tf=1
信号处理→生物→医学= tf=1
信号处理→生物←雷达= tf=1
信号处理→领域→一维= tf=1
信号处理→领域←医学= tf=1
信息→算法→处理= tf=3
信息→算法←一维= tf=1
信息→算法←技术= tf=1
信息→算法←方面= tf=1
信息→领域→目前= tf=1
信息→领域←物理层= tf=1
信道→均衡→信号= tf=1
信道→均衡←解调= tf=1
先进→视频→处理= tf=1
先进→视频←比较= tf=1
分辨率→算法→Super= tf=1
利用→算法→处理= tf=1
利用→算法←工程师= tf=1
医学→信号处理→领域= tf=1
医学→信号处理←生物= tf=1
可能→不同→时间= tf=1
可能→不同←算法= tf=1
同样→任务←完成= tf=1
国内→从事→算法= tf=1
国内→从事←目前= tf=1
国内外→状况←目前= tf=1
国外→专业→书刊= tf=1
国外→专业←阅读= tf=1
图像→处理→算法= tf=1
图像→处理←工程师= tf=1
图像→技术→方面= tf=1
图像→技术←处理= tf=1
图形图像→技术→信息= tf=1
图形图像→技术←视频= tf=1
均衡→信号→检测= tf=1
均衡→信号←信道= tf=1
基带→算法→工程师= tf=1
基带→算法←通信= tf=1
基本上→阅读→国外= tf=1
处理→事物←算法= tf=1
处理→图像→技术= tf=1
处理→图像←算法= tf=1
处理→方面→目前= tf=1
处理→方面←算法= tf=1
处理→算法→Sharpness= tf=1
处理→算法→工程师= tf=1
处理→算法→机器= tf=1
处理→算法←图像= tf=1
处理→算法←视频= tf=1
处理→算法←锐化= tf=1
处理→通信→物理层= tf=1
处理→通信←算法= tf=1
复杂度→时间→复杂度= tf=1
复杂度→时间←空间= tf=1
复杂度→衡量←时间= tf=1
学历→要求→本科= tf=1
完成→同样→任务= tf=1
完成→同样←效率= tf=1
工具→MATLAB←仿真= tf=1
工程师→利用→算法= tf=1
工程师→利用←算法= tf=1
工程师→图像→处理= tf=1
工程师→图像←算法= tf=1
工程师→很少←算法= tf=1
工程师→研究→领域= tf=1
工程师→研究←算法= tf=1
工程师→逐渐→人工智能= tf=1
工程师→逐渐←算法= tf=1
工程师→非常→高端= tf=1
工程师→非常←算法= tf=1
工程师→音频→算法= tf=1
工程师→音频←算法= tf=1
常用→算法→领域= tf=1
常用→算法←目前= tf=1
当今→热门→方向= tf=1
当今→热门←成为= tf=1
必须→掌握→计算机相关= tf=1
成为→当今→热门= tf=1
成为→当今←算法= tf=1
成为→算法→研究= tf=1
成为→算法←视觉= tf=1
手势→识别→gesture= tf=1
执行→算法→不会= tf=1
技术→信息→算法= tf=1
技术→信息←图形图像= tf=1
技术→方面→信息= tf=1
技术→方面←图像= tf=1
掌握→计算机相关→知识= tf=1
掌握→计算机相关←必须= tf=1
搜索→算法→成为= tf=1
搜索→算法←互联网= tf=1
效率→完成→同样= tf=1
效率→完成←空间= tf=1
数据挖掘→互联网→搜索= tf=1
方向→发展←人工智能= tf=1
方面→信息→算法= tf=1
方面→信息←技术= tf=1
方面→目前→比较= tf=1
方面→目前←处理= tf=1
时间→复杂度→衡量= tf=1
时间→复杂度←复杂度= tf=1
时间→空间→效率= tf=1
时间→空间←不同= tf=1
时间→获得→要求= tf=1
时间→获得←有限= tf=1
有限→时间→获得= tf=1
本科→学历←要求= tf=1
机器→视觉→成为= tf=1
机器→视觉←算法= tf=1
检测→网络→优化= tf=1
检测→网络←信号= tf=1
比较→先进→视频= tf=1
比较→先进←目前= tf=1
清晰→指令←解决问题= tf=1
热门→方向←当今= tf=1
熟练→使用→仿真= tf=1
物理层→信息→领域= tf=1
物理层→信息←通信= tf=1
物理层→雷达→信号处理= tf=1
物理层→雷达←通信= tf=1
生物→医学→信号处理= tf=1
生物→医学←信号处理= tf=1
电子→通信→相关= tf=1
电子→通信←计算机= tf=1
目前→国内→从事= tf=1
目前→国内外→状况= tf=1
目前→常用→算法= tf=1
目前→常用←领域= tf=1
目前→比较→先进= tf=1
目前→比较←方面= tf=1
相关→专业←通信= tf=1
研究→工程师←算法= tf=1
研究→核心←算法= tf=1
研究→领域→音频= tf=1
研究→领域←工程师= tf=1
空间→复杂度→时间= tf=1
空间→复杂度←优劣= tf=1
空间→效率→完成= tf=1
空间→效率←时间= tf=1
算法→2D-to-3D←3D= tf=1
算法→Algorithm→解决问题= tf=1
算法→Motion←补偿= tf=1
算法→Sharpness←处理= tf=1
算法→Super←分辨率= tf=1
算法→de-interlacing←隔行= tf=1
算法→scaling←缩放= tf=1
算法→不会→解决= tf=1
算法→不会←执行= tf=1
算法→优劣→空间= tf=1
算法→可能→不同= tf=1
算法→可能←不同= tf=1
算法→处理→事物= tf=1
算法→处理→图像= tf=1
算法→处理→方面= tf=1
算法→处理→通信= tf=1
算法→处理←信息= tf=3
算法→处理←利用= tf=1
算法→处理←视频= tf=1
算法→工程师→利用= tf=1
算法→工程师→图像= tf=1
算法→工程师→很少= tf=1
算法→工程师→研究= tf=1
算法→工程师→逐渐= tf=1
算法→工程师→非常= tf=1
算法→工程师→音频= tf=1
算法→工程师←基带= tf=1
算法→工程师←处理= tf=1
算法→工程师←视频= tf=1
算法→工程师←音频= tf=1
算法→工程师←高级= tf=1
算法→成为→当今= tf=1
算法→成为←搜索= tf=1
算法→机器→视觉= tf=1
算法→机器←处理= tf=1
算法→研究→工程师= tf=1
算法→研究→核心= tf=1
算法→研究←从事= tf=1
算法→研究←成为= tf=1
算法→领域→RRM= tf=1
算法→领域←常用= tf=1
紧缺→专业→工程师= tf=1
紧缺→专业←非常= tf=1
缩放→算法→scaling= tf=1
网络→优化→信号= tf=1
网络→优化←检测= tf=1
能够→规范→输入= tf=1
英语→要求→熟练= tf=1
英语→要求←要求= tf=1
获得→要求→输出= tf=1
获得→要求←时间= tf=1
补偿→算法→Motion= tf=1
补偿→算法←运动= tf=1
要求→本科→学历= tf=1
要求→本科←学历= tf=1
要求→熟练←英语= tf=1
要求→英语→要求= tf=1
要求→英语←语言= tf=1
要求→计算机→电子= tf=1
要求→计算机←专业= tf=1
要求→输出←获得= tf=1
规范→输入←能够= tf=1
视觉→成为→算法= tf=1
视觉→成为←机器= tf=1
视频→图形图像→技术= tf=1
视频→图形图像←计算机= tf=1
视频→处理→算法= tf=1
视频→处理←先进= tf=1
视频→算法→处理= tf=1
视频→算法→工程师= tf=1
视频→算法←音频= tf=1
解决→问题←不会= tf=1
解决问题→清晰→指令= tf=1
解决问题→清晰←Algorithm= tf=1
解调→信道→均衡= tf=1
解调→信道←调制= tf=1
计算机→电子→通信= tf=1
计算机→电子←要求= tf=1
计算机→视频→图形图像= tf=1
计算机相关→知识←掌握= tf=1
识别→gesture←手势= tf=1
语言→要求→英语= tf=1
调制→解调→信道= tf=1
调制→解调←领域= tf=1
运动→估计→运动= tf=1
运动→补偿→算法= tf=1
运动→补偿←估计= tf=1
逐渐→人工智能→方向= tf=1
逐渐→人工智能←工程师= tf=1
通信→基带→算法= tf=1
通信→物理层→信息= tf=1
通信→物理层→雷达= tf=1
通信→物理层←处理= tf=1
通信→相关→专业= tf=1
通信→相关←电子= tf=1
锐化→处理→算法= tf=1
阅读→国外→专业= tf=1
阅读→国外←基本上= tf=1
隔行→算法→de-interlacing= tf=1
雷达→信号处理→生物= tf=1
雷达→信号处理←物理层= tf=1
非常→紧缺→专业= tf=1
非常→高端→职位= tf=1
非常→高端←工程师= tf=1
音频→算法→工程师= tf=1
音频→算法←工程师= tf=1
音频→视频→算法= tf=1
音频→视频←领域= tf=1
领域→RRM→RTT= tf=1
领域→RRM←算法= tf=1
领域→一维→信息= tf=1
领域→一维←信号处理= tf=1
领域→目前→常用= tf=1
领域→目前←信息= tf=1
领域→调制→解调= tf=1
领域→调制←传送= tf=1
领域→音频→视频= tf=1
领域→音频←研究= tf=1
高端→职位←非常= tf=1
高级→算法→工程师= tf=1

提取短语

利用互信息提取

互信息体现了两个变量之间的相互依赖程度。二元互信息是指两个事件同时发生的概率函数:

互信息值越高, 表明X和Y相关性越高, 则X和Y 组成短语的可能性越大; 反之, 互信息值越低,X 和Y之间相关性越低, 则X 和Y之间存在短语边界的可能性越大。

公式中的X和Y指的是两个相邻的单词,P值是它的出现概率。

具体到这个例子,“算法→研究”一共出现了2次,而二阶短语一共有191个,所以上式的P(X,Y)= 2 / 191。同理可以求出P(X)P(Y)。

如此,可以对所有二阶短语计算互信息,排序后得出短语以及其mi值,以及它们的互信息的值,输出如下:

1
算法→工程师  mi=20.076162594887872 , 通信→物理层    mi=18.466724682453773 , 2D→3D mi=17.773577501893826 , 3D→算法 mi=17.773577501893826 , Algorithm→解决问题    mi=17.773577501893826 , RRM→RTT   mi=17.773577501893826 , 人脸识别→face mi=17.773577501893826 , 信号处理→生物   mi=17.773577501893826 , 信号处理→领域   mi=17.773577501893826 , 信道→均衡 mi=17.773577501893826 , 分辨率→算法    mi=17.773577501893826 , 医学→信号处理   mi=17.773577501893826 , 图形图像→技术   mi=17.773577501893826 , 基带→算法 mi=17.773577501893826 , 复杂度→衡量    mi=17.773577501893826 , 工具→MATLAB mi=17.773577501893826 , 工程师→音频    mi=17.773577501893826 , 常用→算法 mi=17.773577501893826 , 当今→热门 mi=17.773577501893826 , 必须→编程语言   mi=17.773577501893826 , 掌握→计算机相关  mi=17.773577501893826 , 方面→目前 mi=17.773577501893826 , 物理层→信息    mi=17.773577501893826 , 物理层→雷达    mi=17.773577501893826 , 目前→国内 mi=17.773577501893826 , 目前→国内外    mi=17.773577501893826 , 目前→常用 mi=17.773577501893826 , 目前→比较 mi=17.773577501893826 , 空间→复杂度    mi=17.773577501893826 , 算法→2D-to-3D   mi=17.773577501893826 , 算法→Algorithm  mi=17.773577501893826 , 算法→Motion mi=17.773577501893826 , 算法→Noise  mi=17.773577501893826 , 算法→Sharpness  mi=17.773577501893826 , 算法→Super  mi=17.773577501893826 , 算法→de-interlacing mi=17.773577501893826 , 算法→scaling    mi=17.773577501893826 , 算法→优劣 mi=17.773577501893826 , 算法→有缺陷    mi=17.773577501893826 , 算法→机器 mi=17.773577501893826 , 缩放→算法 mi=17.773577501893826 , 视频→图形图像   mi=17.773577501893826 , 解调→信道 mi=17.773577501893826 , 计算机相关→知识  mi=17.773577501893826 , 识别→gesture    mi=17.773577501893826 , 调制→解调 mi=17.773577501893826 , 逐渐→人工智能   mi=17.773577501893826 , 通信→基带 mi=17.773577501893826 , 锐化→处理 mi=17.773577501893826 , 隔行→算法 mi=17.773577501893826 , 雷达→信号处理   mi=17.773577501893826 , 音频→算法 mi=17.773577501893826 , 领域→RRM    mi=17.773577501893826 , 领域→一维 mi=17.773577501893826 , 领域→目前 mi=17.773577501893826 , 数据挖掘→互联网  mi=17.76783479832517 , 人工智能→方向    mi=17.64699298816246 , 成为→当今  mi=17.447830648481858 , 一维→信息 mi=17.427203254470296 , 搜索→算法 mi=17.40048039480975 , 补偿→算法  mi=17.039852876555194 , 仿真→工具 mi=16.855930038394266 , 专业→书刊 mi=16.813755113343554 , 算法→处理 mi=16.78893300341849 , 高级→算法  mi=16.76332748360438 , 复杂度→时间 mi=16.59729206550135 , 时间→复杂度 mi=16.59729206550135 , 从事→算法  mi=16.537942616447157 , 视频→算法 mi=16.521658022682658 , 工程师→图像    mi=16.489091534242924 , 优劣→空间 mi=16.371669548523666 , 职位→简介 mi=16.332923953498966 , 手势→识别 mi=16.33209056224301 , 处理→算法  mi=16.278107379652496 , 机器→视觉 mi=16.24418363011743 , 音频→视频  mi=16.190300886728213 , 领域→调制 mi=16.189962075950792 , 领域→音频 mi=16.109919368277254 , 清晰→指令 mi=15.887228980567027 , 信息→算法 mi=15.886758213523146 , 算法→领域 mi=15.748129323671751 , 算法→研究 mi=15.602493304255963 , 利用→算法 mi=15.472717343811786 , 传送→领域 mi=15.469415921202732 , 工程师→很少    mi=15.416146992323391 , 解决问题→清晰   mi=15.402357094854453 , 信号→分解 mi=15.315660837081825 , 执行→算法 mi=15.315397089223248 , 适合于→问题    mi=15.263455710232483 , 本科→学历 mi=15.237216595685506 , 不同→算法 mi=15.212095654042672 , 算法→不会 mi=15.143324782778633 , 紧缺→专业 mi=15.129415892736336 , 硕士→学历 mi=14.994726517425098 , 工程师→逐渐    mi=14.860539225785507 , 均衡→信号 mi=14.804835213315835 , 算法→可能 mi=14.775053629193474 , 使用→仿真 mi=14.638591646580268 , 基本上→阅读    mi=14.608263078043468 , 成为→算法 mi=14.52109124641482 , 算法→成为  mi=14.52109124641482 , 非常→紧缺  mi=14.479675164476351 , 生物→医学 mi=14.457291784931144 , 计算机→电子    mi=14.232128201751985 , 高端→职位 mi=14.14096848884276 , 处理→事物  mi=14.086852969302782 , 国内外→状况    mi=14.081518802118406 , 专业→工程师    mi=14.041166391103774 , 熟练→使用 mi=13.971419952423584 , 阅读→国外 mi=13.93646902195409 , 电子→通信  mi=13.923539444480891 , 信号→检测 mi=13.92308373278244 , 优化→信号  mi=13.849970389714096 , 工程师→利用    mi=13.835108554410988 , 计算机→视频    mi=13.79942318658849 , 互联网→搜索 mi=13.509389225422641 , 估计→运动 mi=13.430195153106098 , 运动→估计 mi=13.430195153106098 , 要求→熟练 mi=13.420249361400176 , 运动→补偿 mi=13.403207008388451 , 工程师→非常    mi=13.391425662843787 , 图像→处理 mi=13.370036044656933 , 处理→图像 mi=13.370036044656933 , 规范→输入 mi=13.358071408679686 , 图像→技术 mi=13.282935148449384 , 工程师→研究    mi=13.27173733429522 , 研究→工程师 mi=13.27173733429522 , 空间→效率  mi=13.190902012304125 , 要求→输出 mi=13.111411088981084 , 热门→方向 mi=12.944494458213805 , 处理→通信 mi=12.841818678179072 , 视觉→成为 mi=12.714560459866451 , 国外→专业 mi=12.572428360772808 , 先进→视频 mi=12.526081994436229 , 要求→计算机    mi=12.389690535977081 , 要求→本科 mi=12.380344673558843 , 必须→掌握 mi=12.24671879770809 , 通信→相关  mi=12.165228935836836 , 效率→完成 mi=12.083743841164328 , 国内→从事 mi=12.071213816581144 , 比较→先进 mi=11.981983504093982 , 非常→高端 mi=11.86521840455941 , 英语→要求  mi=11.810811448966076 , 要求→英语 mi=11.810811448966076 , 学历→要求 mi=11.758268935178092 , 检测→网络 mi=11.734742541984915 , 网络→优化 mi=11.661629198916572 , 同样→任务 mi=11.49343465524305 , 能够→规范  mi=11.407108191772982 , 完成→同样 mi=11.161508752418655 , 有限→时间 mi=11.12586208124467 , 研究→核心  mi=11.089281777838682 , 视频→处理 mi=11.071846563135924 , 语言→要求 mi=11.021158631197032 , 研究→方向 mi=10.792052628488372 , 研究→领域 mi=10.721316077396594 , 信息→领域 mi=10.600115878555613 , 不会→解决 mi=10.450339971063002 , 时间→空间 mi=10.42017817150674 , 相关→专业  mi=10.245521159175548 , 专业→要求 mi=10.161394002044698 , 可能→不同 mi=10.05098991326497 , 处理→方面  mi=9.975096016223532 , 技术→信息  mi=9.944380749660702 , 获得→要求  mi=9.9167883597784 , 技术→方面    mi=9.887995120015985 , 方向→发展  mi=9.70542076474947 , 时间→获得   mi=9.679388455467398 , 方面→信息  mi=9.58374685009418 , 不同→时间   mi=9.4573145712718 , 解决→问题    mi=9.184176537396961 ,

利用信息熵提取

熵这个术语表示随机变量不确定性的量度。具体表述如下: 一般地, 设X 是取有限个值的随机变量( 或者说X 是有限个离散事件的概率场) , X 取值x 的概率为P ( x ) , 则X 的熵定义为:

左右熵是指多字词表达的左边界的熵和右边界的熵。左右熵的公式如下:

具体计算方法是,以左熵为例,对一个串左边所有可能的词以及词频,计算信息熵,然后求和。

左熵

1
算法→工程师  le=1.6094379124341005 , 信息→算法 le=1.0986122886681096 , 处理→算法 le=1.0986122886681096 , 算法→处理 le=0.9502705392332347 , 算法→研究 le=0.6931471805599453 , 2D→3D le=0.0 , 3D→算法    le=0.0 , Algorithm→解决问题   le=0.0 , RRM→RTT  le=0.0 , 一维→信息    le=0.0 , 不会→解决    le=0.0 , 不同→时间    le=0.0 , 不同→算法    le=0.0 , 专业→书刊    le=0.0 , 专业→工程师   le=0.0 , 专业→要求    le=0.0 , 互联网→搜索   le=0.0 , 人工智能→方向  le=0.0 , 人脸识别→face    le=0.0 , 从事→算法    le=0.0 , 仿真→工具    le=0.0 , 优劣→空间    le=0.0 , 优化→信号    le=0.0 , 传送→领域    le=0.0 , 估计→运动    le=0.0 , 使用→仿真    le=0.0 , 信号→分解    le=0.0 , 信号→检测    le=0.0 , 信号处理→生物  le=0.0 , 信号处理→领域  le=0.0 , 信息→领域    le=0.0 , 信道→均衡    le=0.0 , 先进→视频    le=0.0 , 分辨率→算法   le=0.0 , 利用→算法    le=0.0 , 医学→信号处理  le=0.0 , 可能→不同    le=0.0 , 同样→任务    le=0.0 , 国内→从事    le=0.0 , 国内外→状况   le=0.0 , 国外→专业    le=0.0 , 图像→处理    le=0.0 , 图像→技术    le=0.0 , 图形图像→技术  le=0.0 , 均衡→信号    le=0.0 , 基带→算法    le=0.0 , 基本上→阅读   le=0.0 , 处理→事物    le=0.0 , 处理→图像    le=0.0 , 处理→方面    le=0.0 , 处理→通信    le=0.0 , 复杂度→时间   le=0.0 , 复杂度→衡量   le=0.0 , 学历→要求    le=0.0 , 完成→同样    le=0.0 , 工具→MATLAB    le=0.0 , 工程师→利用   le=0.0 , 工程师→图像   le=0.0 , 工程师→很少   le=0.0 , 工程师→研究   le=0.0 , 工程师→逐渐   le=0.0 , 工程师→非常   le=0.0 , 工程师→音频   le=0.0 , 常用→算法    le=0.0 , 当今→热门    le=0.0 , 必须→掌握    le=0.0 , 必须→编程语言  le=0.0 , 成为→当今    le=0.0 , 成为→算法    le=0.0 , 手势→识别    le=0.0 , 执行→算法    le=0.0 , 技术→信息    le=0.0 , 技术→方面    le=0.0 , 掌握→计算机相关 le=0.0 , 搜索→算法    le=0.0 , 效率→完成    le=0.0 , 数据挖掘→互联网 le=0.0 , 方向→发展    le=0.0 , 方面→信息    le=0.0 , 方面→目前    le=0.0 , 时间→复杂度   le=0.0 , 时间→空间    le=0.0 , 时间→获得    le=0.0 , 有限→时间    le=0.0 , 本科→学历    le=0.0 , 机器→视觉    le=0.0 , 检测→网络    le=0.0 , 比较→先进    le=0.0 , 清晰→指令    le=0.0 , 热门→方向    le=0.0 , 熟练→使用    le=0.0 , 物理层→信息   le=0.0 , 物理层→雷达   le=0.0 , 生物→医学    le=0.0 , 电子→通信    le=0.0 , 目前→国内    le=0.0 , 目前→国内外   le=0.0 , 目前→常用    le=0.0 , 目前→比较    le=0.0 , 相关→专业    le=0.0 , 研究→工程师   le=0.0 , 研究→方向    le=0.0 , 研究→核心    le=0.0 , 研究→领域    le=0.0 , 硕士→学历    le=0.0 , 空间→复杂度   le=0.0 , 空间→效率    le=0.0 , 算法→2D-to-3D  le=0.0 , 算法→Algorithm le=0.0 , 算法→Motion    le=0.0 , 算法→Noise le=0.0 , 算法→Sharpness le=0.0 , 算法→Super le=0.0 , 算法→de-interlacing    le=0.0 , 算法→scaling   le=0.0 , 算法→不会    le=0.0 , 算法→优劣    le=0.0 , 算法→可能    le=0.0 , 算法→成为    le=0.0 , 算法→有缺陷   le=0.0 , 算法→机器    le=0.0 , 算法→领域    le=0.0 , 紧缺→专业    le=0.0 , 缩放→算法    le=0.0 , 网络→优化    le=0.0 , 职位→简介    le=0.0 , 能够→规范    le=0.0 , 英语→要求    le=0.0 , 获得→要求    le=0.0 , 补偿→算法    le=0.0 , 要求→本科    le=0.0 , 要求→熟练    le=0.0 , 要求→英语    le=0.0 , 要求→计算机   le=0.0 , 要求→输出    le=0.0 , 规范→输入    le=0.0 , 视觉→成为    le=0.0 , 视频→图形图像  le=0.0 , 视频→处理    le=0.0 , 视频→算法    le=0.0 , 解决→问题    le=0.0 , 解决问题→清晰  le=0.0 , 解调→信道    le=0.0 , 计算机→电子   le=0.0 , 计算机→视频   le=0.0 , 计算机相关→知识 le=0.0 , 识别→gesture   le=0.0 , 语言→要求    le=0.0 , 调制→解调    le=0.0 , 运动→估计    le=0.0 , 运动→补偿    le=0.0 , 适合于→问题   le=0.0 , 逐渐→人工智能  le=0.0 , 通信→基带    le=0.0 , 通信→物理层   le=0.0 , 通信→相关    le=0.0 , 锐化→处理    le=0.0 , 阅读→国外    le=0.0 , 隔行→算法    le=0.0 , 雷达→信号处理  le=0.0 , 非常→紧缺    le=0.0 , 非常→高端    le=0.0 , 音频→算法    le=0.0 , 音频→视频    le=0.0 , 领域→RRM   le=0.0 , 领域→一维    le=0.0 , 领域→目前    le=0.0 , 领域→调制    le=0.0 , 领域→音频    le=0.0 , 高端→职位    le=0.0 , 高级→算法    le=0.0 ,

右熵

1
算法→工程师  re=1.945910149055313 , 算法→处理  re=1.3862943611198906 , 处理→算法 re=1.0986122886681096 , 算法→研究 re=0.6931471805599453 , 视频→算法 re=0.6931471805599453 , 通信→物理层    re=0.6931471805599453 , 2D→3D re=0.0 , 3D→算法    re=0.0 , Algorithm→解决问题   re=0.0 , RRM→RTT  re=0.0 , 一维→信息    re=0.0 , 不会→解决    re=0.0 , 不同→时间    re=0.0 , 不同→算法    re=0.0 , 专业→书刊    re=0.0 , 专业→工程师   re=0.0 , 专业→要求    re=0.0 , 互联网→搜索   re=0.0 , 人工智能→方向  re=0.0 , 人脸识别→face    re=0.0 , 从事→算法    re=0.0 , 仿真→工具    re=0.0 , 优劣→空间    re=0.0 , 优化→信号    re=0.0 , 传送→领域    re=0.0 , 估计→运动    re=0.0 , 使用→仿真    re=0.0 , 信号→分解    re=0.0 , 信号→检测    re=0.0 , 信号处理→生物  re=0.0 , 信号处理→领域  re=0.0 , 信息→算法    re=0.0 , 信息→领域    re=0.0 , 信道→均衡    re=0.0 , 先进→视频    re=0.0 , 分辨率→算法   re=0.0 , 利用→算法    re=0.0 , 医学→信号处理  re=0.0 , 可能→不同    re=0.0 , 同样→任务    re=0.0 , 国内→从事    re=0.0 , 国内外→状况   re=0.0 , 国外→专业    re=0.0 , 图像→处理    re=0.0 , 图像→技术    re=0.0 , 图形图像→技术  re=0.0 , 均衡→信号    re=0.0 , 基带→算法    re=0.0 , 基本上→阅读   re=0.0 , 处理→事物    re=0.0 , 处理→图像    re=0.0 , 处理→方面    re=0.0 , 处理→通信    re=0.0 , 复杂度→时间   re=0.0 , 复杂度→衡量   re=0.0 , 学历→要求    re=0.0 , 完成→同样    re=0.0 , 工具→MATLAB    re=0.0 , 工程师→利用   re=0.0 , 工程师→图像   re=0.0 , 工程师→很少   re=0.0 , 工程师→研究   re=0.0 , 工程师→逐渐   re=0.0 , 工程师→非常   re=0.0 , 工程师→音频   re=0.0 , 常用→算法    re=0.0 , 当今→热门    re=0.0 , 必须→掌握    re=0.0 , 必须→编程语言  re=0.0 , 成为→当今    re=0.0 , 成为→算法    re=0.0 , 手势→识别    re=0.0 , 执行→算法    re=0.0 , 技术→信息    re=0.0 , 技术→方面    re=0.0 , 掌握→计算机相关 re=0.0 , 搜索→算法    re=0.0 , 效率→完成    re=0.0 , 数据挖掘→互联网 re=0.0 , 方向→发展    re=0.0 , 方面→信息    re=0.0 , 方面→目前    re=0.0 , 时间→复杂度   re=0.0 , 时间→空间    re=0.0 , 时间→获得    re=0.0 , 有限→时间    re=0.0 , 本科→学历    re=0.0 , 机器→视觉    re=0.0 , 检测→网络    re=0.0 , 比较→先进    re=0.0 , 清晰→指令    re=0.0 , 热门→方向    re=0.0 , 熟练→使用    re=0.0 , 物理层→信息   re=0.0 , 物理层→雷达   re=0.0 , 生物→医学    re=0.0 , 电子→通信    re=0.0 , 目前→国内    re=0.0 , 目前→国内外   re=0.0 , 目前→常用    re=0.0 , 目前→比较    re=0.0 , 相关→专业    re=0.0 , 研究→工程师   re=0.0 , 研究→方向    re=0.0 , 研究→核心    re=0.0 , 研究→领域    re=0.0 , 硕士→学历    re=0.0 , 空间→复杂度   re=0.0 , 空间→效率    re=0.0 , 算法→2D-to-3D  re=0.0 , 算法→Algorithm re=0.0 , 算法→Motion    re=0.0 , 算法→Noise re=0.0 , 算法→Sharpness re=0.0 , 算法→Super re=0.0 , 算法→de-interlacing    re=0.0 , 算法→scaling   re=0.0 , 算法→不会    re=0.0 , 算法→优劣    re=0.0 , 算法→可能    re=0.0 , 算法→成为    re=0.0 , 算法→有缺陷   re=0.0 , 算法→机器    re=0.0 , 算法→领域    re=0.0 , 紧缺→专业    re=0.0 , 缩放→算法    re=0.0 , 网络→优化    re=0.0 , 职位→简介    re=0.0 , 能够→规范    re=0.0 , 英语→要求    re=0.0 , 获得→要求    re=0.0 , 补偿→算法    re=0.0 , 要求→本科    re=0.0 , 要求→熟练    re=0.0 , 要求→英语    re=0.0 , 要求→计算机   re=0.0 , 要求→输出    re=0.0 , 规范→输入    re=0.0 , 视觉→成为    re=0.0 , 视频→图形图像  re=0.0 , 视频→处理    re=0.0 , 解决→问题    re=0.0 , 解决问题→清晰  re=0.0 , 解调→信道    re=0.0 , 计算机→电子   re=0.0 , 计算机→视频   re=0.0 , 计算机相关→知识 re=0.0 , 识别→gesture   re=0.0 , 语言→要求    re=0.0 , 调制→解调    re=0.0 , 运动→估计    re=0.0 , 运动→补偿    re=0.0 , 适合于→问题   re=0.0 , 逐渐→人工智能  re=0.0 , 通信→基带    re=0.0 , 通信→相关    re=0.0 , 锐化→处理    re=0.0 , 阅读→国外    re=0.0 , 隔行→算法    re=0.0 , 雷达→信号处理  re=0.0 , 非常→紧缺    re=0.0 , 非常→高端    re=0.0 , 音频→算法    re=0.0 , 音频→视频    re=0.0 , 领域→RRM   re=0.0 , 领域→一维    re=0.0 , 领域→目前    re=0.0 , 领域→调制    re=0.0 , 领域→音频    re=0.0 , 高端→职位    re=0.0 , 高级→算法    re=0.0 ,

上面的结果中很多熵是0,说明它只有一种接续。

综合排序

我这里简单地将三者求和作为一个串可能成为短语的程度的度量,排序结果如下:

1
算法→工程师  score=23.631510656377284 , 通信→物理层 score=19.159871863013716 , 算法→处理  score=19.125497903771613 , 处理→算法  score=18.475331956988718 , 2D→3D  score=17.773577501893826 , 3D→算法  score=17.773577501893826 , Algorithm→解决问题 score=17.773577501893826 , RRM→RTT    score=17.773577501893826 , 人脸识别→face  score=17.773577501893826 , 信号处理→生物    score=17.773577501893826 , 信号处理→领域    score=17.773577501893826 , 信道→均衡  score=17.773577501893826 , 分辨率→算法 score=17.773577501893826 , 医学→信号处理    score=17.773577501893826 , 图形图像→技术    score=17.773577501893826 , 基带→算法  score=17.773577501893826 , 复杂度→衡量 score=17.773577501893826 , 工具→MATLAB  score=17.773577501893826 , 工程师→音频 score=17.773577501893826 , 常用→算法  score=17.773577501893826 , 当今→热门  score=17.773577501893826 , 必须→编程语言    score=17.773577501893826 , 掌握→计算机相关   score=17.773577501893826 , 方面→目前  score=17.773577501893826 , 物理层→信息 score=17.773577501893826 , 物理层→雷达 score=17.773577501893826 , 目前→国内  score=17.773577501893826 , 目前→国内外 score=17.773577501893826 , 目前→常用  score=17.773577501893826 , 目前→比较  score=17.773577501893826 , 空间→复杂度 score=17.773577501893826 , 算法→2D-to-3D    score=17.773577501893826 , 算法→Algorithm   score=17.773577501893826 , 算法→Motion  score=17.773577501893826 , 算法→Noise   score=17.773577501893826 , 算法→Sharpness   score=17.773577501893826 , 算法→Super   score=17.773577501893826 , 算法→de-interlacing  score=17.773577501893826 , 算法→scaling score=17.773577501893826 , 算法→优劣  score=17.773577501893826 , 算法→有缺陷 score=17.773577501893826 , 算法→机器  score=17.773577501893826 , 缩放→算法  score=17.773577501893826 , 视频→图形图像    score=17.773577501893826 , 解调→信道  score=17.773577501893826 , 计算机相关→知识   score=17.773577501893826 , 识别→gesture score=17.773577501893826 , 调制→解调  score=17.773577501893826 , 逐渐→人工智能    score=17.773577501893826 , 通信→基带  score=17.773577501893826 , 锐化→处理  score=17.773577501893826 , 隔行→算法  score=17.773577501893826 , 雷达→信号处理    score=17.773577501893826 , 音频→算法  score=17.773577501893826 , 领域→RRM score=17.773577501893826 , 领域→一维  score=17.773577501893826 , 领域→目前  score=17.773577501893826 , 数据挖掘→互联网   score=17.76783479832517 , 人工智能→方向 score=17.64699298816246 , 成为→当今   score=17.447830648481858 , 一维→信息  score=17.427203254470296 , 搜索→算法  score=17.40048039480975 , 视频→算法   score=17.2148052032426 , 补偿→算法    score=17.039852876555194 , 算法→研究  score=16.988787665375852 , 信息→算法  score=16.985370502191255 , 仿真→工具  score=16.855930038394266 , 专业→书刊  score=16.813755113343554 , 高级→算法  score=16.76332748360438 , 复杂度→时间  score=16.59729206550135 , 时间→复杂度  score=16.59729206550135 , 从事→算法   score=16.537942616447157 , 工程师→图像 score=16.489091534242924 , 优劣→空间  score=16.371669548523666 , 职位→简介  score=16.332923953498966 , 手势→识别  score=16.33209056224301 , 机器→视觉   score=16.24418363011743 , 音频→视频   score=16.190300886728213 , 领域→调制  score=16.189962075950792 , 领域→音频  score=16.109919368277254 , 清晰→指令  score=15.887228980567027 , 算法→领域  score=15.748129323671751 , 利用→算法  score=15.472717343811786 , 传送→领域  score=15.469415921202732 , 工程师→很少 score=15.416146992323391 , 解决问题→清晰    score=15.402357094854453 , 信号→分解  score=15.315660837081825 , 执行→算法  score=15.315397089223248 , 适合于→问题 score=15.263455710232483 , 本科→学历  score=15.237216595685506 , 不同→算法  score=15.212095654042672 , 算法→不会  score=15.143324782778633 , 紧缺→专业  score=15.129415892736336 , 硕士→学历  score=14.994726517425098 , 工程师→逐渐 score=14.860539225785507 , 均衡→信号  score=14.804835213315835 , 算法→可能  score=14.775053629193474 , 使用→仿真  score=14.638591646580268 , 基本上→阅读 score=14.608263078043468 , 成为→算法  score=14.52109124641482 , 算法→成为   score=14.52109124641482 , 非常→紧缺   score=14.479675164476351 , 生物→医学  score=14.457291784931144 , 计算机→电子 score=14.232128201751985 , 高端→职位  score=14.14096848884276 , 处理→事物   score=14.086852969302782 , 国内外→状况 score=14.081518802118406 , 专业→工程师 score=14.041166391103774 , 熟练→使用  score=13.971419952423584 , 阅读→国外  score=13.93646902195409 , 电子→通信   score=13.923539444480891 , 信号→检测  score=13.92308373278244 , 优化→信号   score=13.849970389714096 , 工程师→利用 score=13.835108554410988 , 计算机→视频 score=13.79942318658849 , 互联网→搜索  score=13.509389225422641 , 估计→运动  score=13.430195153106098 , 运动→估计  score=13.430195153106098 , 要求→熟练  score=13.420249361400176 , 运动→补偿  score=13.403207008388451 , 工程师→非常 score=13.391425662843787 , 图像→处理  score=13.370036044656933 , 处理→图像  score=13.370036044656933 , 规范→输入  score=13.358071408679686 , 图像→技术  score=13.282935148449384 , 工程师→研究 score=13.27173733429522 , 研究→工程师  score=13.27173733429522 , 空间→效率   score=13.190902012304125 , 要求→输出  score=13.111411088981084 , 热门→方向  score=12.944494458213805 , 处理→通信  score=12.841818678179072 , 视觉→成为  score=12.714560459866451 , 国外→专业  score=12.572428360772808 , 先进→视频  score=12.526081994436229 , 要求→计算机 score=12.389690535977081 , 要求→本科  score=12.380344673558843 , 必须→掌握  score=12.24671879770809 , 通信→相关   score=12.165228935836836 , 效率→完成  score=12.083743841164328 , 国内→从事  score=12.071213816581144 , 比较→先进  score=11.981983504093982 , 非常→高端  score=11.86521840455941 , 英语→要求   score=11.810811448966076 , 要求→英语  score=11.810811448966076 , 学历→要求  score=11.758268935178092 , 检测→网络  score=11.734742541984915 , 网络→优化  score=11.661629198916572 , 同样→任务  score=11.49343465524305 , 能够→规范   score=11.407108191772982 , 完成→同样  score=11.161508752418655 , 有限→时间  score=11.12586208124467 , 研究→核心   score=11.089281777838682 , 视频→处理  score=11.071846563135924 , 语言→要求  score=11.021158631197032 , 研究→方向  score=10.792052628488372 , 研究→领域  score=10.721316077396594 , 信息→领域  score=10.600115878555613 , 不会→解决  score=10.450339971063002 , 时间→空间  score=10.42017817150674 , 相关→专业   score=10.245521159175548 , 专业→要求  score=10.161394002044698 , 可能→不同  score=10.05098991326497 , 处理→方面   score=9.975096016223532 , 技术→信息   score=9.944380749660702 , 获得→要求   score=9.9167883597784 , 技术→方面 score=9.887995120015985 , 方向→发展   score=9.70542076474947 , 时间→获得    score=9.679388455467398 , 方面→信息   score=9.58374685009418 , 不同→时间    score=9.4573145712718 , 解决→问题 score=9.184176537396961 ,

取其前5个作为最终结果:

1
[算法工程师, 通信物理层, 算法处理, 处理算法, 2D3D]

效果勉勉强强吧。

Reference

《利用统计量和语言学规则提取多字词表达》

基于互信息和左右信息熵的短语提取识别相关推荐

  1. matlab的NLP功能,pyhanlp 共性分析与短语提取内容详解

    pyhanlp 共性分析与短语提取内容详解 简介 HanLP中的词语提取是基于互信息与信息熵.想要计算互信息与信息熵有限要做的是 文本分词进行共性分析.在作者的原文中,有几个问题,为了便于说明,这里首 ...

  2. pyhanlp 共性分析与短语提取

    简介 HanLP中的词语提取是基于互信息与信息熵.想要计算互信息与信息熵有限要做的是 文本分词进行共性分析.在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理.在文末在给出pyhan ...

  3. pyhanlp 共性分析与短语提取内容详解

    简介 HanLP中的词语提取是基于互信息与信息熵.想要计算互信息与信息熵有限要做的是 文本分词进行共性分析.在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理.在文末在给出pyhan ...

  4. 如何获取一段文本的关键词——短语提取

    提取中文短语 也即固定多字词表达串的识别.短语提取经常用于搜索引擎的自动推荐,文档的简介生成等. 利用互信息和左右信息熵,我们可以轻松地将新词提取算法拓展到短语提取.只需将新词提取时的字符替换为单词, ...

  5. 【知识图谱系列】基于互信息最大化的图谱预训练模型DGI InfoGraph

    作者:CHEONG 公众号:AI机器学习与知识图谱 研究方向:自然语言处理与知识图谱 本文介绍两篇基于互信息最大化的图谱预训练模型DGI(ICLR 2019)和InfoGraph(ICLR 2020) ...

  6. 【图像配准】基于互信息的图像配准算法:MI、EMI、ECC算法

    简介:         基于互信息的图像配准算法以其较高的配准精度和广泛的适用性而成为图像配准领域研究的热点之一,而基于互信息的医学图像配准方法被认为是最好的配准方法之一.基于此,本文将介绍简单的基于 ...

  7. 基于K-Means聚类算法的主颜色提取

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 01.简介 本期我们将一起实现基于K-Means聚类算法的主色提取 ...

  8. 零基础基于U-Net网络实战眼底图像血管提取

    文章目录 1 前言 2 血管提取任务概述 3 U-Net架构简介 4 眼底图像血管分割代码 5 结果评估可视化(ROC曲线) 6 改进U-Net网络完成眼底图像血管提取任务思路 1 前言 本文基于U- ...

  9. 8bit黑白图像的灰度值范围是_窗宽窗位对基于互信息的医学图像

    窗宽窗位对基于互信息的医学图像 摘 要:基于互信息的配准方法具有自动化程度高.配准精度高等优点,近来已成为医学图像处理领域的热点.基于互信息的配准方法实质上是一种对灰度进行统计和计算的方法,因此同一图 ...

最新文章

  1. [PAL编程规范]SAP HANA PAL双变量几何回归预测分析Bi -Variate Geometric Regression编程规范FORECASTWITHGEOR(预测)...
  2. Eclipse Color Theme
  3. 七、压缩与解压缩命令
  4. Electron中打开和关闭子窗口以及子窗口向父窗口传值
  5. SQL点滴27—性能分析之执行计划
  6. 保护眼睛的电脑设置_电脑文件加密怎么设置?一键快速保护重要文件
  7. MinIO多租户(Multi-tenant)部署指南
  8. 计算机仿真技术实际,计算机仿真技术详解.doc
  9. linux(一)export的生命周期
  10. PLC状态机编程第六篇-优化PLC程序生成
  11. CC2640 LaunchPad入门试用-第一篇
  12. tp5.0 根据经纬度 获取附近信息_Redis怎么实现查找附近的人之数据类型Geospatial...
  13. 铁路售票系统_城轨交通地高铁车站自动售检票(AFC)实训系统解决方案
  14. Android dp2px
  15. 80题题目+AC代码汇总 ~ 南阳 NYOJ
  16. 大学十年(一个程序员的路程)(林锐博士)《1----9》【林锐的大学10年】
  17. 飞浆AI studio人工智能课程学习(2)-Prompt优化思路|十个技巧高效优化Prompt|迭代法|Trick法|通用法|工具辅助
  18. jsp042ssm宠物狗猫咪交流网站
  19. iOS vs Android 系统架构
  20. canvas 模拟地球绕太阳转动 月球绕地球转动

热门文章

  1. 卡尔曼实时检测跟踪算法(论文总结)
  2. qt 5.0.2 vs addin 安装错误 Unable to find a Qt build!
  3. Java8jdk的下载、安装和配置(纯纯保姆级别教程)
  4. ‘svn更新‘ 报错:has encountered a problem. org.tigris.subversion.javahl.ClientException
  5. 米家骑记电助力折叠自行车,看看里面的电子方案
  6. java二分排序算法
  7. 甘特图,看这篇就够了
  8. Android底部弹出选择框PickerView的使用
  9. 怎么在firefox 里面看维语,哈语等复杂字体的网页
  10. linux java打包工具有哪些_Linux打包和压缩工具的使用详解