Python NLP实战之一:环境准备


  • Python
  • PyYAML
  • NLTK
  • NLTK-Data
  • NumPy
  • Matplotlib


  • Python:http://www.python.org/getit/releases/2.7.2/ 版本:Python 2.7.2 (注:现在是2.7.3。Python已经发布3.3版了,之所以下载2.7,是因为2.x比较稳定,兼容的第三方软件多。Python官网提示:如果你不知道用哪个版本的话,就从2.7开始吧!)
  • PyYAML:http://pypi.python.org/pypi/PyYAML/ 版本:PyYAML 3.10 功能:YAML的解析工具
  • NLTK: http://www.nltk.org 版本:nltk-2.0.1 功能:自然语言工具包
  • NumPy: http://pypi.python.org/pypi/numpy 版本:numpy 1.6.1 功能:支持多维数组和线性代数
  • Matplotlib: http://sourceforge.net/projects/matplotlib/files/matplotlib/matplotlib-1.1.0/ 版本:matplotlib-1.1.0 功能:用于数据可视化的二维图库


(二)运行Python IDLE
Python安装完成后,运行Python集成开发环境IDLE:开始->所有程序->Python 2.7 ->IDLE (Python GUI),打开一个新的窗口,显示如下信息,表明安装成功。

  1. Python 2.7.2 (default, Jun 12 2011, 15:08:59) [MSC v.1500 32 bit (Intel)] on win32
  2. Type "copyright", "credits" or "license()" for more information.
  3. >>>


  1. >>> import nltk
  2. >>> nltk.download()


  1. >>> import nltk
  2. Traceback (most recent call last):
  3. File "<pyshell#0>", line 1, in <module>
  4. import nltk
  5. File "C:\Python27\lib\site-packages\nltk\__init__.py", line 107, in <module>
  6. from yamltags import *
  7. File "C:\Python27\lib\site-packages\nltk\yamltags.py", line 10, in <module>
  8. import yaml
  9. ImportError: No module named yaml

按照(一)所列的地址下载、安装完PyYAML后,再打开Python IDLE,导入NLTK,执行nltk.download(),我的界面出现的是文字提示,书上和网上有同学说是图形界面,两者都可以吧。

  1. Python 2.7.2 (default, Jun 12 2011, 15:08:59) [MSC v.1500 32 bit (Intel)] on win32
  2. Type "copyright", "credits" or "license()" for more information.
  3. >>> import nltk
  4. >>> nltk.download()
  5. NLTK Downloader
  6. ---------------------------------------
  7. d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
  8. ---------------------------------------
  9. Downloader>

选择d) Download,敲入d,再敲入l,然后按提示敲几次回车,显示的是将要下载的各种不同的数据包。

  1. Downloader> d
  2. Download which package (l=list; x=cancel)?
  3. Identifier> l
  4. Packages:
  5. [ ] maxent_ne_chunker... ACE Named Entity Chunker (Maximum entropy)
  6. [ ] abc................. Australian Broadcasting Commission 2006
  7. [ ] alpino.............. Alpino Dutch Treebank
  8. [ ] biocreative_ppi..... BioCreAtIvE (Critical Assessment of Information
  9. Extraction Systems in Biology)
  10. [ ] brown_tei........... Brown Corpus (TEI XML Version)
  11. [ ] cess_esp............ CESS-ESP Treebank
  12. [ ] chat80.............. Chat-80 Data Files
  13. [ ] brown............... Brown Corpus
  14. [ ] cmudict............. The Carnegie Mellon Pronouncing Dictionary (0.6)
  15. [ ] city_database....... City Database
  16. [ ] cess_cat............ CESS-CAT Treebank
  17. [ ] comtrans............ ComTrans Corpus Sample
  18. [ ] conll2002........... CONLL 2002 Named Entity Recognition Corpus
  19. [ ] conll2007........... Dependency Treebanks from CoNLL 2007 (Catalan
  20. and Basque Subset)
  21. [ ] europarl_raw........ Sample European Parliament Proceedings Parallel
  22. Corpus
  23. [ ] dependency_treebank. Dependency Parsed Treebank
  24. [ ] conll2000........... CONLL 2000 Chunking Corpus
  25. Hit Enter to continue:
  26. [ ] floresta............ Portuguese Treebank
  27. [ ] names............... Names Corpus, Version 1.3 (1994-03-29)
  28. [ ] gazetteers.......... Gazeteer Lists
  29. [ ] genesis............. Genesis Corpus
  30. [ ] gutenberg........... Project Gutenberg Selections
  31. [ ] inaugural........... C-Span Inaugural Address Corpus
  32. [ ] jeita............... JEITA Public Morphologically Tagged Corpus (in
  33. ChaSen format)
  34. [ ] movie_reviews....... Sentiment Polarity Dataset Version 2.0
  35. [ ] ieer................ NIST IE-ER DATA SAMPLE
  36. [ ] nombank.1.0......... NomBank Corpus 1.0
  37. [ ] indian.............. Indian Language POS-Tagged Corpus
  38. [ ] paradigms........... Paradigm Corpus
  39. [ ] kimmo............... PC-KIMMO Data Files
  40. [ ] knbc................ KNB Corpus (Annotated blog corpus)
  41. [ ] langid.............. Language Id Corpus
  42. [ ] mac_morpho.......... MAC-MORPHO: Brazilian Portuguese news text with
  43. part-of-speech tags
  44. [ ] machado............. Machado de Assis -- Obra Completa
  45. [ ] pe08................ Cross-Framework and Cross-Domain Parser
  46. Evaluation Shared Task
  47. Hit Enter to continue:
  48. [ ] pl196x.............. Polish language of the XX century sixties
  49. [ ] pil................. The Patient Information Leaflet (PIL) Corpus
  50. [ ] nps_chat............ NPS Chat
  51. [ ] reuters............. The Reuters-21578 benchmark corpus, ApteMod
  52. version
  53. [ ] qc.................. Experimental Data for Question Classification
  54. [ ] rte................. PASCAL RTE Challenges 1, 2, and 3
  55. [ ] ppattach............ Prepositional Phrase Attachment Corpus
  56. [ ] propbank............ Proposition Bank Corpus 1.0
  57. [ ] problem_reports..... Problem Report Corpus
  58. [ ] sinica_treebank..... Sinica Treebank Corpus Sample
  59. [ ] verbnet............. VerbNet Lexicon, Version 2.1
  60. [ ] state_union......... C-Span State of the Union Address Corpus
  61. [ ] semcor.............. SemCor 3.0
  62. [ ] senseval............ SENSEVAL 2 Corpus: Sense Tagged Text
  63. [ ] smultron............ SMULTRON Corpus Sample
  64. [ ] shakespeare......... Shakespeare XML Corpus Sample
  65. [ ] stopwords........... Stopwords Corpus
  66. [ ] swadesh............. Swadesh Wordlists
  67. [ ] switchboard......... Switchboard Corpus Sample
  68. [ ] toolbox............. Toolbox Sample Files
  69. Hit Enter to continue:
  70. [ ] unicode_samples..... Unicode Samples
  71. [ ] webtext............. Web Text Corpus
  72. [ ] timit............... TIMIT Corpus Sample
  73. [ ] ycoe................ York-Toronto-Helsinki Parsed Corpus of Old
  74. English Prose
  75. [ ] treebank............ Penn Treebank Sample
  76. [ ] udhr................ Universal Declaration of Human Rights Corpus
  77. [ ] sample_grammars..... Sample Grammars
  78. [ ] book_grammars....... Grammars from NLTK Book
  79. [ ] spanish_grammars.... Grammars for Spanish
  80. [ ] wordnet............. WordNet
  81. [ ] wordnet_ic.......... WordNet-InfoContent
  82. [ ] words............... Word Lists
  83. [ ] tagsets............. Help on Tagsets
  84. [ ] basque_grammars..... Grammars for Basque
  85. [ ] large_grammars...... Large context-free and feature-based grammars
  86. for parser comparison
  87. [ ] maxent_treebank_pos_tagger Treebank Part of Speech Tagger (Maximum entropy)
  88. [ ] rslp................ RSLP Stemmer (Removedor de Sufixos da Lingua
  89. Portuguesa)
  90. [ ] hmm_treebank_pos_tagger Treebank Part of Speech Tagger (HMM)
  91. Hit Enter to continue:
  92. [ ] punkt............... Punkt Tokenizer Models
  93. Collections:
  94. [ ] all-corpora......... All the corpora
  95. [ ] all................. All packages
  96. [ ] book................ Everything used in the NLTK Book
  97. ([*] marks installed packages)

你可以选择敲入 all-corpora,或all,或book,我选的是all。保持网络畅通,下载可能需要一段时间。显示信息如下:

  1. Download which package (l=list; x=cancel)?
  2. Identifier> all
  3. Downloading collection 'all'
  4. |
  5. | Downloading package 'abc' to C:\Documents and
  6. |     Settings\lenovo\Application Data\nltk_data...
  7. |   Unzipping corpora\abc.zip.
  8. | Downloading package 'alpino' to C:\Documents and
  9. |     Settings\lenovo\Application Data\nltk_data...
  10. |   Unzipping corpora\alpino.zip.
  11. | Downloading package 'biocreative_ppi' to C:\Documents and
  12. |     Settings\lenovo\Application Data\nltk_data...
  13. |   Unzipping corpora\biocreative_ppi.zip.
  14. | Downloading package 'brown' to C:\Documents and
  15. |     Settings\lenovo\Application Data\nltk_data...
  16. |   Unzipping corpora\brown.zip.
  17. | Downloading package 'brown_tei' to C:\Documents and
  18. |     Settings\lenovo\Application Data\nltk_data...
  19. |   Unzipping corpora\brown_tei.zip.
  20. | Downloading package 'cess_cat' to C:\Documents and
  21. |     Settings\lenovo\Application Data\nltk_data...
  22. |   Unzipping corpora\cess_cat.zip.
  23. | Downloading package 'cess_esp' to C:\Documents and
  24. |     Settings\lenovo\Application Data\nltk_data...
  25. |   Unzipping corpora\cess_esp.zip.
  26. | Downloading package 'chat80' to C:\Documents and
  27. ...
  28. ...
  29. ...
  30. | Downloading package 'book_grammars' to C:\Documents and
  31. |     Settings\lenovo\Application Data\nltk_data...
  32. |   Unzipping grammars\book_grammars.zip.
  33. | Downloading package 'sample_grammars' to C:\Documents and
  34. |     Settings\lenovo\Application Data\nltk_data...
  35. |   Unzipping grammars\sample_grammars.zip.
  36. | Downloading package 'spanish_grammars' to C:\Documents and
  37. |     Settings\lenovo\Application Data\nltk_data...
  38. |   Unzipping grammars\spanish_grammars.zip.
  39. | Downloading package 'basque_grammars' to C:\Documents and
  40. |     Settings\lenovo\Application Data\nltk_data...
  41. |   Unzipping grammars\basque_grammars.zip.
  42. | Downloading package 'large_grammars' to C:\Documents and
  43. |     Settings\lenovo\Application Data\nltk_data...
  44. |   Unzipping grammars\large_grammars.zip.
  45. | Downloading package 'tagsets' to C:\Documents and
  46. |     Settings\lenovo\Application Data\nltk_data...
  47. |
  48. Done downloading collection 'all'
  49. ---------------------------------------
  50. d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
  51. ---------------------------------------
  52. Downloader>


  1. Downloader> q
  2. True

注1:在这个过程中,可以获取帮助,用h) Help,敲入:h。显示如下:

  1. Downloader> h
  2. Commands:
  3. d) Download a package or collection     u) Update out of date packages
  4. l) List packages & collections          h) Help
  5. c) View & Modify Configuration          q) Quit
  6. ---------------------------------------
  7. d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
  8. ---------------------------------------
  9. Downloader>

注2:下载之前,可以选择下载到本地的路径,选择c) Config,敲入:c,进入Config环境。显示默认的下载路径,如下:

  1. Downloader> c
  2. Data Server:
  3. - URL: <http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml>
  4. - 3 Package Collections Available
  5. - 74 Individual Packages Available
  6. Local Machine:
  7. - Data directory: C:\Documents and Settings\lenovo\Application Data\nltk_data
  8. ---------------------------------------
  9. s) Show Config   u) Set Server URL   d) Set Data Dir   m) Main Menu
  10. ---------------------------------------
  11. Config>

选择d) Set Data Dir,敲入:d,键入新的下载路径:

  1. Config> d
  2. New Directory> D:\nltk_data
  3. ---------------------------------------
  4. s) Show Config   u) Set Server URL   d) Set Data Dir   m) Main Menu
  5. ---------------------------------------
  6. Config>


  1. New Directory> q
  2. Cancelled!
  3. ---------------------------------------
  4. s) Show Config   u) Set Server URL   d) Set Data Dir   m) Main Menu
  5. ---------------------------------------
  6. Config>


  1. Config> m
  2. ---------------------------------------
  3. d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
  4. ---------------------------------------
  5. Downloader>


  1. Downloader> q
  2. True

注3:如果上述不成功的话,你可以直接到 http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml 去下载数据包,放到下载路径的目录下即可。


  1. >>> from nltk.book import *


  1. >>> from nltk.book import *
  2. *** Introductory Examples for the NLTK Book ***
  3. Loading text1, ..., text9 and sent1, ..., sent9
  4. Type the name of the text or sentence to view it.
  5. Type: 'texts()' or 'sents()' to list the materials.
  6. text1: Moby Dick by Herman Melville 1851
  7. text2: Sense and Sensibility by Jane Austen 1811
  8. text3: The Book of Genesis
  9. text4: Inaugural Address Corpus
  10. text5: Chat Corpus
  11. text6: Monty Python and the Holy Grail
  12. text7: Wall Street Journal
  13. text8: Personals Corpus
  14. text9: The Man Who Was Thursday by G . K . Chesterton 1908
  15. >>>


  1. >>> text1.concordance('monstrous')
  2. Building index...
  3. Displaying 11 of 11 matches:
  4. ong the former , one was of a most monstrous size . ... This came towards us ,
  5. ON OF THE PSALMS . " Touching that monstrous bulk of the whale or ork we have r
  6. ll over with a heathenish array of monstrous clubs and spears . Some were thick
  7. d as you gazed , and wondered what monstrous cannibal and savage could ever hav
  8. that has survived the flood ; most monstrous and most mountainous ! That Himmal
  9. they might scout at Moby Dick as a monstrous fable , or still worse and more de
  10. th of Radney .'" CHAPTER 55 Of the Monstrous Pictures of Whales . I shall ere l
  11. ing Scenes . In connexion with the monstrous pictures of whales , I am strongly
  12. ere to enter upon those still more monstrous stories of them which are to be fo
  13. ght have been rummaged out of this monstrous cabinet there is no telling . But
  14. of Whale - Bones ; for Whales of a monstrous size are oftentimes cast up dead u
  15. >>>


  1. >>> text1
  2. <Text: Moby Dick by Herman Melville 1851>
  1. >>> text2
  2. <Text: Sense and Sensibility by Jane Austen 1811>


  1. >>> text1.similar('monstrous')
  2. Building word-context index...
  3. abundant candid careful christian contemptible curious delightfully
  4. determined doleful domineering exasperate fearless few gamesome
  5. horrible impalpable imperial lamentable lazy loving
  1. >>> text2.similar('monstrous')
  2. Building word-context index...
  3. very exceedingly heartily so a amazingly as extremely good great
  4. remarkably sweet vast


  1. >>> text4.dispersion_plot(['citizens','democracy','freedom','duties','America'])
  2. Traceback (most recent call last):
  3. File "<pyshell#12>", line 1, in <module>
  4. text4.dispersion_plot(['citizens','democracy','freedom','duties','America'])
  5. File "C:\Python27\lib\site-packages\nltk\text.py", line 454, in dispersion_plot
  6. dispersion_plot(self, words)
  7. File "C:\Python27\lib\site-packages\nltk\draw\dispersion.py", line 25, in
  8. dispersion_plot
  9. raise ValueError('The plot function requires the matplotlib package (aka pylab).'
  10. ValueError: The plot function requires the matplotlib package (aka pylab).See
  11. http://matplotlib.sourceforge.net/
  12. >>>



  1. >>> text3.generate()
  2. Building ngram index...
  3. In the six hundredth year of Noah , and Epher , and I put the stone
  4. from the field , And Ophir , and laid him on the morrow , that thou
  5. dost overtake them , and herb yielding seed after him that curseth
  6. thee , of a tree yielding fruit after his kind , cattle , and spread
  7. his tent , and Abimael , and Lot went out . The LORD God had taken
  8. from our father is in the inn , he gathered up his hand . And say ye
  9. moreover , Behold , I know that my


  1. >>> len(text3)
  2. 44764


  1. >>> sorted(set(text3))
  2. ['!', "'", '(', ')', ',', ',)', '.', '.)', ':', ';', ';)', '?', '?)', 'A', 'Abel', 'Abelmizraim', 'Abidah', 'Abide', 'Abimael', 'Abimelech', 'Abr', 'Abrah', 'Abraham', 'Abram', 'Accad', 'Achbor', 'Adah', 'Adam', 'Adbeel', 'Admah', 'Adullamite', 'After', 'Aholibamah', 'Ahuzzath', 'Ajah', 'Akan', 'All', 'Allonbachuth', 'Almighty', 'Almodad', 'Also', 'Alvah', 'Alvan', 'Am', 'Amal', 'Amalek', 'Amalekites', 'Ammon', 'Amorite',...]



