
This is a script to train conditional random fields. It is written to minimize the number of lines of code, with no regard for efficiency.

  1. #!/usr/bin/python
  2. # crf.py (by Graham Neubig)
  3. #  This script trains conditional random fields (CRFs)
  4. #  stdin: A corpus of WORD_POS WORD_POS WORD_POS sentences
  5. #  stdout: Feature vectors for emission and transition properties
  6. from collections import defaultdict
  7. from math import log, exp
  8. import sys
  9. import operator
  10. # The L2 regularization coefficient and learning rate for SGD
  11. l2_coeff = 1
  12. rate = 10
  13. # A dictionary to map tags to integers
  14. tagids = defaultdict(lambda: len(tagids))
  15. tagids["<S>"] = 0
  16. ############# Utility functions ###################
  17. def dot(A, B):
  18. return sum(A[k]*B[k] for k in A if k in B)
  19. def add(A, B):
  20. C = defaultdict(A, lambda: 0)
  21. # for k, v in A.items(): C[k] += v
  22. for k, v in B.items(): C[k] += v
  23. return C
  24. def logsumexp(A):
  25. k = max(A)
  26. return log(sum( exp(i-k) for i in A ))+k
  27. ############# Functions for memoized probability
  28. def calc_feat(x, i, l, r):
  29. return { ("T", l, r): 1, ("E", r, x[i]): 1 }
  30. def calc_e(x, i, l, r, w, e_prob):
  31. if (i, l, r) not in e_prob:
  32. e_prob[i,l,r] = dot(calc_feat(x, i, l, r), w)
  33. return e_prob[i,l,r]
  34. def calc_f(x, i, l, w, e, f):
  35. if (i, l) not in f:
  36. if i == 0:
  37. f[i,0] = 0
  38. else:
  39. prev_states = (range(1, len(tagids)) if i != 1 else [0])
  40. f[i,l] = logsumexp([
  41. calc_f(x, i-1, k, w, e, f) + calc_e(x, i, k, l, w, e)
  42. for k in prev_states])
  43. return f[i,l]
  44. def calc_b(x, i, r, w, e, b):
  45. if (i, r) not in b:
  46. if i == len(x)-1:
  47. b[i,0] = 0
  48. else:
  49. prev_states = (range(1, len(tagids)) if i != len(x)-2 else [0])
  50. b[i,r] = logsumexp([
  51. calc_b(x, i+1, k, w, e, b) + calc_e(x, i, r, k, w, e)
  52. for k in prev_states])
  53. return b[i,r]
  54. ############# Function to calculate gradient ######
  55. def calc_gradient(x, y, w):
  56. f_prob = {(0,0): 0}
  57. b_prob = {(len(x)-1,0): 0}
  58. e_prob = {}
  59. grad = defaultdict(lambda: 0)
  60. # Add the features for the numerator
  61. for i in range(1, len(x)):
  62. for k, v in calc_feat(x, i, y[i-1], y[i]).items(): grad[k] += v
  63. # Calculate the likelihood and normalizing constant
  64. norm = calc_b(x, 0, 0, w, e_prob, b_prob)
  65. lik = dot(grad, w) - norm
  66. # Subtract the features for the denominator
  67. for i in range(1, len(x)):
  68. for l in (range(1, len(tagids)) if i != 1 else [0]):
  69. for r in (range(1, len(tagids)) if i != len(x)-1 else [0]):
  70. # Find the probability of using this path
  71. p = exp(calc_e(x, i, l, r, w, e_prob)
  72. + calc_b(x, i,   r, w, e_prob, b_prob)
  73. + calc_f(x, i-1, l, w, e_prob, f_prob)
  74. - norm)
  75. # Subtract the expectation of the features
  76. for k, v in calc_feat(x, i, l, r).items(): grad[k] -= v * p
  77. # print grad
  78. # Return the gradient and likelihood
  79. return (grad, lik)
  80. ############### Main training loop
  81. if __name__ == '__main__':
  82. # load in the corpus
  83. corpus = []
  84. for line in sys.stdin:
  85. words = [ "<S>" ]
  86. tags  = [   0   ]
  87. line = line.strip()
  88. for w_t in line.split(" "):
  89. w, t = w_t.split("_")
  90. words.append(w)
  91. tags.append(tagids[t])
  92. words.append("<S>")
  93. tags.append(0)
  94. corpus.append( (words, tags) )
  95. # for 50 iterations
  96. w = defaultdict(lambda: 0)
  97. for iternum in range(1, 50+1):
  98. grad = defaultdict(lambda: 0)
  99. # Perform regularization
  100. reg_lik = 0;
  101. for k, v in w.items():
  102. grad[k] -= 2*v*l2_coeff
  103. reg_lik -= v*v*l2_coeff
  104. # Get the gradients and likelihoods
  105. lik = 0
  106. for x, y in corpus:
  107. my_grad, my_lik = calc_gradient(x, y, w)
  108. for k, v in my_grad.items(): grad[k] += v
  109. lik += my_lik
  110. l1 = sum( [abs(k) for k in grad.values()] )
  111. print >> sys.stderr, "Iter %r likelihood: lik=%r, reg=%r, reg+lik=%r gradL1=%r" % (iternum, lik, reg_lik, lik+reg_lik, l1)
  112. # Here we are updating the weights with SGD, but a better optimization
  113. # algorithm is necessary if you want to use this in practice.
  114. for k, v in grad.items(): w[k] += v/l1*rate
  115. # Reverse the tag strings
  116. strs = range(0, len(tagids))
  117. for k, v in tagids.items(): strs[v] = k
  118. # Print the features
  119. for k, v in sorted(w.iteritems(), key=operator.itemgetter(1)):
  120. if k[0] == "E": print "%s %s %s\t%r" % (k[0], strs[k[1]], k[2], v)
  121. else:           print "%s %s %s\t%r" % (k[0], strs[k[1]], strs[k[2]], v)


