text split onto paragraphs

5 years ago · 8a5f12b778
parent 8b9ff87896
commit 8a5f12b778
2 changed files with 103 additions and 55 deletions
--- a/website/tag_comparison.html
+++ b/website/tag_comparison.html
--- a/website/tag_comparison.py
+++ b/website/tag_comparison.py
@ -9,7 +9,6 @@ import codecs
 from nltk import sent_tokenize, word_tokenize, pos_tag
 from nltk.probability import FreqDist
 from nltk.corpus import stopwords
 from PIL import Image
 import base64
 nltk.download('stopwords')
@ -22,6 +21,8 @@ nltk.download('stopwords')
 #open the txt file, read, and tokenize 
 file = open('faceapp.txt','r')
 text = file.read()
 text_list = text.split("\n\n")
 #not sure if this works..
 x = 1
@ -225,11 +226,13 @@ print('</div>')
 #ToS text
 print('<div class ="paragraph">')
-tokenized = word_tokenize(text)
+for paragraph in text_list:
-tagged = pos_tag(tokenized)
+	tokenized = word_tokenize(paragraph)
-
+	tagged = pos_tag(tokenized)
-for word, pos in tagged:
+	print('<p>')
 	for word, pos in tagged:
 		print('<span class="{}">{}</span>'.format(pos, word))
 	print('</p>')
 print('</div>')