text split onto paragraphs

5 years ago · 8a5f12b778
parent 8b9ff87896
commit 8a5f12b778
2 changed files with 103 additions and 55 deletions
--- a/website/tag_comparison.html
+++ b/website/tag_comparison.html
--- a/website/tag_comparison.py
+++ b/website/tag_comparison.py
@ -9,7 +9,6 @@ import codecs
 from nltk import sent_tokenize, word_tokenize, pos_tag
 from nltk.probability import FreqDist
 from nltk.corpus import stopwords
-from PIL import Image
 import base64
 nltk.download('stopwords')

@ -22,6 +21,8 @@ nltk.download('stopwords')
 #open the txt file, read, and tokenize 
 file = open('faceapp.txt','r')
 text = file.read()
+text_list = text.split("\n\n")
+
 #not sure if this works..
 x = 1

@ -225,11 +226,13 @@ print('</div>')

 #ToS text
 print('<div class ="paragraph">')
-tokenized = word_tokenize(text)
-tagged = pos_tag(tokenized)
-
-for word, pos in tagged:
-	print('<span class="{}">{}</span>'.format(pos, word))
+for paragraph in text_list:
+	tokenized = word_tokenize(paragraph)
+	tagged = pos_tag(tokenized)
+	print('<p>')
+	for word, pos in tagged:
+		print('<span class="{}">{}</span>'.format(pos, word))
+	print('</p>')
 print('</div>')