From 5c402761981785d2ac0b19961d6b739423fc6471 Mon Sep 17 00:00:00 2001
From: manetta <mail@manettaberends.nl>
Date: Mon, 26 Oct 2020 14:06:25 +0100
Subject: [PATCH] adding 3 nltk notebooks

---
 nltk-frequency-distribution.ipynb | 191 ++++++++++++++++
 nltk-pos-tagger.ipynb             | 350 ++++++++++++++++++++++++++++++
 nltk-similar-words.ipynb          | 165 ++++++++++++++
 3 files changed, 706 insertions(+)
 create mode 100644 nltk-frequency-distribution.ipynb
 create mode 100644 nltk-pos-tagger.ipynb
 create mode 100644 nltk-similar-words.ipynb

diff --git a/nltk-frequency-distribution.ipynb b/nltk-frequency-distribution.ipynb
new file mode 100644
index 0000000..b4cfafe
--- /dev/null
+++ b/nltk-frequency-distribution.ipynb
@@ -0,0 +1,191 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# NLTK - Frequency Distribution"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "https://www.nltk.org/book/ch01.html#frequency-distributions"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import nltk\n",
+    "import random"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "lines = open('txt/language.txt').readlines()\n",
+    "sentence = random.choice(lines)\n",
+    "print(sentence)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Tokens"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "tokens = nltk.word_tokenize(sentence)\n",
+    "print(tokens)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Frequency Distribution"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# frequency of characters\n",
+    "fd = nltk.FreqDist(sentence)\n",
+    "print(fd)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "print(fd.most_common(50))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# frequency of words\n",
+    "fd = nltk.FreqDist(tokens)\n",
+    "print(fd)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "print(fd.most_common(50))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# frequency of a text\n",
+    "txt = open('txt/language.txt').read()\n",
+    "tokens = nltk.word_tokenize(txt)\n",
+    "fd = nltk.FreqDist(tokens)\n",
+    "print(fd)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "print(fd.most_common(50))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Requesting the frequency of a specific word\n",
+    "print(fd['language'])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.7.3"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 4
+}
diff --git a/nltk-pos-tagger.ipynb b/nltk-pos-tagger.ipynb
new file mode 100644
index 0000000..75f769e
--- /dev/null
+++ b/nltk-pos-tagger.ipynb
@@ -0,0 +1,350 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# NLTK - Part of Speech"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import nltk\n",
+    "import random"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "lines = open('txt/language.txt').readlines()\n",
+    "sentence = random.choice(lines)\n",
+    "print(sentence)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Tokens"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "tokens = nltk.word_tokenize(sentence)\n",
+    "print(tokens)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Part of Speech \"tags\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "tagged = nltk.pos_tag(tokens)\n",
+    "print(tagged)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Now, you could select for example all the type of **verbs**:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "selection = []\n",
+    "\n",
+    "for word, tag in tagged:\n",
+    "    if 'VB' in tag:\n",
+    "        selection.append(word)\n",
+    "\n",
+    "print(selection)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Where do these tags come from?"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "> An off-the-shelf tagger is available for English. It uses the Penn Treebank tagset.\n",
+    "\n",
+    "From: http://www.nltk.org/api/nltk.tag.html#module-nltk.tag"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "> NLTK provides documentation for each tag, which can be queried using the tag, e.g. nltk.help.upenn_tagset('RB').\n",
+    "\n",
+    "From: http://www.nltk.org/book_1ed/ch05.html"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "nltk.help.upenn_tagset('PRP')"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "------------"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "An alphabetical list of part-of-speech tags used in the Penn Treebank Project ([link](https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html)):\n",
+    "\n",
+    "<table cellspacing=\"2\" cellpadding=\"2\" border=\"0\">\n",
+    "  <tbody><tr bgcolor=\"#DFDFFF\" align=\"none\"> \n",
+    "    <td align=\"none\"> \n",
+    "      <div align=\"left\">Number</div>\n",
+    "    </td>\n",
+    "    <td> \n",
+    "      <div align=\"left\">Tag</div>\n",
+    "    </td>\n",
+    "    <td> \n",
+    "      <div align=\"left\">Description</div>\n",
+    "    </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 1. </td>\n",
+    "    <td>CC </td>\n",
+    "    <td>Coordinating conjunction </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 2. </td>\n",
+    "    <td>CD </td>\n",
+    "    <td>Cardinal number </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 3. </td>\n",
+    "    <td>DT </td>\n",
+    "    <td>Determiner </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 4. </td>\n",
+    "    <td>EX </td>\n",
+    "    <td>Existential <i>there<i> </i></i></td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 5. </td>\n",
+    "    <td>FW </td>\n",
+    "    <td>Foreign word </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 6. </td>\n",
+    "    <td>IN </td>\n",
+    "    <td>Preposition or subordinating conjunction </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 7. </td>\n",
+    "    <td>JJ </td>\n",
+    "    <td>Adjective </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 8. </td>\n",
+    "    <td>JJR </td>\n",
+    "    <td>Adjective, comparative </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 9. </td>\n",
+    "    <td>JJS </td>\n",
+    "    <td>Adjective, superlative </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 10. </td>\n",
+    "    <td>LS </td>\n",
+    "    <td>List item marker </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 11. </td>\n",
+    "    <td>MD </td>\n",
+    "    <td>Modal </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 12. </td>\n",
+    "    <td>NN </td>\n",
+    "    <td>Noun, singular or mass </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 13. </td>\n",
+    "    <td>NNS </td>\n",
+    "    <td>Noun, plural </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 14. </td>\n",
+    "    <td>NNP </td>\n",
+    "    <td>Proper noun, singular </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 15. </td>\n",
+    "    <td>NNPS </td>\n",
+    "    <td>Proper noun, plural </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 16. </td>\n",
+    "    <td>PDT </td>\n",
+    "    <td>Predeterminer </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 17. </td>\n",
+    "    <td>POS </td>\n",
+    "    <td>Possessive ending </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 18. </td>\n",
+    "    <td>PRP </td>\n",
+    "    <td>Personal pronoun </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 19. </td>\n",
+    "    <td>PRP\\$ </td>\n",
+    "    <td>Possessive pronoun </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 20. </td>\n",
+    "    <td>RB </td>\n",
+    "    <td>Adverb </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 21. </td>\n",
+    "    <td>RBR </td>\n",
+    "    <td>Adverb, comparative </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 22. </td>\n",
+    "    <td>RBS </td>\n",
+    "    <td>Adverb, superlative </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 23. </td>\n",
+    "    <td>RP </td>\n",
+    "    <td>Particle </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 24. </td>\n",
+    "    <td>SYM </td>\n",
+    "    <td>Symbol </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 25. </td>\n",
+    "    <td>TO </td>\n",
+    "    <td><i>to</i> </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 26. </td>\n",
+    "    <td>UH </td>\n",
+    "    <td>Interjection </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 27. </td>\n",
+    "    <td>VB </td>\n",
+    "    <td>Verb, base form </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 28. </td>\n",
+    "    <td>VBD </td>\n",
+    "    <td>Verb, past tense </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 29. </td>\n",
+    "    <td>VBG </td>\n",
+    "    <td>Verb, gerund or present participle </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 30. </td>\n",
+    "    <td>VBN </td>\n",
+    "    <td>Verb, past participle </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 31. </td>\n",
+    "    <td>VBP </td>\n",
+    "    <td>Verb, non-3rd person singular present </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 32. </td>\n",
+    "    <td>VBZ </td>\n",
+    "    <td>Verb, 3rd person singular present </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 33. </td>\n",
+    "    <td>WDT </td>\n",
+    "    <td>Wh-determiner </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 34. </td>\n",
+    "    <td>WP </td>\n",
+    "    <td>Wh-pronoun </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 35. </td>\n",
+    "    <td>WP$ </td>\n",
+    "    <td>Possessive wh-pronoun </td>\n",
+    "  </tr>\n",
+    "  <tr bgcolor=\"#FFFFCA\"> \n",
+    "    <td align=\"none\"> 36. </td>\n",
+    "    <td>WRB </td>\n",
+    "    <td>Wh-adverb \n",
+    "</td></tr></tbody></table>"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.7.3"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 4
+}
diff --git a/nltk-similar-words.ipynb b/nltk-similar-words.ipynb
new file mode 100644
index 0000000..17e5b95
--- /dev/null
+++ b/nltk-similar-words.ipynb
@@ -0,0 +1,165 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# NLTK - Similar Words"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "https://www.nltk.org/book/ch01.html#searching-text"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import nltk"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "txt = open('txt/language.txt').read()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Tokens"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "scrolled": true
+   },
+   "outputs": [],
+   "source": [
+    "tokens = nltk.word_tokenize(txt)\n",
+    "print(tokens)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## NLTK Text object"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "text = nltk.Text(tokens)\n",
+    "print(text)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## concordance"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# This is what you did with Michael before the break ...\n",
+    "concordance = text.concordance(\"language\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## similarities"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# With a small next step ...\n",
+    "similar = text.similar(\"language\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# And searching for contexts ...\n",
+    "contexts = text.common_contexts([\"language\"])"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "----------------"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Read on"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "https://www.nltk.org/book/ch01.html#searching-text (recommended!)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.7.3"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 4
+}