C. H. A. Koster
K.U. Nijmegen, subfaculteit Informatica
Hierbij de opgaven bij het eerste blok van IR2.
De bedoeling van de opdracht is dat de deelnemers ervaring op doen met
de problematiek van text-classificatie, een tweetal classificatie
algoritmen leren kennen en hun effectiviteit vergelijken aan de hand van
het SPAM classificatieprobleem.
De opdracht bestaat uit de volgende delen:
Zoek op het Internet een aantal (1000) voorbeelden van SPAM: onwenselijke
Email. Een flinke verzameling vind je bij spamassassin.
Kopieer deze documenten naar een folder genaamd SPAM1 als textfiles.
Verwijder eventuele HTML markeringen, maar behoud de tekstuele delen.
Kopieer de zipfile naar een folder SPAM2.
Verwijder eventuele HTML.
Maak een folder met daarin plm 1000 non-SPAM emails genaamd NONSPAM.
Zorg voor diversiteit (verschillende folders) en respresentativiteit
(uw inbox).
Verwijder weer eventuele HTML.
Maak voor elk der folders een stuklijst (example list) bestaande uit
regels van de vorm
Pas het LCS classificatie systeem toe op deze documenten (zie
HOWTO ),
waarbij getraind wordt op de documenten uit SPAM1 + NONSPAM, en
de documenten uit SPAM2 als testset worden gebruikt. Bepaal voor zowel
Winnow als Rocchio de leersnelheid en uiteindelijke precisie.
Interpreteer de resultaten van het experiment op grond van de
karakteristieken van de algoritmen zoals beschreven in het dictaat.
Onderzoek welke klassen slecht van elkaar te onderscheiden zijn.
Maak hierover een verslagje.
WERKSTUK
Er valt niets te programmeren, wel te lezen, denken, doen en beschrijven.
SPAM1/114.txt SPAM