Documenten, e-mail automatisch in categorieën indelen?

De hoeveeldheid documenten, e-mail of artikelen op websites kunnen enorm zijn. Vaak zie je dat het bepalen van categorieën handmatig gebeurt of dat 1 woord gebruikt wordt om een categorie te bepalen. Zou het niet handiger zijn om een paar voorbeeld documenten te maken en daarna de categorie-indeling automatisch te laten gebeuren?

 

Hoe werkt de Classifier?

Het classificeren van E-mail of documenten wordt gedaan op basis van taaltechnologie en gaat veel verder dan het instellen van bijvoorbeeld regels in Outlook en gaat veel verder dan patroonherkenning.

De technologie is ontwikkeld door onze wetenschappers afkomstig van de Universiteit Twente en maakt de laatste 15 jaar een enorme ontwikkeling door. De Classifier analyseert welke woorden uit een document het meest markant zijn. Dit gebeurt op basis van de gewenste categorie. Dit kunnen onderwerpen zijn, maar ook thema’s, rubrieken, afdelingen, etc. Per markant woord wordt vervolgens door middel van een contextanalyse bepaald welke andere woorden hier iets (contextwoorden) of niets (negatieve contextwoorden) mee te maken hebben.

 

Als voorbeeld wordt het volgende artikel gebruikt. Onderstaande Classifier is getraind met nieuwsartikelen en onderstaande analyse van de classificatie gebeurt volledig automatisch.

 

Op basis van de training komt de Classifier tot de volgende conclusie:

 

Soccer

This classification is absolutely sure.

 

De Classifier kan worden getraind met uw eigen labels. Hierdoor is er een groot aantal toepassingsmogelijkheden, zoals metadatering, onderwerp toekenning, e-mail routing, etc.

 

Is de Carp Classifier speciaal?

De meeste huidige classificatiesystemen beschouwen tekst als een verzameling woorden, zonder rekening te houden met onderlinge afhankelijkheden tussen woorden. Bij deze aanpak kan worden aangenomen dat er informatie uit de tekst verloren gaat. Denk hier bijvoorbeeld aan verbanden tussen bijvoeglijke en zelfstandige naamwoorden, of samenstellingen van een of meer woorden. Het weglaten van afhankelijkheden tussen woorden levert problemen op: woorden met meerdere betekenissen kunnen hierdoor verkeerd geïnterpreteerd woorden. Bovendien kunnen samenstellingen van woorden verloren gaan. Verder hebben de meeste huidige systemen problemen met het verwerken van grote hoeveelheden data en grote aantallen categorieën; er zijn dan een aantal categorieën die veel overeenkomsten vertonen als puur naar de woorden van de teksten gekeken wordt.

 

Voordelen

Unieke kenmerken Classifier:

 

  •     De Classifier kijkt i.p.v. naar losse woorden, naar context en samenhang.
  •     De Classifier kan hierdoor veel trefzekerder classificeren.
  •     De Classifier geeft feedback over waarom een classificatie van toepassing is.
  •     De Classifier geeft naast een relevantiescore ook feedback over betrouwbaarheid.
  •     De Classifier herkent wanneer geen enkele categorie van toepassing is op een tekst.
  •     U kunt uw eigen categorieën bepalen.

 

Meer informatie?

Lees de SOAP Service documentatie of neem contact op als u meer wilt weten over de classifier of over een combinatie met één van onze andere producten: