Automatisk samkøring og kvalitetssikring
Formålet med dette delprojekt er at udvikle metoder til at konvertere og kombinere terminologidata fra forskellige eksisterende kilder. Der er to meget vanskelige problemstillinger forbundet med denne proces. Den første type af problemer, som sandsynligvis vil opstå, er relateret til form: data vil have forskellig struktur og være lagret i forskellige formater. Den anden type problemer er relateret til indholdet: data kan være af varierende kvalitet, og indgange fra de forskellige kilder kan indeholde information om det samme begreb, men med forskellige synonyme udtryk og lidt varierende definitioner tilknyttet, eller omvendt, med overlappende form, men forskellige begreber tilknyttet.
Vi har udviklet en taksonomi for termbaser, se publikationen Madsen et al. (2013) i eDITion og besøg databasen: vip.iterm.dk (vælg database: DanTermBank Data Categories fra valglisten, login og password: PUBLIC).
Derudover har vi påbegyndt udvikling af metoder til at flette indgange, som indeholder ækvivalente begreber, se publikationen Madsen et al. (2012) fra TKE. Yderligere arbejde med at flette indgange er blevet udskudt til en senere fase i DanTermBank-projektet.