Onderzoekers van de Universiteit Twente zetten een methode voor 'begrijpend lezen' van tekst door computers in voor de 'meldkamer van de toekomst'. Door hiermee Twitter te monitoren, komen hulpdiensten er sneller achter dat er iets aan de hand is. In de komende maanden komen er tests.
Het inzetten van de software maakt onderdeel uit van het project TEC4SE. Bij dit initiatief zetten overheidsorganisaties, bedrijven en onderwijsinstellingen in de regio Twente hun kennis in om mensen, hardware, informatie en diensten met elkaar te verbinden via een netwerk. Doel is om de informatiestromen voor hulpdiensten te verbeteren.
De Universiteit Twente zet hierbij zijn kennis in om computers beter begrijpend te laten lezen. "We passen de software toe in de meldkamer van de brandweer en de politie in de regio Twente", verklaart Maurice van Keulen, universitair hoofddocent Data Management Technology aan de Universiteit Twente. De politie is vooral geïnteresseerd in de toepassingen voor Twitter als informatiebron, zegt hij tegen Tweakers: "Bij grootschalige evenementen zoals voetbalwedstrijden willen de hulpdiensten graag zo snel mogelijk op de hoogte zijn als er iets gebeurt en wat er dan aan de hand is." Van Keulen noemt als voorbeeld een opstootje: "Op een kanaal als Twitter kun je zien wat mensen er dan over zeggen."
De software van de UT kan de informatie die hulpinstanties willen hebben geautomatiseerd uit tweets halen, niet alleen op basis van de inhoud, maar ook op basis van hashtags en de auteur. In eerste instantie zal eerst handmatig een schifting op basis van bijvoorbeeld hashtags gemaakt moeten worden; de analyse wordt dan op die stroom berichten losgelaten, waarbij bijvoorbeeld ook de locatie op basis van coördinaten meegenomen wordt.
"In Enschede heb je bijvoorbeeld een brasserie die De Kater heet. Als daar wat gebeurt is het handig als hulpdiensten weten dat het in tweets om dat café gaat en niet om een kat, en dat ze direct over de locatie kunnen beschikken. "We werken eraan om het systeem te verbeteren", zegt de hoofddocent, "zoals het kunnen analyseren van alle tweets in een bepaalde regio." In de komende maanden starten tests waarbij de software in de praktijk toegepast wordt.
De bestaande technieken voor 'begrijpend lezen' maken gebruik van een oppervlakkige analyse van woorden, waarbij veel tekst nodig is om van te leren. De methode van de UT kan ook efficiënt werken als er maar weinig tekst aanwezig is, zoals bij tweets, en daarnaast werkt ze niet alleen voor Nederlandse teksten, maar voor alle talen.
De techniek maakt gebruik van het herkennen van zogenoemde 'named entities'. Dit kunnen namen van bijvoorbeeld personen, plaatsen of organisaties zijn. De betekenis is afhankelijk van de context waarin de naam gebruikt wordt. De methode van de UT laat de computer niet alleen herkennen welk deel van de tekst een named entity is, maar analyseert de context om te bepalen wat er met de entiteit bedoeld wordt.
De werking verloopt in een paar fasen. Eerst bepaalt de software op basis van het stukje tekst alle mogelijke kandidaten voor named entities, legt Van Keulen uit. "Het verschil met andere methodes is dat we in eerste instantie niet naar de beste kandidaten, maar naar zoveel mogelijk kandidaten zoeken." Die collectie wordt gebruikt om een grote database met entiteiten te raadplegen, waarbij matches verrijkt worden met nog meer kandidaten. "Op de enorme hoeveelheid informatie die dit oplevert wordt machine learning losgelaten om te kijken welke mogelijkheden bij elkaar passen", zegt Van Keulen. Het systeem kan onder andere onderscheiden wanneer een ambigu woord als 'you' als named entity beschouwd moet worden, en wanneer niet.
Van Keulen geeft verder als voorbeeld de named entity 'Paris Hilton' :"Wordt hiermee in een stuk tekst een hotel in Parijs, de beroemdheid of de parfum bedoeld? Een ander voorbeeld is 'rijksmuseum'. "Het hangt af van de context welk rijksmuseum er bedoeld wordt. Dit kan te maken hebben met de auteur, het discussieonderwerp, wat ervoor of erna is gezegd en soms zelfs met de locatie of de tijd. Woont de afzender in Enschede, dan doelt hij of zij waarschijnlijk op het rijksmuseum in Enschede. Maar het kan ook over één van de talrijke andere rijksmusea in Nederland gaan."