Duitsers leren computer chemische structuren herkennen

Onderzoekers van het Fraunhofer Institut Algorithmen und Wissenschaftliches Rechnen in Sankt Augustin hebben een programma geschreven dat computers in staat stelt chemische verbindingen te herkennen in vakliteratuur.

ChemoCR-conversie Het was tot nu toe lastig om in wetenschappelijke teksten te zoeken naar chemische structuren, omdat die meestal als plaatjes worden weergegeven en een computer daar tot dusver niks mee kon. Mark Zimmermann, de leidinggevende van het softwareontwikkelingsproject, is blij met de enthousiaste geluiden uit de chemische en de farmaceutische wereld. Tot nu toe werd de informatie over chemische structuren door chemici in lagelonenlanden als India en Rusland getekend en handmatig ingevoerd in databases. Met het door Zimmermanns team ontwikkelde programma ChemoCR kan veel eenvoudiger gezocht worden in miljoenen octrooien en wetenschappelijke artikelen; voorheen was dat handwerk. Het programma herkent atomen, ketenpatronen en bijzondere tekens als reactiepijlen dankzij ocr. Tot slot valideert de software de gevonden verbinding op basis van bestaande structuren in zijn database. Het Duitse onderzoeksteam is drie jaar bezig geweest met de ontwikkeling van de software en gaat deze aanbieden via InfoChem, een softwareleverancier voor de farmaceutische markt.

Vorig nieuwsartikel Volgend nieuwsartikel

Door René Gerritsen

Feedback • 30-07-2007 17:53 27

30-07-2007 • 17:53

Bron: VNUNet

Lees meer

Fraunhofer biedt laserprojector op suikerklontformaat Nieuws van 19 september 2006

Fraunhofer ontwikkelt transparante OLED-technologie Nieuws van 29 januari 2006

Thomson, Fraunhofer en Agere lanceren mp3 Surround Nieuws van 3 december 2004

Fraunhofer komt binnenkort met 5.1-kanaals versie mp3 Nieuws van 23 maart 2004

Meer producten en artikelen

Scanners Wetenschap Software development

Reacties (27)

-Moderatie-faq

Wijzig sortering

praseodymium 30 juli 2007 19:56

Vreemd dat er nog nooit eerder iemand op dit idee is gekomen. OCR-applicaties bestaan al jaren en men komt nu pas met een manier om chemische structuren te herkennen.

Zijn er redenen voor, b.v. omdat het heel complex is? Zover ik weet zijn de symbolen redelijk gestandaardiseerd.

g4wx3 @praseodymium • 30 juli 2007 20:54

Hmm, ik denk dat men al veel langer op het idee is gekomen. Maar men gaat liever outsourcen, dan een programma laten maken (dat minstens 3 jaar duurt=veel kosten).

Zo gaat het met veel meer spul. Gelukkig brengd autocad of solidworks wel een beetsje standaardisatie op industrieel vlak.

Een pharmaciebedrijfdat dit product ontwikkeld zal zich mischien niet willen bezighouden met gerbuiks licenties te verkopen.

Dat men er 3 jaar aan zit om het werkend te krijgen geeft wel enig idee van de complexitiet. De basisch van chemie is inderdaad heel simpel, en dus kan mij vrij eenvoudig verschillende structueren identificeren in een stof, en daaruit dan een UIPAC naam voor opbouwen. Echter door al die uitbreidingen kan ik me indenken dat het een hele klus is om de klus te klaren.

Bovendien hebben ze er ook nog een foutcorrectie systeem ingebouwd, waardoor de kans op fouten gemarginaliseerd worden

Mexxwelll @g4wx3 • 30 juli 2007 23:03

Gooi dit in een soort van wikipedia, zodat het opensource is en gecontrolleerd word door mensen die er verstand van hebben.

Dan krijg je in mijn inzien een database wat uiteindelijk 100% klopt..

Verwijderd @Mexxwelll • 31 juli 2007 01:56

nou....een opensource database voor chemische structuren opzetten lijkt me helemaal top maar er zijn altijd wel idioten die hun stompzinnigheid er dan in plaatsen.

En dan zeker gaan gebruiken voor wetenschappelijke experimenten. Lijkt me geen goed idee.

Wat ik overigens niet snap is dat ze niet kijken naar progjes zoals ChemDraw ofzo. Zou aan de hand daarvan toch wel wat herkenning mee doen zijn?

Verwijderd 30 juli 2007 19:17

Dat is een mooie ontwikkeling voor ons chemici, hoewel OCR software wel regelmatig foutjes maakt die in chemische verbindingen veel kritischer zijn dan in een stukje tekst.

Vraag me af wat voor goedje hierboven afgebeeld is btw. Vaag geiodeerd dioxine-achtig aminozuur geval. Interessant.

TommyCP @Verwijderd • 30 juli 2007 20:31

Het stofje heet L-thyroxine en is een prohormoon dat wordt afgescheiden door de schildklier:

http://en.wikipedia.org/wiki/Thyroxine

[Reactie gewijzigd door TommyCP op 22 juli 2024 15:53]

darkfader 30 juli 2007 19:18

Het gaat vast niet zo snel als met een quantumcomputer

blobber @darkfader • 31 juli 2007 00:33

Welke quantumcomputer dan?Het gaat trouwens vast niet zo snel als de hypercomputer die in 3844 wordt uitgevonden.oftewel, zo kun je altijd wel lullen

[Reactie gewijzigd door blobber op 22 juli 2024 15:53]

Verwijderd @blobber • 31 juli 2007 09:52

er bestaan al wel degelijk quantum computers! Echter de snelste kan tot nu toe slechts met 4 qubits tegelijk rekenen. (zoiets als de eerste mechanische computer in 1800-nogwat)

Freee!!

30 juli 2007 18:02

Ik vind het product dat je krijgt door "R" te substitueren door "H" anders veel interessanter

iceheart @Freee!! • 30 juli 2007 18:07

pfff, nou je het zegt, je zal maar een artikel over vergiftigingen door ethers zoeken

iMars @Freee!! • 30 juli 2007 18:55

Ofwel ethanol (Moest wel ff googlen, want scheikunde is al heeeeeel lang geleden voor mij)

iceheart 30 juli 2007 17:58

en toen werd je Ch3-CH2-O-(R) groep fout herkend omdat de O niet helemaal mooi doorgegeven werd, dan heb je toch opeens een alkaan in plaats van een ether, dat kan nog leuke foutjes opleveren

Verwijderd @iceheart • 31 juli 2007 11:19

Johnny was a chemist, but Johnny is no more, because wat Johnny Johnnies computer thought was H₂O, was H₂SO₄. :-)

Verwijderd @iceheart • 30 juli 2007 20:03

De reactie CH of CN kan ook een leuke typo zijn

Verwijderd 30 juli 2007 19:38

Het zou helemaal mooi zijn als die computer kan herkennen of die stofen explosief zijn. Dan kan je detecteren of iemand explosieve stoffen bij zich heeft voordat ie bijvoorbeeld een gebouw ingaat.

StefSybo @Verwijderd • 30 juli 2007 19:46

Dit gaat over het herkennen van bepaalde stoffen en andere scheikundige dingen in literatuur, dat heeft verder weinig te maken met het detecteren van stoffen in de echte wereld.

Verwijderd 30 juli 2007 19:10

Herkent het ook CHOCO?

Verwijderd @Verwijderd • 31 juli 2007 11:12

leuker vind ik altijd Ca-CaO

Alkjoa 30 juli 2007 19:59

Het eigenlijk nieuwe is dus dat computers nu structuren kunnen herkennen zonder dat een mens die eerst in een database moet invoeren. Zulke databases bestaan namelijk al lang (bijv SciFinder, Beilstein/CrossFire).
@Count Grishnackh: het goedje in het plaatje is trouwens thyroxine, een schildklierhormoon: http://en.wikipedia.org/wiki/Thyroxine

TommyCP @Alkjoa • 30 juli 2007 20:35

Hopelijk gaat dit programma het beter doen dan de mensen die op het moment handmatig data in de Beilstein database invoeren. Die database zit namelijk vol met fouten en vooral ook inconsequentheden (reagentia staan de ene keer in het reactieschema afgebeeld, de andere keer staan ze onder reagentia; reactieomstandigheden zijn niet altijd ingevuld, etc.)

g4wx3 @TommyCP • 30 juli 2007 20:55

Veel reacties lopen wel in 2 richtingen, maar ik ben nog noooit op die databases geweest

Verwijderd 30 juli 2007 21:20

Lees http://wwmm.ch.cam.ac.uk/blogs/murrayrust/ voor informatie over duurzamere oplossingen. Geen plaatjes herkennen (en maar hopen dat het goed gaat), maar met foutloze annotatie zekerheid hebben.

Verwijderd 31 juli 2007 08:53

Ik wil er wel even op wijzen dat het herkennen van chemische formules e.d. een aparte tak van sport is binnen de Machine Learning en Information Retrieval. Dat "een computer daar tot dusver niks mee kon" is gewoon niet waar.

Hier een link naar zomaar een artikel, er zijn er veel meer:
http://www.biomedcentral.com/1471-2105/7/S2/S3

Ook het herkennen van gennamen en proteines is erg belangrijk aan het worden. Onderzoekers willen ook graag 3-D modellen van proteinen/moleculen zien, en dat op basis van literatuur - teksten dus.

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (27)

Sorteer op:

Weergave: