Duitsers leren computer chemische structuren herkennen

Onderzoekers van het Fraunhofer Institut Algorithmen und Wissenschaftliches Rechnen in Sankt Augustin hebben een programma geschreven dat computers in staat stelt chemische verbindingen te herkennen in vakliteratuur.

ChemoCR-conversieHet was tot nu toe lastig om in wetenschappelijke teksten te zoeken naar chemische structuren, omdat die meestal als plaatjes worden weergegeven en een computer daar tot dusver niks mee kon. Mark Zimmermann, de leidinggevende van het softwareontwikkelingsproject, is blij met de enthousiaste geluiden uit de chemische en de farmaceutische wereld. Tot nu toe werd de informatie over chemische structuren door chemici in lagelonenlanden als India en Rusland getekend en handmatig ingevoerd in databases. Met het door Zimmermanns team ontwikkelde programma ChemoCR kan veel eenvoudiger gezocht worden in miljoenen octrooien en wetenschappelijke artikelen; voorheen was dat handwerk. Het programma herkent atomen, ketenpatronen en bijzondere tekens als reactiepijlen dankzij ocr. Tot slot valideert de software de gevonden verbinding op basis van bestaande structuren in zijn database. Het Duitse onderzoeksteam is drie jaar bezig geweest met de ontwikkeling van de software en gaat deze aanbieden via InfoChem, een softwareleverancier voor de farmaceutische markt.

ChemoCR-screenie

Door René Gerritsen

30-07-2007 • 17:53

27

Bron: VNUNet

Reacties (27)

27
25
6
3
0
0
Wijzig sortering
Vreemd dat er nog nooit eerder iemand op dit idee is gekomen. OCR-applicaties bestaan al jaren en men komt nu pas met een manier om chemische structuren te herkennen.

Zijn er redenen voor, b.v. omdat het heel complex is? Zover ik weet zijn de symbolen redelijk gestandaardiseerd.
Hmm, ik denk dat men al veel langer op het idee is gekomen. Maar men gaat liever outsourcen, dan een programma laten maken (dat minstens 3 jaar duurt=veel kosten).

Zo gaat het met veel meer spul. Gelukkig brengd autocad of solidworks wel een beetsje standaardisatie op industrieel vlak.

Een pharmaciebedrijfdat dit product ontwikkeld zal zich mischien niet willen bezighouden met gerbuiks licenties te verkopen.

Dat men er 3 jaar aan zit om het werkend te krijgen geeft wel enig idee van de complexitiet. De basisch van chemie is inderdaad heel simpel, en dus kan mij vrij eenvoudig verschillende structueren identificeren in een stof, en daaruit dan een UIPAC naam voor opbouwen. Echter door al die uitbreidingen kan ik me indenken dat het een hele klus is om de klus te klaren.

Bovendien hebben ze er ook nog een foutcorrectie systeem ingebouwd, waardoor de kans op fouten gemarginaliseerd worden
Gooi dit in een soort van wikipedia, zodat het opensource is en gecontrolleerd word door mensen die er verstand van hebben.

Dan krijg je in mijn inzien een database wat uiteindelijk 100% klopt..
Anoniem: 82235 @Mexxwelll31 juli 2007 01:56
nou....een opensource database voor chemische structuren opzetten lijkt me helemaal top maar er zijn altijd wel idioten die hun stompzinnigheid er dan in plaatsen.

En dan zeker gaan gebruiken voor wetenschappelijke experimenten. Lijkt me geen goed idee.

Wat ik overigens niet snap is dat ze niet kijken naar progjes zoals ChemDraw ofzo. Zou aan de hand daarvan toch wel wat herkenning mee doen zijn?
Anoniem: 21486 30 juli 2007 19:17
Dat is een mooie ontwikkeling voor ons chemici, hoewel OCR software wel regelmatig foutjes maakt die in chemische verbindingen veel kritischer zijn dan in een stukje tekst.

Vraag me af wat voor goedje hierboven afgebeeld is btw. Vaag geiodeerd dioxine-achtig aminozuur geval. Interessant.
Het stofje heet L-thyroxine en is een prohormoon dat wordt afgescheiden door de schildklier:

http://en.wikipedia.org/wiki/Thyroxine

[Reactie gewijzigd door TommyCP op 22 juli 2024 15:53]

Het gaat vast niet zo snel als met een quantumcomputer :)
Welke quantumcomputer dan?Het gaat trouwens vast niet zo snel als de hypercomputer die in 3844 wordt uitgevonden.oftewel, zo kun je altijd wel lullen ;)

[Reactie gewijzigd door blobber op 22 juli 2024 15:53]

Anoniem: 92624 @blobber31 juli 2007 09:52
er bestaan al wel degelijk quantum computers! Echter de snelste kan tot nu toe slechts met 4 qubits tegelijk rekenen. (zoiets als de eerste mechanische computer in 1800-nogwat)
Ik vind het product dat je krijgt door "R" te substitueren door "H" anders veel interessanter ;)
pfff, nou je het zegt, je zal maar een artikel over vergiftigingen door ethers zoeken :+
Ofwel ethanol (Moest wel ff googlen, want scheikunde is al heeeeeel lang geleden voor mij)
en toen werd je Ch3-CH2-O-(R) groep fout herkend omdat de O niet helemaal mooi doorgegeven werd, dan heb je toch opeens een alkaan in plaats van een ether, dat kan nog leuke foutjes opleveren :+
Anoniem: 28557 @iceheart31 juli 2007 11:19
Johnny was a chemist, but Johnny is no more, because wat Johnny Johnnies computer thought was H2O, was H2SO4. :-)
Anoniem: 146043 @iceheart30 juli 2007 20:03
De reactie CH of CN kan ook een leuke typo zijn :P
Anoniem: 187167 30 juli 2007 19:38
Het zou helemaal mooi zijn als die computer kan herkennen of die stofen explosief zijn. Dan kan je detecteren of iemand explosieve stoffen bij zich heeft voordat ie bijvoorbeeld een gebouw ingaat.
Dit gaat over het herkennen van bepaalde stoffen en andere scheikundige dingen in literatuur, dat heeft verder weinig te maken met het detecteren van stoffen in de echte wereld.
Anoniem: 77640 30 juli 2007 19:10
Herkent het ook CHOCO?
leuker vind ik altijd Ca-CaO
Het eigenlijk nieuwe is dus dat computers nu structuren kunnen herkennen zonder dat een mens die eerst in een database moet invoeren. Zulke databases bestaan namelijk al lang (bijv SciFinder, Beilstein/CrossFire).
@Count Grishnackh: het goedje in het plaatje is trouwens thyroxine, een schildklierhormoon: http://en.wikipedia.org/wiki/Thyroxine
Hopelijk gaat dit programma het beter doen dan de mensen die op het moment handmatig data in de Beilstein database invoeren. Die database zit namelijk vol met fouten en vooral ook inconsequentheden (reagentia staan de ene keer in het reactieschema afgebeeld, de andere keer staan ze onder reagentia; reactieomstandigheden zijn niet altijd ingevuld, etc.)
Veel reacties lopen wel in 2 richtingen, maar ik ben nog noooit op die databases geweest
Anoniem: 92805 30 juli 2007 21:20
Lees http://wwmm.ch.cam.ac.uk/blogs/murrayrust/ voor informatie over duurzamere oplossingen. Geen plaatjes herkennen (en maar hopen dat het goed gaat), maar met foutloze annotatie zekerheid hebben.
Ik wil er wel even op wijzen dat het herkennen van chemische formules e.d. een aparte tak van sport is binnen de Machine Learning en Information Retrieval. Dat "een computer daar tot dusver niks mee kon" is gewoon niet waar.

Hier een link naar zomaar een artikel, er zijn er veel meer:
http://www.biomedcentral.com/1471-2105/7/S2/S3

Ook het herkennen van gennamen en proteines is erg belangrijk aan het worden. Onderzoekers willen ook graag 3-D modellen van proteinen/moleculen zien, en dat op basis van literatuur - teksten dus.

Op dit item kan niet meer gereageerd worden.