Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 5 reacties
Bron: Apache

De Apache Software Foundation heeft enkele dagen geleden een nieuwe versie van Lucene Java uitgebracht met 3.0.0 als het versienummer. Lucene kan worden ingezet als een onderdeel van een zoekmachine, het kan namelijk volledige tekst-indexering uitvoeren. Lucene Java is, zoals de naam van de applicatie al enigszins laat doorschemeren, de uitgave die in Java geschreven wordt. Voor meer informatie verwijzen we jullie door naar deze pagina. De aankondiging van versie 3.0.0 ziet er als volgt uit:

Lucene Java 3.0.0 available

The new version is mostly a cleanup release without any new features. All deprecations targeted to be removed in version 3.0 were removed. If you are upgrading from version 2.9.1 of Lucene, you have to fix all deprecation warnings in your code base to be able to recompile against this version.

This is the first Lucene release with Java 5 as a minimum requirement. The API was cleaned up to make use of Java 5's generics, varargs, enums, and autoboxing. New users of Lucene are advised to use this version for new developments, because it has a clean, type safe new API. Upgrading users can now remove unnecessary casts and add generics to their code, too. If you have not upgraded your installation to Java 5, please read the file JRE_VERSION_MIGRATION.txt (please note that this is not related to Lucene 3.0, it will also happen with any previous release when you upgrade your Java environment).

Lucene 3.0 has some changes regarding compressed fields: 2.9 already deprecated compressed fields; support for them was removed now. Lucene 3.0 is still able to read indexes with compressed fields, but as soon as merges occur or the index is optimized, all compressed fields are decompressed and converted to Field.Store.YES. Because of this, indexes with compressed fields can suddenly get larger.

While we generally try and maintain full backwards compatibility between major versions, Lucene 3.0 has some minor breaks, mostly related to deprecation removal, pointed out in the 'Changes in backwards compatibility policy' section of CHANGES.txt. Notable are:
  • IndexReader.open(Directory) now opens in read-only mode per default (this method was deprecated because of that in 2.9). The same occurs to IndexSearcher.
  • Already started in 2.9, core TokenStreams are now made final to enforce the decorator pattern.
  • If you interrupt an IndexWriter merge thread, IndexWriter now throws an unchecked ThreadInterruptedException that extends RuntimeException and clears the interrupt status.
See CHANGES for details.

Binary and source distributions are available here. Maven artifacts are available here.
Versienummer:3.0.0
Releasestatus:Final
Besturingssystemen:Windows 7, Windows 2000, Linux, BSD, Windows XP, macOS, UNIX, Windows Server 2003, Windows Vista, Windows Server 2008
Website:Apache
Download:http://www.apache.org/dyn/closer.cgi/lucene/java/
Licentietype:Voorwaarden (GNU/BSD/etc.)
Moderatie-faq Wijzig weergave

Reacties (5)

wonderbaarlijke technologie is Lucene. binnen een fractie van een seconde kan het duizenden zoekresultaten opleveren, gebaseerd op geindexeerde text data. De zoek queries die je er dan nog op los kunt laten zijn ook zeer krachtig, beter en makkelijker dan je het met een select query op een database zou kunnen fabriceren.
Ik ben sterk ge´nteresseerd in deze technologie en was toevaliig eergisteren nog op de website beland. Enigszins spijtig van de java-dependency (daar zou lucy, een rewrite in C, een oplossing moeten voor zijn).

Heb je er ervaring mee? Bestaan er (opensource) PHP-frontends voor (dat zou mij het meest interesseren zodat ik het kan incorporeren in mijn dossierprogramma...)?

/EDIT: Nevermind - heb intussen info gevonden over Zend_Search_Lucene, een port naar PHP die blijkbaar standaard in het Zend Framework verwerkt zit. Ziet er *smoking* uit!!

[Reactie gewijzigd door zenlord op 10 december 2009 14:57]

Kijk ook even naar Sphinx: http://www.sphinxsearch.com/ razendsnel en ik heb het idee dat Sphinx makkelijker te implementeren is dan Lucene. Ook geen Java (als dat een probleem is voor je), PHP interface is beschikbaar.

Lucene moet ik zelf nog eens naar gaan kijken, integratie met Drupal lijkt behoorlijk OK te zijn, gebruik op dit moment Sphinx om 50 miljoen documenten te indexeren en dat bevalt eigenlijk nog super, lucene lijkt echter wat beter te zijn in segmenteren/filteren.
Even (heel vluchtig) gekeken, maar zie toch al een nadeel tov Lucene: Sphinx zoekt enkel in SQL, dus niet gewoon in het filesystem / map die ik middels PHP zou willen laten indexeren.

maw: ik zou mijn programma al sterk moeten uitbreiden door alles in dbases te zetten vooraleer ik er zou kunnen in zoeken. Misschien doe ik dat wel nog, maar in tussentijd lijkt Lucene net wat ik nodig heb.

Toch bedankt voor de tip!
Lucene doet alleen tekst, daarentegen. Je kunt natuurlijk wel makkelijk door directories crawler, maar dan heb je ook nog zoiets als Apache Tika nodig (parsers) welke je documenten omzetten naar tekst.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True