Home » Enterprise Search: A Small World – Apache Lucene og Solr 9.0 Søk på flere språk

Enterprise Search: A Small World – Apache Lucene og Solr 9.0 Søk på flere språk

by Thure Lindhardt

Prosjektene Apache Solr og Lucene ble publisert i deres versjon 9.0. Denne gangen tilbyr Solr Enterprise Search Server plugins for plassering av replikaer, begrenser søkefrekvensene og tilbyr et nytt SQL-søkegrensesnitt i brukergrensesnittet. Den nye hovedversjonen av søkemotorbiblioteket Apache Lucene, som er fullstendig skrevet i Java og anses å være spesielt kraftig, har en rekke tilleggsfunksjoner. Søkemotorteknologi passer for nesten alle applikasjoner som krever et strukturert søk, fulltekstsøk, fasettsøk, men også stavekontroll eller foreslåtte søk.

Hovedversjonen av Apache Lucene støtter indeksering av store digitale vektorer for søk etter nabonoder (Nearest Neighbor Search). For å gjøre dette bruker hun en algoritme for en hierarkisk navigerbar Small World Graph, en modell kjent i matematikk. I dette nettverket er det sannsynlig at naboene til en node er naboer til andre noder (noder), og de fleste noder kan nås i noen få skritt fra en hvilken som helst annen node.

Milestone-versjonen utvider Lucenes» språkkunnskaper ved å legge til analysatorer for serbisk, nepalesisk og tamil til biblioteket. Den tilbyr nå forslag til søk på japansk, inkludert stammer for blant annet hindi, indonesisk og jiddisk. En ny standardisering med stemming for svensk og norsk kompletterer de språklige trekkene. Lucene-teamet forbedret også ytelsen. Derfor forventes faseteringen av taksonomien å være 400 % raskere, og flerdimensjonal punktindeksering har også fått fart, ifølge blogginnlegget til Apache-utviklerne.

Den akselererte sorteringen av felt indeksert med prikker er nå standard med et opt-out-alternativ. Alle som har jobbet med Lucene i lang tid er kjent med dette alternativet: I høyere versjoner 8.x var flere akselerert sortering allerede mulig, på det tidspunktet fortsatt med opt-in. Siden ConcurrentMergeScheduler Start nå den raske input/output (I/O), som redaktørene sier skal forbedre indekseringsarbeidsflyten. For å spare plass byttet Lucene-teamet fra modusen «Innleggslister» til modusen «Innlegg». FOR-deltaPFOR-delta har blitt endret.

Lucene 9.0 bruker ikke lenger vanlige pakker, noe som krever å endre navn på noen pakker (bortsett fra lucene-kjerne JAR) og tilpasse importen. Et modulært system er fortsatt i en eksperimentell tilstand; det bør modnes i de neste versjonene 9.x.

For mer detaljert informasjon om Apache Lucene, se blogginnlegget for hovedversjon 9.0. Når det gjelder endringene til Solr-søkeserveren, er den siste bloggen ennå ikke publisert. Endringsloggen og en liste over de endrede innstillingene er allerede tilgjengelig, med flere kommentarer fra Solr-teamet. Hvis du vil, kan du fordype deg i de rå tonene.

You may also like

Leave a Comment