教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

Elasticsearch與Solr比較

更新時間:2018年11月20日15時33分 來源:傳智播客 瀏覽次數(shù):

  Elasticsearch簡介

  Elasticsearch是一個實時的分布式搜索和分析引擎。它可以幫助你用前所未有的速度去處理大規(guī)模數(shù)據(jù)。

  它可以用于全文搜索,結(jié)構(gòu)化搜索以及分析,當然你也可以將這三者進行組合。

  Elasticsearch是一個建立在全文搜索引擎 Apache Lucene™ 基礎上的搜索引擎,可以說Lucene是當今最先進,最高效的全功能開源搜索引擎框架。

  但是Lucene只是一個框架,要充分利用它的功能,需要使用JAVA,并且在程序中集成Lucene。需要很多的學習了解,才能明白它是如何運行的,Lucene確實非常復雜。

  Elasticsearch使用Lucene作為內(nèi)部引擎,但是在使用它做全文搜索時,只需要使用統(tǒng)一開發(fā)好的API即可,而不需要了解其背后復雜的Lucene的運行原理。

  當然Elasticsearch并不僅僅是Lucene這么簡單,它不但包括了全文搜索功能,還可以進行以下工作:

  · 分布式實時文件存儲,并將每一個字段都編入索引,使其可以被搜索。

  · 實時分析的分布式搜索引擎。

  · 可以擴展到上百臺服務器,處理PB級別的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。

  這么多的功能被集成到一臺服務器上,你可以輕松地通過客戶端或者任何你喜歡的程序語言與ES的RESTful API進行交流。

  Elasticsearch的上手是非常簡單的。它附帶了很多非常合理的默認值,這讓初學者很好地避免一上手就要面對復雜的理論,

  它安裝好了就可以使用了,用很小的學習成本就可以變得很有生產(chǎn)力。

  隨著越學越深入,還可以利用Elasticsearch更多高級的功能,整個引擎可以很靈活地進行配置??梢愿鶕?jù)自身需求來定制屬于自己的Elasticsearch。

  使用案例:

  · 維基百科使用Elasticsearch來進行全文搜做并高亮顯示關鍵詞,以及提供search-as-you-type、did-you-mean等搜索建議功能。

  · 英國衛(wèi)報使用Elasticsearch來處理訪客日志,以便能將公眾對不同文章的反應實時地反饋給各位編輯。

  · StackOverflow將全文搜索與地理位置和相關信息進行結(jié)合,以提供more-like-this相關問題的展現(xiàn)。

  · GitHub使用Elasticsearch來檢索超過1300億行代碼。

  · 每天,Goldman Sachs使用它來處理5TB數(shù)據(jù)的索引,還有很多投行使用它來分析股票市場的變動。

  但是Elasticsearch并不只是面向大型企業(yè)的,它還幫助了很多類似DataDog以及Klout的創(chuàng)業(yè)公司進行了功能的擴展。

  Elasticsearch的優(yōu)缺點:

  優(yōu)點

  1. Elasticsearch是分布式的。不需要其他組件,分發(fā)是實時的,被叫做”Push replication”。

  2. Elasticsearch 完全支持 Apache Lucene 的接近實時的搜索。

  3. 處理多租戶(multitenancy)不需要特殊配置,而Solr則需要更多的高級設置。

  4. Elasticsearch 采用 Gateway 的概念,使得完備份更加簡單。

  5. 各節(jié)點組成對等的網(wǎng)絡結(jié)構(gòu),某些節(jié)點出現(xiàn)故障時會自動分配其他節(jié)點代替其進行工作。

  缺點

  1. 只有一名開發(fā)者(當前Elasticsearch GitHub組織已經(jīng)不只如此,已經(jīng)有了相當活躍的維護者)

  2. 還不夠自動(不適合當前新的Index Warmup API)

  Solr簡介

  Solr(讀作“solar”)是Apache Lucene項目的開源企業(yè)搜索平臺。其主要功能包括全文檢索、命中標示、分面搜索、動態(tài)聚類、數(shù)據(jù)庫集成,以及富文本(如Word、PDF)的處理。Solr是高度可擴展的,并提供了分布式搜索和索引復制。Solr是最流行的企業(yè)級搜索引擎,Solr4還增加了NoSQL支持。

  Solr是用Java編寫、運行在Servlet容器(如 Apache Tomcat 或Jetty)的一個獨立的全文搜索服務器。Solr采用了 Lucene Java 搜索庫為核心的全文索引和搜索,并具有類似REST的HTTP/XML和JSON的API。Solr強大的外部配置功能使得無需進行Java編碼,便可對 其進行調(diào)整以適應多種類型的應用程序。Solr有一個插件架構(gòu),以支持更多的高級定制。

  因為2010年Apache Lucene 和 Apache Solr 項目合并,兩個項目是由同一個Apache軟件基金會開發(fā)團隊制作實現(xiàn)的。提到技術或產(chǎn)品時,Lucene/Solr或Solr/Lucene是一樣的。

  Solr的優(yōu)缺點

  優(yōu)點

  1. Solr有一個更大、更成熟的用戶、開發(fā)和貢獻者社區(qū)。

  2. 支持添加多種格式的索引,如:HTML、PDF、微軟 Office 系列軟件格式以及 JSON、XML、CSV 等純文本格式。

  3. Solr比較成熟、穩(wěn)定。

  4. 不考慮建索引的同時進行搜索,速度更快。

  缺點

  1. 建立索引時,搜索效率下降,實時索引搜索效率不高。

  Elasticsearch與Solr的比較

  1.當單純的對已有數(shù)據(jù)進行搜索時,Solr更快。

  2.當實時建立索引時, Solr會產(chǎn)生io阻塞,查詢性能較差, Elasticsearch具有明顯的優(yōu)勢。

  3.隨著數(shù)據(jù)量的增加,Solr的搜索效率會變得更低,而Elasticsearch卻沒有明顯的變化。

  綜上所述,Solr的架構(gòu)不適合實時搜索的應用。

  Elasticsearch與 Solr 的比較總結(jié)

  · 二者安裝都很簡單;

  · Solr 利用 Zookeeper 進行分布式管理,而Elasticsearch 自身帶有分布式協(xié)調(diào)管理功能;

  · Solr 支持更多格式的數(shù)據(jù),而Elasticsearch 僅支持json文件格式;

  · Solr 官方提供的功能更多,而Elasticsearch 本身更注重于核心功能,高級功能多有第三方插件提供;

  · Solr 在傳統(tǒng)的搜索應用中表現(xiàn)好于Elasticsearch,但在處理實時搜索應用時效率明顯低于 Elasticsearch。

  Solr 是傳統(tǒng)搜索應用的有力解決方案,但Elasticsearch 更適用于新興的實時搜索應用。



作者:傳智播客JavaEE培訓學院

首發(fā):http://java.itcast.cn

0 分享到:
和我們在線交談!