RAG 再添新利器!智源開源最強檢索排序模型 BGE Re-Ranker v2.0

BGE(BAAI General Embedding)是智源研究院打造的通用語義嚮量模型。自2023年8月發布以來,智源團隊陸續發布瞭中英文模型BGE v1.0、v1.5以及多語言模型 BGE-M3,截至目前,BGE 係列模型全球下載量超過 1500萬,位居國內開源AI模型首位。BGE-M3模型一度躍居 Hugging Face 熱門模型前三,其所屬代碼倉庫FlagEmbedding位居Github熱門項目前10;BGE-M3所帶來的全新的通用檢索模式也相繼被Milvus、Vespa等主流嚮量數據庫集成。

近日,智源團隊再度推齣新一代檢索排序模型 BGE Re-Ranker v2.0,同時擴展嚮量模型BGE的“文本+圖片”混閤檢索能力。

  • BGE Re-Ranker v2.0 支持更多語言,更長文本長度,並在英文檢索基準MTEB、中文檢索基準C-MTEB、多語言檢索基準MIRACL、LLaMA-Index Evaluation等主流基準上取得瞭state-of-the-art的結果。

  • BGE Re-Ranker v2.0 藉助分層自蒸餾策略進一步優化推理效率,適度的開銷即可換取顯著的性能收益。

  • BGE-v1.5、BGE-M3以融入visual token的方式進一步新增“文本+圖片”混閤檢索能力,同時保持優異的文本檢索性能。

  上述模型現已通過 Hugging Face、Github 等平颱發布,采用免費、商用許可的開源協議:

https://github.com/FlagOpen/FlagEmbedding
https://huggingface.co/BAAI

技術亮點

圖1 RAG pipline

如圖1所示,檢索排序模型是信息檢索及RAG pipeline中的重要組成部分。與嚮量模型與稀疏檢索模型相比,檢索排序模型會利用更加復雜的判定函數以獲得更加精細的相關關係。通常,係統會首先藉助嚮量模型(BGE-M3-Dense)與稀疏檢索模型(BGE-M3-Sparse)分彆從嚮量數據庫與倒排索引中初步獲取粗力度的候選文檔(coarse-grained candidates)。緊接著,係統會進一步利用排序模型(BGE Re-Ranker)進一步過濾候選集,並最終獲得精細的文檔集(fine-grained candidates),以支持下遊大語言模型完成檢索增強任務(RAG)。

圖2

1. BGE Re-Ranker v2.0係列排序模型采用瞭兩種不同尺寸的模型基座:
  1. BGE Re-Ranker v2-LLM(如圖2A):基於 MiniCPM-2B,Gemma-2B等性能卓越的輕量化大語言模型。
  2. BGE Re-Ranker v2-M3(如圖2B):基於性能齣色、參數量更小的 BGE-M3-0.5B(速度更快)

2. 所有模型均通過多語言數據訓練産生,具備多語言檢索的能力。例如:BGE Re-Ranker v2-MiniCPM-2B 大幅提升瞭中英文檢索能力,而BGE Re-Ranker v2-Gemma-2B與BGE Re-Ranker v2-M3則在多語言檢索任務中取得瞭最佳的檢索效果(注:BGE Re-ranker v2.0 係列模型訓練數據配比見GitHub倉庫說明)。

3. 為瞭進一步提升模型推理效率,BGE Re-Ranker v2.0 采取瞭分層自蒸餾訓練策略(如圖2C)。具體而言,模型最終排序得分(S(0))被用作教師信號,利用知識蒸餾的方式,模型的各中間層也被學習並賦予瞭排序能力。在實際應用中,用戶可以基於具體場景的算力條件及時延限製靈活選擇排序模型的層數

4. BGE係列嚮量模型擴展“文本+圖片”混閤檢索功能。通過引入由CLIP模型所生成的visual token,BGE得以獲得“文本+圖片”混閤建模能力。值得注意的是,擴增visual token的訓練僅僅作用在visual tokenizer之上,而原本的BGE模型(BGE v1.5,BGE M3)參數保持不變。因此,在獲得混閤建模能力的同時,BGE模型齣色的文本檢索能力得以完全保持

性能評測
BGE Re-Ranker v2.0係列模型在英文、中文、多語言主流基準的檢索性能評測結果如下:
1. 英文檢索評測基準
英文評測 MTEB/Retrival 結果如下(錶1):

錶1

BGE Re-Ranker v2首先對BGE-v1.5-large的top-100候選集進行重排。實驗結果顯示,BGE Re-Ranker v2-Gemma-2B取得瞭最為齣色的效果,檢索精度得以大幅提升 6%。與此同時,通過分層自蒸餾策略獲得的中間層排序結果(BGE Re-Ranker v2-MiniCPM-28 vs. BGE Re-Ranker v2-MiniCPM-40)很好的保持瞭最終層的檢索精度。此外,在切換至性能更為齣色的嚮量模型E5-Mistral-7B之後(仍舊重拍其top-100),檢索精度獲得瞭進一步提升,平均檢索等分(NGCG@10)達到瞭60.4,相較原本的embedding-only的結果56.85 提升瞭近4%,這一結果也是目前BEIR基準上的最佳評測結果。[1][2]。
2. 中文檢索評測基準
在中文評測C-MTEB/Retrival 中,BGE Re-Ranker v2同樣對BGE- v1.5-large的top-100候選集進行重排。與英文結果相類似,BGE Re-Ranker v2-MiniCPM-2B取得瞭最優檢索質量,且中間層排序結果(BGE Re-Ranker v2-MiniCPM-2B-layer 28)仍舊充分保持最終層的檢索精度。
錶2
3. 多語言檢索評測基準
在多語言評測MIRACL中(錶3),BGE Re-Ranker v2對BGE-M3的top-100候選集進行重排。與先前結果不同的是,BGE Re-Ranker v2-Gemma-2B綜閤效果位居首位,而BGE Re-Ranker v2-M3則以較小的模型尺寸(0.5B)取得瞭與之相近的效果。上述結果也反映瞭各個預訓練模型基座在不同語言下的性能差異。
錶3
4. RAG評測基準
在Llama Index所提供的RAG評測基準中 [3],我們使用BGE Re-Ranker v2及多種baseline re-ranker對不同的embedding模型(bge v1.5 large, bge-m3, openai-te3, mxbai-embedding)的召迴結果進行重排。如下錶所示(錶4),BGE Re-Ranker v2可以大幅提升各個embedding model在RAG場景下的精度。同時,BGE Re-Ranker v2搭配bge-m3可以獲得最佳的端到端檢索質量。

錶4

5. “文本+圖片”混閤評測基準
最後,在“文本+圖片”混閤檢索的任務中(錶4),Visualized BGE在WebQA、CIRR、FashionlQ、OVEN-QS、ReMuQ等五個常用評測基準上取得瞭對比CLIP baseline的顯著優勢。

錶5

BGE 社區生態
得益於BGE齣色的性能與良好的通用性,行業內主流的嚮量數據庫紛紛跟進BGE的各個模型版本。此前備受歡迎的BGE-M3模型已被Vespa、Milvus等框架集成,為社區用戶快速搭建“三位一體的”(稠密檢索、稀疏檢索、重排序)檢索流水綫帶來的極大便利。
1. Vespa使用示例(詳見[4])

2. Milvus使用示例(詳見[5])

參考資料:

[1] MTEB Leaderboard, https://huggingface.co/spaces/mteb/leaderboard

[2] SFR-Embedding-Mistral, https://blog.salesforceairesearch.com/sfr-embedded-mistral/

[3] Llama-Index Evaluation, https://docs.llamaindex.ai/en/latest/optimizing/evaluation/evaluation.html

[4] Vespa for BGE M3, https://github.com/vespa-engine/pyvespa/blob/master/docs/sphinx/source/examples/mother-of-all-embedding-models-cloud.ipynb

[5] Zilliz for BGE, https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/BGE_M3