
点击蓝字关注我们
在人工智能时代,搜索和数据分析正朝着智能化、语义化的方向迅猛发展。作为全球领先的分布式搜索和分析引擎,Elasticsearch 在其企业版中引入了 Inference API,这是一个专为 AI 集成设计的接口。它不仅支持第三方提供商的嵌入(embeddings)、重排序(reranking)和大型语言模型(LLM),还允许自托管模型,并包括 Elastic 自身托管的 LLM。截至 2025 年 8 月,这项 API 已扩展支持更多提供商和任务类型,如新增对 IBM watsonx.ai rerank 模型、Jina AI 嵌入与 rerank、Mistral AI 嵌入等集成。今天,我们就来详细剖析这个功能,帮助开发者、企业用户更好地利用它构建高效的 AI 驱动应用。
一、Inference API 概述
Elasticsearch Inference API 是 Elastic Stack 中的一项高级功能,主要用于将机器学习模型集成到搜索管道中。它提供了一个统一的接口,让用户可以轻松调用各种 AI 模型进行推理任务,而无需手动管理底层基础设施。这项 API 最早在 Elasticsearch 8.x 版本中引入,并在后续更新中不断增强。截至 2025 年,它已成为构建语义搜索、RAG(Retrieval-Augmented Generation)系统和 AI 助手的必备工具。
简单来说,Inference API 充当了一个“桥梁”,连接 Elasticsearch 的数据存储与外部或内部的 AI 模型。它支持 NLP(自然语言处理)相关的任务,如文本嵌入生成、结果重排序和生成式响应,从而提升搜索的准确性和相关性。与传统的机器学习训练模型 API 不同,Inference API 更注重实时推理和灵活集成,特别适合企业级场景。
它支持的任务类型包括:
text_embedding(密集向量嵌入)
sparse_embedding(稀疏向量嵌入)
rerank(重排序)
completion
chat_completion(生成式完成)
Inference API 的演进历史值得一提。从 Elasticsearch 8.11 开始,它首次支持 Hugging Face 集成,随后在 8.13 中添加 Cohere 嵌入支持。进入 2025 年,更新包括 Jina AI 的多语言嵌入和 rerank、IBM watsonx.ai 的 rerank 模型,以及 Ollama 的本地 LLM 集成。这些更新使 API 更适应多语言和多模态场景。
二、支持的核心功能:嵌入、重排序与 LLM
Inference API 的强大在于其多功能支持,覆盖了 AI 搜索管道的关键环节。以下是其主要功能点:
1. 嵌入(Embeddings)
嵌入是将文本转换为向量表示的过程,用于语义搜索。Inference API 支持生成高维向量嵌入,帮助 Elasticsearch 处理非结构化数据。
第三方嵌入:可以集成 OpenAI、Cohere、Azure OpenAI、Google AI Studio、Hugging Face、Jina AI、Mistral AI、IBM watsonx.ai、Voyage AI 等提供商的模型。例如,使用 Cohere 的 embed-english-v3.0 模型,可以快速将查询文本转化为向量,并在 Elasticsearch 的向量搜索中匹配相似内容。
自托管嵌入:通过 Elastic 的 Eland 工具,用户可以上传自定义模型到 Elasticsearch 集群,实现自管嵌入。这适合对数据隐私有严格要求的企业,避免将敏感数据发送到外部服务。Eland 支持从 Hugging Face 导入模型,如 msmarco-MiniLM-L-12-v3。
Elastic 托管嵌入:包括 ELSER(Elastic Learned Sparse Encoder,用于稀疏嵌入)和 E5(密集嵌入模型),这些模型在 Elastic Cloud 上托管,支持高效的语义表示。
嵌入还支持 chunking(分块)功能,例如在 Hugging Face 集成中,API 可以自动处理长文本的分块,以提升嵌入质量。
2. 重排序(Reranking)
重排序是优化搜索结果的步骤,它在初始检索后,使用 AI 模型重新评估结果的相关性,提高“Top N”结果的精度。
第三方重排序:支持 Cohere Rerank 3、IBM watsonx.ai rerank、Google Vertex AI semantic-ranker-512、Jina AI reranker-v2 等模型。Cohere Rerank 3 可以处理多语言查询,提供更精确的排名,而 IBM watsonx.ai 专注于企业级 rerank,提升搜索体验。
自托管重排序:用户可以通过 Eland 上传自己的 rerank 模型,实现自定义逻辑。
Elastic 集成:API 支持创建 rerank 端点,直接在 Elasticsearch 中配置机器学习模型,实现无缝重排序。2025 年的新功能包括 retrievers 支持,用于简化多阶段检索管道。
3. 大型语言模型(LLM)
LLM 支持是 Inference API 的亮点之一,用于生成式任务,如聊天完成、摘要生成等。
第三方 LLM:兼容 OpenAI、Azure、Google Vertex AI、Anthropic、Mistral 等提供商。开发者可以调用这些模型进行 chat completion,实现 AI 助手功能。
自托管 LLM:通过 Eland,用户可以部署本地 LLM 模型(如 Ollama),避免外部依赖。
Elastic 托管的 LLM:Elastic 提供托管服务,如 ELSER 和 Elastic 管理的 LLM。这些是 Elastic 云端托管的模型,专为稀疏编码和高效推理设计,支持无缝集成到搜索管道中,无需额外配置。ELSER 特别适合语义搜索场景,能处理大规模数据而保持低延迟。
这些功能可以通过 Inference API 的端点统一调用,例如 `/_inference/{task_type}/{inference_id}`,其中 task_type 可以是 `embeddings`、`rerank` 或 `completion`。
三、支持的提供商与集成方式
Inference API 的灵活性体现在其广泛的提供商支持上。截至 2025 年,主要包括:
第三方提供商:AlibabaCloud AI Search、Amazon Bedrock、Azure AI Studio、Azure OpenAI、Cohere、Google AI Studio、Google Vertex AI、Hugging Face、IBM watsonx.ai、Jina AI、Mistral AI、OpenAI、Voyage AI 等。这些提供商通过 API 密钥集成,用户只需在 Elasticsearch 配置中添加凭证即可。
自托管模型:使用 Eland(Elastic Machine Learning Python Client)上传模型。Eland 支持从 Hugging Face 等来源导入模型,然后部署到 Elasticsearch ML 节点。
Elastic 托管:在 Elastic Cloud 上,用户可以直接使用托管的 ELSER 或 E5 模型,无需手动部署。2025 年的更新进一步增强了对 Jina AI 和 IBM rerank 的支持,扩展了多语言和企业级应用。
集成步骤大致如下:
在 Kibana 或 API 中创建 inference 端点:`PUT _inference/{task_type}/{inference_id}`,指定提供商和服务设置。
配置模型参数,如 API 密钥、模型名称、task_settings(如 max_chunk_size 用于分块)。
在搜索查询中使用:例如,在 `_search` API 中添加 `inference` 管道或 retriever。
四、使用示例
让我们通过实际代码示例来演示 Inference API 的用法。假设使用 Kibana Dev Console 或 Python 客户端。
示例 1: 创建嵌入端点(使用 Cohere)
PUT _inference/text_embedding/cohere_embeddings{"service": "cohere","service_settings": {"api_key": "your_cohere_api_key","model_id": "embed-english-v3.0","embedding_type": "byte"}}
这会创建一个嵌入端点,用于生成字节类型的向量嵌入。
示例 2: 在搜索中使用嵌入
POST my_index/_search{"knn": {"field": "text_embedding","query_vector_builder": {"text_embedding": {"model_id": "cohere_embeddings","model_text": "user query here"}},"k": 10,"num_candidates": 50}}
这结合了 kNN 搜索,使用嵌入模型生成查询向量。
示例 3: 创建 Rerank 端点(使用 Jina AI)
PUT _inference/rerank/jina_rerank{"service": "jinaai","service_settings": {"api_key": "your_jina_api_key","model_id": "jina-reranker-v2-base-multilingual"},"task_settings": {"top_n": 10,"return_documents": true}}
然后在搜索管道中使用:
POST my_index/_search{"query": { "match": { "text": "query" } },"rescore": {"query": {"rescore_query": {"inference": {"id": "jina_rerank","query": "query text"}}}}}
这优化了初始 BM25 结果的重排序。
示例 4: LLM Completion(使用 OpenAI)
PUT _inference/completion/openai_completion{"service": "openai","service_settings": {"api_key": "your_openai_key","model_id": "gpt-4"}}
使用:
POST _inference/completion/openai_completion{"input": "Complete this sentence: Elasticsearch is..."}
返回生成式响应。
Python 客户端示例(使用 Cohere Rerank)
使用 elasticsearch-py 库:
from elasticsearch import Elasticsearchclient = Elasticsearch("https://your-es-host", api_key="your_api_key")
创建 Rerank 端点
client.inference.put(task_type="rerank",inference_id="cohere_rerank",body={"service": "cohere","service_settings": {"api_key": "your_key", "model_id": "rerank-english-v3.0"}})
执行 Rerank
response = client.inference.rerank(inference_id="cohere_rerank",body={"query": "What is biosimilarity?","input": ["doc1 text", "doc2 text"]})print(response)
这展示了 Python 客户端的便利性。
Elastic AI Assistant 就是一个典型应用,它利用 Inference API 与 LLM 集成,帮助用户分析日志和数据。
五、优势、挑战与解决方案
Inference API 的优势在于:
灵活性:支持混合使用第三方、自管和托管模型,适应不同隐私和成本需求。
性能:实时推理,低延迟,适合大规模生产环境。通过 scalar quantization 压缩向量,节省存储。
安全性:企业版提供加密和访问控制,确保数据安全。
扩展性:与 Elastic 的向量搜索、AIOps 结合,构建完整的 RAG 系统。支持 hybrid search(结合 BM25 和向量搜索)。
然而,也存在挑战:
资源消耗:每个端点需要 ML 节点分配,建议避免重复创建模型。
API 密钥管理:第三方集成需小心处理密钥泄露。
模型部署延迟:首次创建端点时,可能需等待模型下载和分配(检查状态使用 `_ml/trained_models/_stats` API)。
解决方案:使用 Elastic Cloud 自动缩放,结合 retrievers 简化多阶段查询。
六、实际应用场景与案例
应用场景包括:
企业搜索:如使用 Cohere Rerank 优化内部知识库搜索,提高员工效率。
聊天机器人:集成 OpenAI LLM 实现自然对话。
威胁检测:在 SIEM 中使用 IBM rerank 分析日志,提升安全响应。
推荐系统:结合 Jina AI 多语言嵌入,构建全球电商推荐。
一个真实案例:Elastic 支持 Hub 使用语义搜索,集成 Inference API 与 Cohere 嵌入,处理 MS MARCO 数据集,提高查询精度 20%。另一个是 Google Vertex AI 集成,用于 RAG 应用,结合 text-embedding-004 和 semantic-ranker-512,实现科学解释查询如“Why is the sky blue?”的精确结果。
随着 2025 年 Elasticsearch 9.x 的推进,Inference API 将进一步支持更多提供商(如潜在的 Anthropic 扩展)和功能,如自动 chunking 增强和 retrievers 的成熟。这将使 RAG 系统更易构建,降低开发者门槛。Elastic 致力于开源创新,未来可能引入更多本地 LLM 支持,如通过 Ollama 的无缝集成。
六、总结
Elasticsearch Inference API 是 Elastic 生态中一颗璀璨的明珠,它让 AI 集成变得简单高效。无论是初次尝试的开发者,还是寻求企业级解决方案的团队,都能从中获益。
关于公司
感谢您关注新智锦绣科技(北京)有限公司!作为 Elastic 的 Elite 合作伙伴及 EnterpriseDB 在国内的唯一代理和服务合作伙伴,我们始终致力于技术创新和优质服务,帮助企业客户实现数据平台的高效构建与智能化管理。无论您是关注 Elastic 生态系统,还是需要 EnterpriseDB 的支持,我们都将为您提供专业的技术支持和量身定制的解决方案。
欢迎关注我们,获取更多技术资讯和数字化转型方案,共创美好未来!
![]() | ![]() |
Elastic 微信群 | EDB 微信群 |

发现“分享”和“赞”了吗,戳我看看吧






