使用Java高效检索Elasticsearch索引完整数据集的方法

Java实现Elasticsearch全量数据检索方案

应用场景分析

Elasticsearch在设计时为了优化查询性能,默认配置下对未指定分页参数的查询请求仅返回前10条记录。但在实际业务中,我们经常需要获取符合特定条件的完整数据集。虽然可以通过设置较大的size参数临时解决问题,但随着数据规模的增长,这种方案存在明显缺陷:一方面可能超出预设的size限制,另一方面大数据量查询会导致响应延迟甚至超时。本文将介绍一种基于滚动查询的高效解决方案。

常规查询机制

首先我们观察标准查询行为。执行基础查询指令时:

GET crm_meiqia_conversation/_search

系统返回结果如图所示,确实仅显示10条记录
Elasticsearch默认查询结果
如需获取更多记录,可通过size参数调整返回数量,例如:

GET crm_meiqia_conversation/_search
{
"size":20
}

执行效果如图所示,此时返回指定数量的文档
指定size的查询结果

Java实现全量数据获取

通过Java API实现全量数据查询前,先观察最终实现效果。如图所示,结果集完整展示了符合条件的所有文档
全量数据查询效果
未优化前的查询仅返回有限结果,如图所示
默认查询限制
核心实现分为三个步骤:
1. 初始化滚动查询配置:

SearchRequestBuilder searchRequest = client.prepareSearch(index)
.setTypes(type)
.setQuery(query)
.setSize(100)
.setScroll(TimeValue.timeValueMinutes(1));
  1. 循环获取批次数据:
do {
searchResponse = client.prepareSearchScroll(scrollId)
.setScroll(TimeValue.timeValueMinutes(1))
.execute().actionGet();
// 处理批次数据
} while (hasMoreHits(searchResponse));
  1. 清理滚动会话:
ClearScrollRequest request = new ClearScrollRequest();
request.addScrollId(scrollId);
client.clearScroll(request).actionGet();

关键代码段如图所示
滚动查询核心代码
数据聚合过程如图所示
数据聚合实现
会话清理操作如图所示
会话清理操作

技术总结

虽然Elasticsearch常规查询已能满足多数场景需求,但在需要完整数据集的特殊情况下,滚动查询机制提供了可靠解决方案。该方案通过分批获取和内存会话管理,既保证了查询效率,又避免了大数据量带来的性能问题。建议开发者根据实际业务需求选择合适的数据获取策略。

文章整理自互联网,只做测试使用。发布者:Lomu,转转请注明出处:https://www.it1024doc.com/9268.html

(0)
LomuLomu
上一篇 2025 年 5 月 12 日 下午10:55
下一篇 2025 年 5 月 12 日 下午11:55

相关推荐

  • 『玩转Streamlit』–集成定时任务

    学习了Streamlit了之后,可以尝试给自己的命令行小工具加一个简单的界面。 本篇总结了我改造自己的数据采集的工具时的一些经验。 1. 概要 与常规的程序相比,数据采集任务的特点很明显,比如它一般都是I/O密集型程序,涉及大量网络请求或文件读写,耗费的时间比较长;而且往往是按照一定的时间间隔周期性地执行。 这样的程序对交互性要求不高,所以我之前都是用命令行…

    2025 年 1 月 13 日
    46000
  • 多租户解析与Demo

    在做Saas应用时,多租户解析往往是很重要的组成部分,也是用户访问网站最先处理的逻辑。 文前介绍: 多租户的数据库实现方式主要有三种: 单一数据库实现,每条数据标识租户Id进行识别数据属于哪个租户 一租户一个数据库,能够做到完全的数据隔离 混合模式,部分数据在一张表上,主要是一些基础数据;其他业务数据分库存储。 无论是哪种方式都要知道租户是谁才能查询数据库。…

    2025 年 1 月 6 日
    37900
  • 数据密集型应用系统设计PDF、EPUB免费下载

    适读人群 :所有后端开发者 英国剑桥大学分布式系统研究员力作,微软CTO联袂力荐,EMC资深架构师亲译。带你跨越从分布式理论到工程实践的鸿沟! 电子版仅供预览,支持正版,喜欢的请购买正版书籍 点击原文去下载 书籍信息 作者: Martin Kleppmann出版社: 中国电力出版社原作名: Designing Data-Intensive Applicati…

    2025 年 1 月 13 日
    47200
  • IDEA 2024永久激活破解教程,附激活码和工具,实测有效

    【最新教程】IDEA 2024.1.2 永久激活破解方法,附激活码和工具,实测有效 IntelliJ IDEA 是目前 Java 开发中最受欢迎的集成开发环境之一,其强大的功能和智能提示使其在开发者中拥有极高的声誉。本文将介绍如何通过脚本和激活码免费激活 IDEA 2024.1.2 版本,确保您能够永久使用这款软件。 一、下载安装 IntelliJ IDEA…

    未分类 2024 年 7 月 8 日
    1.3K00
  • 永久有效的IDEA激活破解教程(2024亲测有效!)

    【永久启用】IDEA 2024.1.2 完备激活指南:配有验证激活码与工具 IntelliJ IDEA 是一款前沿的 Java 集成开发环境,广泛认为是顶级的 Java 工具之一。这篇文章将指导您如何利用脚本来免费激活 IDEA 和整个 Jetbrains 工具套件,适用于 2021 年及之后的版本,包括最新版。 安装 IntelliJ IDEA 您可以从 …

    未分类 2024 年 7 月 10 日
    9.0K00

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信