使用Java高效检索Elasticsearch索引完整数据集的方法

Java实现Elasticsearch全量数据检索方案

应用场景分析

Elasticsearch在设计时为了优化查询性能,默认配置下对未指定分页参数的查询请求仅返回前10条记录。但在实际业务中,我们经常需要获取符合特定条件的完整数据集。虽然可以通过设置较大的size参数临时解决问题,但随着数据规模的增长,这种方案存在明显缺陷:一方面可能超出预设的size限制,另一方面大数据量查询会导致响应延迟甚至超时。本文将介绍一种基于滚动查询的高效解决方案。

常规查询机制

首先我们观察标准查询行为。执行基础查询指令时:

GET crm_meiqia_conversation/_search

系统返回结果如图所示,确实仅显示10条记录
Elasticsearch默认查询结果
如需获取更多记录,可通过size参数调整返回数量,例如:

GET crm_meiqia_conversation/_search
{
"size":20
}

执行效果如图所示,此时返回指定数量的文档
指定size的查询结果

Java实现全量数据获取

通过Java API实现全量数据查询前,先观察最终实现效果。如图所示,结果集完整展示了符合条件的所有文档
全量数据查询效果
未优化前的查询仅返回有限结果,如图所示
默认查询限制
核心实现分为三个步骤:
1. 初始化滚动查询配置:

SearchRequestBuilder searchRequest = client.prepareSearch(index)
.setTypes(type)
.setQuery(query)
.setSize(100)
.setScroll(TimeValue.timeValueMinutes(1));
  1. 循环获取批次数据:
do {
searchResponse = client.prepareSearchScroll(scrollId)
.setScroll(TimeValue.timeValueMinutes(1))
.execute().actionGet();
// 处理批次数据
} while (hasMoreHits(searchResponse));
  1. 清理滚动会话:
ClearScrollRequest request = new ClearScrollRequest();
request.addScrollId(scrollId);
client.clearScroll(request).actionGet();

关键代码段如图所示
滚动查询核心代码
数据聚合过程如图所示
数据聚合实现
会话清理操作如图所示
会话清理操作

技术总结

虽然Elasticsearch常规查询已能满足多数场景需求,但在需要完整数据集的特殊情况下,滚动查询机制提供了可靠解决方案。该方案通过分批获取和内存会话管理,既保证了查询效率,又避免了大数据量带来的性能问题。建议开发者根据实际业务需求选择合适的数据获取策略。

文章整理自互联网,只做测试使用。发布者:Lomu,转转请注明出处:https://www.it1024doc.com/9268.html

(0)
LomuLomu
上一篇 2025 年 5 月 12 日 下午10:55
下一篇 2025 年 5 月 12 日 下午11:55

相关推荐

  • Python深度学习(第2版)PDF免费下载

    适读人群 :想要学习深度学习的学生、职业开发者。 流行深度学习框架Keras之父执笔,涵盖Transformer架构等进展,文字生,简单方式解释复杂概念,不用一个数学公式,利用直觉自然入门深度学习。 电子版仅供预览,下载后24小时内务必删除,支持正版,喜欢的请购买正版书籍 点击原文去下载 书籍信息 作者: [美] 弗朗索瓦·肖莱出版社: 人民邮电出版社出品方…

    2024 年 12 月 31 日
    16800
  • 『玩转Streamlit』–集成定时任务

    学习了Streamlit了之后,可以尝试给自己的命令行小工具加一个简单的界面。 本篇总结了我改造自己的数据采集的工具时的一些经验。 1. 概要 与常规的程序相比,数据采集任务的特点很明显,比如它一般都是I/O密集型程序,涉及大量网络请求或文件读写,耗费的时间比较长;而且往往是按照一定的时间间隔周期性地执行。 这样的程序对交互性要求不高,所以我之前都是用命令行…

    2025 年 1 月 13 日
    22700
  • SpringMVC-09-文件上传和下载

    1、准备工作 Spring 文件上传是项目开发中最常见的功能之一 , Spring 可以很好的支持文件上传,但是 Spring 的默认环境中没有装配 MultipartResolver, 因此默认情况下其不能处理文件上传工作。 如果想使用 Spring 的文件上传功能,则需要在 Spring 环境中配置 MultipartResolver 。 前端表单 为了…

    未分类 2024 年 12 月 24 日
    33700
  • 【深度学习】Java DL4J基于 RNN 构建智能停车管理模型

    🧑 博主简介:CSDN博客专家 ,历代文学网 (PC端可以访问:https://literature.sinhy.com/#/?__c=1000,移动端可微信小程序搜索“历代文学 ”)总架构师,15年工作经验,精通Java编程,高并发设计,Springboot和微服务,熟悉Linux,ESXI虚拟化以及云原生Docker和K8s,热衷于探索科技的边界,并将理…

    2025 年 1 月 12 日
    25200
  • 永久激活破解IDEA2024最新教程

    IntelliJ IDEA 是被广泛认可的Java开发高效工具,优选于多种编程环境中。本文将指导您通过脚本方法免费激活 IntelliJ IDEA 以及 Jetbrains 的其它产品,有效对应2021年及以后版本,含最新发布版本。 快速安装 您可以从 JetBrains 官网下载到 IntelliJ IDEA 的最新版。简单几步,轻松完成安装。 激活工具获…

    未分类 2024 年 7 月 10 日
    83700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信