题记

产品开发需要,我们需要将互联网采集的数据存储到ES中,以实现数据的全文检索。

互联网采集的数据,往往格式杂乱,需要先进行数据清洗操作。

而ES支持的入库格式,json格式数据会相对方便些。

本文主要介绍,如何将格式化的Json文件批量插入到ES中。

<>1、需提前做的工作

1)设计好索引以及Mapping;
Mapping的目的主要是——设定字段名称、字段类型,哪些字段需要进行全文检索等。
* 1
2)Java程序中封装好类,和Mapping设定的字段一一对应。

<>2、批量导入步骤分解

步骤1:本地文件格式化,统一为Json格式。 
一个待导入的数据串,存成一个Json文件。

步骤2:放置在统一./data路径下。 目录结构如下示意:
./data a_01.json a_02.json a_03.json ... a_100.json

步骤3:循环遍历./data文件获取包含绝对路径的文件全名,存入linkedlist中。

步骤4:遍历linkedlist的每个路径,获取Json信息。

步骤5:使用fastjson解析Json,解析成对应设计好的类个各个匹配字段。

步骤6:借助bulk**批量曹操API接口,完成本地文件的导入。

<>3、核心接口实现
/* **@brief:遍历Json,批量插入ES **@param:空 **@return:空 */ private static void
insertBulkIndex() throws Exception { //Json文件的存储 final String JSONFILEINPUT =
ESConfig.es_json_path; logger.info("path = " + JSONFILEINPUT);
LinkedList<String> curJsonList = FileProcess.getJsonFilePath(JSONFILEINPUT);
logger.info("size = " + curJsonList.size()); for (int i = 0; i <
curJsonList.size(); ++i){ //System.out.println(" i = " + i + " " + curJsonList
.get(i)); String curJsonPath = curJsonList.get(i); ImageInfo curImageInfo =
JsonParse.GetImageJson(curJsonPath); //JsonParse.printImageJson(curImageInfo);
if (curImageInfo == null){ continue; } //遍历插入操作 InsertIndex (curImageInfo); } }
/* **@brief:单条Json插入ES(借助了Jest封装后的API) **@param:空 **@return:空 */ private static
void InsertIndex(AgeInfo ageInfo) throws Exception { JestClient jestClient =
JestExa.getJestClient(); JsonParse.PrintImageJson( ageInfo ); Bulk bulk = new
Bulk.Builder() .defaultIndex("age_index") .defaultType("age_type") .addAction
(Arrays.asList( new Index.Builder( ageInfo ).build() )).build(); JestResult
result = jestClient.execute(bulk); if (result.isSucceeded()){ System.out.println
("insert success!"); }else{ System.out.println("insert failed"); } }

最终实现效果为:
java -jar bulk_insert.jar ./data/

即可实现./data下的所有json循环遍历导入ES。

<>4、使用技术

1)文件遍历 
2)Json解析 
3)ES批量插入操作

<>5、遇到的坑

程序导出Jar包时候,生成jar包报错。 
由于借助了Jest的源码工程,该工程是由Maven生成的。 
生成jar包的时候,会一直提示:
“Java.long.ClassNotFoundException"

初步定位原因:是maven导致,然后了pom.xml,错误依旧。 
最终解决方案:重建工程,将代码和依赖的jar包重新导入即可。

<>后记

死磕ES,有问题欢迎大家提问探讨!

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:ixiaoyang8@qq.com
QQ群:637538335
关注微信