Spark平台中，对lzo压缩文件的读取--Scala实现 - 好文

#记录一个坑#

在Spark中，有时需要对lzo压缩文件的读取。这里采用的是newAPIHadoopFile()来进行读取
val configuration = new Configuration()
configuration.set("io.compression.codecs",
"org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,com.hadoop.compression.lzo.LzopCodec")
configuration.set("io.compression.codec.lzo.class",
"com.hadoop.compression.lzo.LzoCodec") //从hdfs中读取数据 val lines: RDD[String] =
sc.newAPIHadoopFile(path, classOf[LzoTextInputFormat], classOf[LongWritable],
classOf[Text], configuration).map(x => x._2.toString) //获得到rdd

所需要的jar包：hadoop-lzo-0.4.20-SNAPSHOT.jar在你安装的hadoop路径下 share\hadoop\common\lib

不行的话下载这个试试：https://download.csdn.net/download/ice_kind/10320246

« 上一篇：推荐系统算法学习(三)——经典模型LR，GBDT+LR，GBDT+FFM
» 下一篇：毕业两年总结

热门工具换一换

1 进制转换
2 GIF生成器
3 时间戳转换器
4 Cron表达式生成器
5 计算器
6 衣服尺码计算
7 文本对比
8 图像文字识别
9 身份证归属地、性别、出生日期、年龄查询
10 图像颜色识别
11 Base64编码解码
12 日期计算器
13 人脸识别
14 摩斯电码
15 照片转素描
16 端口扫描器
17 卡通头像制作
18 图像转Base64
19 颜色选择器
20 证件照换底色