java spark文件读取乱码问题的解决方法

幸鹤梦 · 发表于 2024-10-29 01:57:28

一、问题

环境为jdk1.8，spark3.2.1，读取hadoop中GB18030编码格式的文件出现乱码。

为了解决该问题，尝试过很多种方法，但都没有成功

String filePath = "hdfs:///user/test.deflate";
//创建SparkSession和SparkContext的实例
String encoding = "GB18030";
SparkSession spark = SparkSession.builder()
.master("local[*]").appName("Spark Example")
.getOrCreate();
JavaSparkContext sc = JavaSparkContext.fromSparkContext(spark.sparkContext());
Configuration entries = sc.hadoopConfiguration();
entries.set("textinputformat.record.delimiter", "\n");
entries.set("mapreduce.input.fileinputformat.inputdir",filePath);entries.set("mapreduce.input.fileinputformat.encoding", "GB18030");
JavaRDD<String> rdd = sc.textFile(filePath);

复制代码

Dataset<Row> load = spark.read().format("text").option("encoding", "GB18030").load(filePath);
load.foreach(row -> {
System.out.println(row.toString());
System.out.println(new String(row.toString().getBytes(encoding),"UTF-8"));
System.out.println(new String(row.toString().getBytes(encoding),"GBK"));
});

复制代码

JavaPairRDD<LongWritable, Text> longWritableTextJavaPairRDD = sc.newAPIHadoopFile(filePath, TextInputFormat.class, LongWritable.class, Text.class, entries );
System.out.println("longWritableTextJavaPairRDD count ="+longWritableTextJavaPairRDD.count());
longWritableTextJavaPairRDD.foreach(k->{
System.out.println(k._2);
});

复制代码

JavaPairRDD<LongWritable, Text> longWritableTextJavaPairRDD = sc.newAPIHadoopFile(filePath, GBKInputFormat.class, LongWritable.class, Text.class, entries );
System.out.println("longWritableTextJavaPairRDD count ="+longWritableTextJavaPairRDD.count());
longWritableTextJavaPairRDD.foreach(k->{
System.out.println(k._2);
});

复制代码

代码中GBKInputFormat.class是TextInputFormat.class复制将内部UTF-8修改为GB18030所得

JavaPairRDD<LongWritable, Text> longWritableTextJavaPairRDD1 = sc.newAPIHadoopRDD(entries, GBKInputFormat.class, LongWritable.class, Text.class);
System.out.println("longWritableTextJavaPairRDD count ="+longWritableTextJavaPairRDD1.count());
longWritableTextJavaPairRDD1.foreach(k->{
System.out.println(k._2());
});

复制代码

上述方法感觉指定的字符编码并没有生效不知道为什么，如有了解原因的还请为我解惑，谢谢

最终解决方案如下

JavaPairRDD<LongWritable, Text> longWritableTextJavaPairRDD = sc.newAPIHadoopFile(filePath, TextInputFormat.class, LongWritable.class, Text.class, new Configuration());
System.out.println("longWritableTextJavaPairRDD count ="+longWritableTextJavaPairRDD.count());
longWritableTextJavaPairRDD.foreach(k->{
System.out.println(new String(k._2.copyBytes(), encoding));
});
JavaPairRDD<LongWritable, Text> longWritableTextJavaPairRDD1 = sc.newAPIHadoopRDD(entries, TextInputFormat.class, LongWritable.class, Text.class);
System.out.println("longWritableTextJavaPairRDD count ="+longWritableTextJavaPairRDD1.count());
longWritableTextJavaPairRDD1.foreach(k->{
System.out.println(new String(k._2().copyBytes(),encoding));
System.out.println(new String(k._2.copyBytes(),encoding));
});

复制代码

主要是new String(k._2().copyBytes(),encoding)得以解决

到此这篇关于java spark文件读取乱码问题的解决方法的文章就介绍到这了,更多相关java spark文件读取乱码内容请搜索晓枫资讯以前的文章或继续浏览下面的相关文章希望大家以后多多支持晓枫资讯！

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

爱生活爱娘活j · 发表于 2025-1-26 09:08:53

感谢楼主，顶。

金蒙雨 · 发表于 5 天前

顶顶更健康！！！

		自动登录	找回密码
密码			立即注册