加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

scala – 从Apache Spark中的Avro文件读取不受支持的联合类型组

发布时间:2020-12-16 09:16:26 所属栏目:安全 来源:网络整理
导读:我正在尝试从读取csv平面文件切换到火花上的avro文件. 跟随 https://github.com/databricks/spark-avro 我用: import com.databricks.spark.avro._val sqlContext = new org.apache.spark.sql.SQLContext(sc)val df = sqlContext.read.avro("gs://logs.xyz.
我正在尝试从读取csv平面文件切换到火花上的avro文件.
跟随 https://github.com/databricks/spark-avro
我用:

import com.databricks.spark.avro._
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val df = sqlContext.read.avro("gs://logs.xyz.com/raw/2016/04/20/div1/div2/2016-04-20-08-28-35.UTC.blah-blah.avro")

并得到

java.lang.UnsupportedOperationException: This mix of union types is not supported (see README): ArrayBuffer(STRING)

自述文件清楚地说明:

This library supports reading all Avro types,with the exception of
complex union types
. It uses the following mapping from Avro types to
Spark SQL types:

当我尝试对同一个文件进行文本读取时,我可以看到模式

val df = sc.textFile("gs://logs.xyz.com/raw/2016/04/20/div1/div2/2016-04-20-08-28-35.UTC.blah-blah.avro")
df.take(2).foreach(println)

{“name”:”log_record”,”type”:”record”,”fields”:[{“name”:”request”,”type”:{“type”:”record”,”name”:”request_data”,”fields”:[{“name”:”datetime”,”type”:”string”},{“name”:”ip”,{“name”:”host”,{“name”:”uri”,{“name”:”request_uri”,{“name”:”referer”,{“name”:”useragent”,”type”:”string”}]}}

<——- an excerpt of the full reply ——->

因为我几乎没有控制我得到这些文件的格式,
我的问题在这里 – 有没有一个测试和可以推荐的解决方法?

我用gc dataproc

MASTER=yarn-cluster spark-shell –num-executors 4 –executor-memory 4G –executor-cores 4 –packages com.databricks:spark-avro_2.10:2.0.1,com.databricks:spark-csv_2.11:1.3.0

任何帮助将不胜感激…..

解决方法

您可以找到适用于Spark SQL的任何解决方案. Spark中的每一列都必须包含可以表示为单个 DataType的值,因此复杂的联??合类型根本不能用Spark Dataframe表示.

如果要读取这样的数据,您应该使用RDD API,并将加载的数据转换为DataFrame.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读