加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

如何从Scala Spark中的Excel(xls,xlsx)文件构造Dataframe?

发布时间:2020-12-16 09:03:12 所属栏目:安全 来源:网络整理
导读:我有一个包含多个工作表的大型Excel(xlsx和xls)文件,我需要将其转换为RDD或Dataframe,以便以后可以将其连接到其他数据框.我正在考虑使用 Apache POI并将其另存为CSV,然后在dataframe中读取csv.但是,如果有任何库或API可以帮助这个过程很容易.任何帮助都非常
我有一个包含多个工作表的大型Excel(xlsx和xls)文件,我需要将其转换为RDD或Dataframe,以便以后可以将其连接到其他数据框.我正在考虑使用 Apache POI并将其另存为CSV,然后在dataframe中读取csv.但是,如果有任何库或API可以帮助这个过程很容易.任何帮助都非常感谢.

解决方法

您的问题的解决方案是在项目中使用Spark Excel依赖项.

Spark Excel有灵活的选择.

我测试了以下代码从excel读取并将其转换为数据帧,它只是完美的工作

def readExcel(file: String): DataFrame = sqlContext.read
    .format("com.crealytics.spark.excel")
    .option("location",file)
    .option("useHeader","true")
    .option("treatEmptyValuesAsNulls","true")
    .option("inferSchema","true")
    .option("addColorColumns","False")
    .load()

val data = readExcel("path to your excel file")

data.show(false)

如果您的Excel工作表有多个工作表,您可以将工作表名称作为选项

.option("sheetName","Sheet2")

我希望它有所帮助

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读