如何从Scala Spark中的Excel(xls,xlsx)文件构造Dataframe？

发布时间：2020-12-16 09:03:12 所属栏目：安全来源：网络整理

导读：我有一个包含多个工作表的大型Excel(xlsx和xls)文件,我需要将其转换为RDD或Dataframe,以便以后可以将其连接到其他数据框.我正在考虑使用 Apache POI并将其另存为CSV,然后在dataframe中读取csv.但是,如果有任何库或API可以帮助这个过程很容易.任何帮助都非常

我有一个包含多个工作表的大型Excel(xlsx和xls)文件,我需要将其转换为RDD或Dataframe,以便以后可以将其连接到其他数据框.我正在考虑使用 Apache POI并将其另存为CSV,然后在dataframe中读取csv.但是,如果有任何库或API可以帮助这个过程很容易.任何帮助都非常感谢.

解决方法

您的问题的解决方案是在项目中使用Spark Excel依赖项.

Spark Excel有灵活的选择.

我测试了以下代码从excel读取并将其转换为数据帧,它只是完美的工作

def readExcel(file: String): DataFrame = sqlContext.read
    .format("com.crealytics.spark.excel")
    .option("location",file)
    .option("useHeader","true")
    .option("treatEmptyValuesAsNulls","true")
    .option("inferSchema","true")
    .option("addColorColumns","False")
    .load()

val data = readExcel("path to your excel file")

data.show(false)

如果您的Excel工作表有多个工作表,您可以将工作表名称作为选项

.option("sheetName","Sheet2")

我希望它有所帮助

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!