如何从Scala Spark中的Excel(xls,xlsx)文件构造Dataframe?
发布时间:2020-12-16 09:03:12 所属栏目:安全 来源:网络整理
导读:我有一个包含多个工作表的大型Excel(xlsx和xls)文件,我需要将其转换为RDD或Dataframe,以便以后可以将其连接到其他数据框.我正在考虑使用 Apache POI并将其另存为CSV,然后在dataframe中读取csv.但是,如果有任何库或API可以帮助这个过程很容易.任何帮助都非常
我有一个包含多个工作表的大型Excel(xlsx和xls)文件,我需要将其转换为RDD或Dataframe,以便以后可以将其连接到其他数据框.我正在考虑使用
Apache POI并将其另存为CSV,然后在dataframe中读取csv.但是,如果有任何库或API可以帮助这个过程很容易.任何帮助都非常感谢.
解决方法
您的问题的解决方案是在项目中使用Spark Excel依赖项.
Spark Excel有灵活的选择. 我测试了以下代码从excel读取并将其转换为数据帧,它只是完美的工作 def readExcel(file: String): DataFrame = sqlContext.read .format("com.crealytics.spark.excel") .option("location",file) .option("useHeader","true") .option("treatEmptyValuesAsNulls","true") .option("inferSchema","true") .option("addColorColumns","False") .load() val data = readExcel("path to your excel file") data.show(false) 如果您的Excel工作表有多个工作表,您可以将工作表名称作为选项 .option("sheetName","Sheet2") 我希望它有所帮助 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |