博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark实战@wordcount-处理目录下的多个文件
阅读量:6229 次
发布时间:2019-06-21

本文共 832 字,大约阅读时间需要 2 分钟。

import org.apache.hadoop.fs.{Path, FileSystem}

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

class WordCount {

}

/**

  • 处理目录下每个文件,进行wordcount计算,并将结果保存为list
    */
    object WordCount {

def main(args: Array[String]) {

val conf = new SparkConf().setAppName("WordCount")
val sc = new SparkContext(conf)
var resultList = List // 保存结果集

val fs = FileSystem.get(new java.net.URI("hdfs://cluster1"), new org.apache.hadoop.conf.Configuration())  .listStatus(new Path(args(0)))for (f <- fs) {  println("YTQ-FilePath => " + f.getPath.toString)  resultList = resultList ::: sc.textFile(f.getPath.toString).    flatMap(_.split("\t")).map((_, 1)).reduceByKey(_ + _).collect.toList}// 再次处理最后的结果集sc.parallelize(resultList).reduceByKey(_ + _).saveAsTextFile(args(1))sc.stop()

}

}

转载于:https://www.cnblogs.com/TerrenceYtq/p/5144536.html

你可能感兴趣的文章
oracle的正则表达式
查看>>
这几天的两件趣事
查看>>
小块头大作用 新型低成本测距传感器适用于无人机
查看>>
VSTO之旅系列(五):创建Outlook解决方案
查看>>
[erlang] mnesia
查看>>
php编码
查看>>
Java使用Socket传输文件遇到的问题(转)
查看>>
MYSQL-用户权限的验证过程(转)
查看>>
快递配送最后一公里的痛:利益失衡后开始崩塌
查看>>
深入理解Tomcat系列之一:系统架构(转)
查看>>
ArcMap打开越来越慢
查看>>
nagios客户端未启动报错
查看>>
Redux
查看>>
基于API调用的恶意软件分析技术
查看>>
顺序容器
查看>>
NodeJs——进程管理(一)
查看>>
微信支付开发(7) H5支付
查看>>
ffmpeg解码RTSP/TCP视频流H.264(QT界面显示视频画面)
查看>>
深度学习入门:投身深度学习你需要哪些准备?
查看>>
南京大学周志华教授当选欧洲科学院外籍院士
查看>>