实现WordCount的三种方法介绍

如果下载的源码需要作者授权,请更换源码。本站免费分享资源不会增加授权

本篇文章给大家带来的内容是关于实现WordCount的三种方法介绍,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。

1、精简的Shell

cat /home/sev7e0/access.log | tr -s ‘ ‘ ‘n’ | sort | uniq -c | sort -r | awk ‘{print $2, $1}’
#cat 命令一次性展示出文本内容
#tr -s ‘ ‘ ‘n’ 将文本中空格使用回车键替换
#sort 串联排序所有指定文件并将结果写到标准输出。
#uniq -c 从输入文件或者标准输入中筛选相邻的匹配行并写入到输出文件或标准输出,-c 在每行前加上表示相应行目出现次数的前缀编号
#sort | uniq -c 同时使用用来统计出现的次数
#sort -r 把结果逆序排列
#awk ‘{print $2,$1}’ 将结果输出,文本在前,计数在后

2、反人类的MapReduce

//mapreduce方式 public static void main(String[] args) throws Exception {      Configuration conf = new Configuration(); //        conf.set("fs.defaultFS", "hdfs://spark01:9000"); //        conf.set("yarn.resourcemanager.hostname", "spark01");      Path out = new Path(args[1]);     FileSystem fs = FileSystem.get(conf);      //判断输出路径是否存在,当路径存在时mapreduce会报错     if (fs.exists(out)) {         fs.delete(out, true);         System.out.println("ouput is exit  will delete");     }          // 创建任务     Job job = Job.getInstance(conf, "wordcountDemo");     // 设置job的主类     job.setJarByClass(WordCount.class); // 主类      // 设置作业的输入路径     FileInputFormat.setInputPaths(job, new Path(args[0]));      //设置map的相关参数     job.setMapperClass(WordCountMapper.class);     job.setMapOutputKeyClass(Text.class);     job.setMapOutputValueClass(LongWritable.class);          //设置reduce相关参数     job.setReducerClass(WordCountReduce.class);     job.setOutputKeyClass(Text.class);     job.setOutputValueClass(LongWritable.class);      //设置作业的输出路径     FileOutputFormat.setOutputPath(job, out);     job.setNumReduceTasks(2);     System.exit(job.waitForCompletion(true) ? 0 : 1); }

3、好用的spark

//spark版wordcount sc.textFile("/home/sev7e0/access.log").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).foreach(println(_))
本文由(壳先生)整理自网络,如转载请注明出处:https://www.mrshell.com;
本站发布的内容若侵犯到您的权益,请邮件联系 i@mrshell.com 删除,我们将及时处理!
===========================================================================

1. 本站大部分下载资源收集于网络,不保证其完整性以及安全性,请下载后自行测试。
2. 本站资源仅供学习和交流使用,版权归资源原作者所有,请在下载后24小时之内自觉删除。
3. 不得使用于非法商业用途,商用请支持正版!不得违反国家法律,否则后果自负!
4. 若作商业用途,请购买正版,由于未及时购买和付费发生的侵权行为,与本站无关。
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!

=================================================================

壳先生 » 实现WordCount的三种方法介绍

发表评论

提供最优质的资源集合

立即查看 了解详情