Spark 算子之filter使用

飞熊 • 2023年5月14日下午10:19 • 后端笔记 • 阅读 141

命运对每个人都是一样的，不一样的是各自的努力和付出不同，付出的越多，努力的越多，得到的回报也越多，在你累的时候请看一下身边比你成功却还比你更努力的人，这样，你就会更有动力。

导读：本篇文章讲解 Spark 算子之filter使用，希望对大家有帮助，欢迎收藏，转发！站点地址：www.bmabk.com，来源：原文

前言

filter，可以理解为过滤，直观来说，就是对一组数据按照指定的规则做过滤，filter这个算子在Java或者其他语言中多有使用，能够很方便的帮我们从一组数据中过滤得到期望的数据；

函数签名

def filter(f:
T => Boolean
): RDD[T]

函数说明

将数据根据指定的规则进行筛选过滤，符合规则的数据保留，不符合规则的数据丢弃。当数据进行筛选过滤后，分区不变，但是分区内的数据可能不均衡，生产环境下，可能会出现
数据倾斜；

案例一，从一组数据中过滤出偶数

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Filter_Test {

  def main(args: Array[String]): Unit

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/143256.html

赞 (0)

0 0

后端笔记

Flink Table Api 之创建表与读取外部数据

00091

飞熊
2023年5月14日
后端笔记

python openpyx操作Excel（已经集成为类供直接调用）

00070

seven_
2023年2月27日
后端笔记

字符串转二维码,二维码转Base64

00071

飞熊
2023年12月26日
后端笔记

git 常见命令和资源

00085

小半
2024年1月5日
后端笔记

java发送kafka事务消息

000103

飞熊
2023年5月14日
后端笔记

常用正则表达式汇总整理

000114

飞熊
2023年4月20日
后端笔记

【SpringBoot系列】最详细demo– 集成Redis数据库

00074

飞熊
2023年3月8日
后端笔记

彩虹猫IDA分析记录

00088

小半
2024年3月5日
后端笔记

OPTIONS请求：解析HTTP中的神秘请求

000116

飞熊
2023年12月11日
后端笔记

git push -f 的后悔药

00057

小半
2024年3月3日
后端笔记

flink入门之helloword案例

00066

飞熊
2023年5月14日
后端笔记

我开源了一款轻量级前端监控sdk

000133

小半
2023年3月16日

发表回复

登录后才能评论

极客之音——专业性很强的中文编程技术网站，欢迎收藏到浏览器，订阅我们！