spark_字节宝

首页 / 技术

实时数仓链路分享：kafka =>SparkStreaming=>kudu集成kerberos

本文档主要介绍在cdh集成kerberos情况下，sparkstreaming怎么消费kafka数据，并存储在kudu里面

spark Kafka kerberos yarn Node.js

2020-08-12

10

Spark Streaming——Spark第一代实时计算引擎

虽然SparkStreaming已经停止更新，Spark的重点也放到了 Structured Streaming ，但由于Spark版本过低或者其他技术选型问题，可能还是会选择SparkStreaming。SparkStreaming对于时间窗口，事件时间虽然支撑较少，但还是可以满足...

spark Kafka 编程算法 scala

2020-08-11

5

【pyspark】广播变量のdestroy...

今天发现用户的 pyspark 程序 driver 所在的母机的磁盘告警了，进去 pyspark driver pod 一看，发现有个目录数据多达1T了。一开始怀疑是 shuffle 文件没有清理干净，但通过 lsof 等命令查看是哪些文件被打开了在写，但是提供...

spark Python 编程算法 linux

2020-08-11

0

Spark 覆盖写Hive分区表,只覆盖部分对应分区

配置 config("spark.sql.sources.partitionOverwriteMode","dynamic") 注意 1、saveAsTable方法无效，会全表覆盖写，需要用insertInto，详情见代码 2、insertInto需要主要DataFrame列的顺序要和Hive表里的顺序一致，不......

hive spark SQL Python

2020-08-11

3

Spark Streaming——Spark第一代实时计算引擎

虽然SparkStreaming已经停止更新，Spark的重点也放到了 Structured Streaming ，但由于Spark版本过低或者其他技术选型问题，可能还是会选择SparkStreaming。 SparkStreaming对于时间窗口，事件时间虽然支撑较少，但还是可以满...

spark mapreduce Kafka api Python

2020-08-11

5

简析Spark Streaming/Flink的Kafka动态感知

Kafka是我们日常的流处理任务中最为常用的数据源之一。随着数据类型和数据量的增大，难免要增加新的Kafka topic，或者为已有的topic增加更多partition。那么，Kafka后面作为消费者的实时处理引擎是如何感知到topic和partit...

flink Node.js 大数据 Kafka spark

2020-08-11

2

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析

2020年6月18日，开发了近两年（自2018年10月份至今）的Apache SparkTM 3.0.0正式发布！

2020-08-10

0

如何获取流式应用程序中checkpoint的最新offset

对于流式应用程序，保证应用7*24小时的稳定运行，是非常必要的。因此对于计算引擎，要求必须能够适应与应用程序逻辑本身无关的问题（比如driver应用失败重启、网络问题、服务器问题、JVM崩溃等），具有自动容错恢复的功能。...

Node.js spark Kafka flink 大数据

2020-08-10

2

Spark MLlib中KMeans聚类算法的解析和应用

聚类算法是机器学习中的一种无监督学习算法，它在数据科学领域应用场景很广泛，比如基于用户购买行为、兴趣等来构建推荐系统。

聚类算法 spark C++机器学习编程算法

2020-08-10

6

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

【前言：如果你经常使用Spark SQL进行数据的处理分析，那么对笛卡尔积的危害性一定不陌生，比如大量占用集群资源导致其他任务无法正常执行，甚至导致节点宕机。那么都有哪些情况会产生笛卡尔积，以及如何事前"预测"写的SQL会产...

spark nest SQL 数据库

2020-08-10

6

148 149 150 151 152