spark_字节宝

关于一些技术点的随笔记录（二）

Hive建表语句指定tblproperties('transactional'='true')，则执行插入操作时，不能直接使用insert..values语句，原因是开启了事务机制。建议使用insert..select方式。...

tomcat 网络安全 SQL spark hbase

2020-08-10

Spark SQL | 目前Spark社区最活跃的组件之一

Spark SQL是一个用来处理结构化数据的Spark组件，前身是shark，但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等，制约了Spark各个组件之间的相互集成，因此Spark SQL应运而生。...

spark SQL 数据库云数据库SQLServer hive

2020-08-10

不可不知的Spark调优点

在利用Spark处理数据时，如果数据量不大，那么Spark的默认配置基本就能满足实际的业务场景。但是当数据量大的时候，就需要做一定的参数配置调整和优化，以保证业务的安全、稳定的运行。并且在实际优化中，要考虑不同的场景，采取...

linux 文件存储 jvm spark Kafka

2020-08-10

Spark和Spring整合处理离线数据

如果你比较熟悉JavaWeb应用开发，那么对Spring框架一定不陌生，并且JavaWeb通常是基于SSM搭起的架构，主要用Java语言开发。但是开发Spark程序，Scala语言往往必不可少。...

Java scala Spring spark

2020-08-10

Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

Spark算子主要划分为两类：transformation和action，并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到，Spark RDD的缓存和checkpoint是懒加载操作，只有action触发的时候才会真正执...

spark 编程算法 mapreduce CSS

2020-08-10

Spark流式状态管理

通常使用Spark的流式框架如Spark Streaming，做无状态的流式计算是非常方便的，仅需处理每个批次时间间隔内的数据即可，不需要关注之前的数据，这是建立在业务需求对批次之间的数据没有联系的基础之上的。...

云数据库Redis 大数据 spark hbase TDSQLMySQL版

2020-08-10

Spark RDD详解

RDD（Resilient Distributed Datasets）弹性的分布式数据集，又称Spark core，它代表一个只读的、不可变、可分区，里面的元素可分布式并行计算的数据集。

spark 缓存分布式大数据

2020-08-10

通过spark.default.parallelism谈Spark谈并行度

本篇文章首先通过大家熟知的一个参数spark.default.parallelism为引，聊一聊Spark并行度都由哪些因素决定？

spark

2020-08-10

解析SparkStreaming和Kafka集成的两种方式

spark streaming是基于微批处理的流式计算引擎，通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中，通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。...

spark Kafka linux Node.js

2020-08-10

学好Spark必须要掌握的Scala技术点

Scala是以JVM为运行环境的面向对象的函数式编程语言，它可以直接访问Java类库并且与Java框架进行交互操作。

scala Java spark 编程算法

2020-08-10

150 151 152 153 154

关于一些技术点的随笔记录（二）

Spark SQL | 目前Spark社区最活跃的组件之一

不可不知的Spark调优点

Spark和Spring整合处理离线数据

Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

Spark流式状态管理

Spark RDD详解

通过spark.default.parallelism谈Spark谈并行度

解析SparkStreaming和Kafka集成的两种方式

学好Spark必须要掌握的Scala技术点

热门文章

热门手册