spark_字节宝

首页 / 技术

通过Spark生成HFile，并以BulkLoad方式将数据导入到HBase

在实际生产环境中，将计算和存储进行分离，是我们提高集群吞吐量、确保集群规模水平可扩展的主要方法之一，并且通过集群的扩容、性能的优化，确保在数据大幅增长时，存储不能称为系统的瓶颈。...

hbase TDSQLMySQL版 spark hive api

2020-08-10

4

Spark SQL中Not in Subquery为何低效以及如何规避

通过上述逻辑计划和物理计划可以看出，Spark SQL在对not in subquery处理，从逻辑计划转换为物理计划时，会最终选择BroadcastNestedLoopJoin（对应到Spark源码中BroadcastNestedLoopJoinExec.scala）策略。...

2020-08-10

10

SparkSQL与Hive metastore Parquet转换

Spark SQL为了更好的性能，在读写Hive metastore parquet格式的表时，会默认使用自己的Parquet SerDe，而不是采用Hive的SerDe进行序列化和反序列化。该行为可以通过配置参数spark.sql.hive.convertMetastoreParquet进行控...

hive C++SQL spark HTML

2020-08-10

1

Spark存储Parquet数据到Hive，对map、array、struct字段类型的处理

利用Spark往Hive中存储parquet数据，针对一些复杂数据类型如map、array、struct的处理遇到的问题？

hive SQL 存储 spark

2020-08-10

1

对Spark硬件配置的建议

对于Spark开发人员来说，一个比较普遍的问题就是如何合理的配置Spark的硬件？当然如何合理的对Spark集群进行硬件配置要视情况而定，在这里给出以下建议：...

hadoop Node.js spark mapreduce 大数据

2020-08-10

5

Hive on spark下insert overwrite partition慢的优化

这几天发现insert overwrite partition运行的很慢，看了下是hive on spark引擎，这引擎平时比mapreduce快多了，但是怎么今天感觉比mapreduce慢了好几倍，运行了1h多还没运行完。...

spark mapreduce Node.js hive

2020-08-10

3

Spark SQL 小文件问题处理

在生产中，无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据，在Spark SQL写数据时，往往会遇到生成的小文件过多的问题，而管理这些大量的小文件，是一件非常头疼的事情。...

2020-08-10

1

Spark集群和任务执行

Driver：Spark框架中的驱动器，运行用户编写Application 的main()函数。类比于MapReduce的MRAppmaster

spark yarn mapreduce Node.js

2020-08-10

5

Spark推荐系统实践

推荐系统是根据用户的行为、兴趣等特征，将用户感兴趣的信息、产品等推荐给用户的系统，它的出现主要是为了解决信息过载和用户无明确需求的问题，根据划分标准的不同，又分很多种类别：...

云数据库Redis spark 数据处理日志数据数据分析

2020-08-10

8

详解MapReduce（Spark和MapReduce对比铺垫篇）

本来笔者是不打算写MapReduce的，但是考虑到目前很多公司还都在用这个计算引擎，以及后续要讲的Hive原生支持的计算引擎也是MapReduce，并且为Spark和MapReduce的对比做铺垫，笔者今天详细阐述一下MapReduce。鉴于Hadoop1.X已...

mapreduce 分布式 vr视频解决方案数据处理 spark

2020-08-10

6

149 150 151 152 153