spark_字节宝

首页 / 技术

CNN+ Auto-Encoder 实现无监督Sentence Embedding ( 基于Tensorflow)

这篇文章会利用到上一篇：基于Spark /Tensorflow使用CNN处理NLP的尝试的数据预处理部分，也就是如何将任意一段长度的话表征为一个2维数组。

编程算法 TensorFlow NLP服务深度学习 spark

2020-08-24

2

分布式集群调度框架Mesos架构与实现

Mesos是一个在多个集群计算框架中共享集群资源的管理系统，它提高了集群资源利用率，避免了每个计算框架数据复制。

spark https 网络安全 C++mapreduce

2020-08-21

4

快速，实时处理大量数据，架构如何解？

互联网的业务无外乎线上OLTP场景和线下OLAP场景，这两种场景，数据量增大后，我们应该分别怎么应对呢。

flink spark mapreduce 编程算法大数据

2020-08-21

4

ELK + Filebeat + Kafka 分布式日志管理平台搭建

GitHub地址：https://github.com/abel-max/Java-Study-Note/tree/master

分布式 Kafka spark 容器镜像服务容器

2020-08-21

1

Ray，面向新兴AI应用的分布式框架

下一代AI应用需要不断和环境进行交互，并且在交互中学习。这些应用暴露了新的系统需求：性能和弹性。本文提出了Ray解决上述问题。

强化学习分布式任务调度 spark

2020-08-20

4

Spark UDF小结

Spark UDF 增加了对 DS 数据结构的操作灵活性，但是使用不当会抵消Spark底层优化。

2020-08-17

0

【pyspark】parallelize和broadcast文件落盘问题（后续）

之前写过一篇文章，pyspark】parallelize和broadcast文件落盘问题，这里后来倒腾了一下，还是没找到 PySpark 没有删掉自定义类型的广播变量文件，因为用户的代码是一个 While True 的无限循环，类似下面的逻辑（下面的代码实际上...

编程算法 spark Python

2020-08-15

0

【pyspark】parallelize和broadcast文件落盘问题

parallize() 和 boradcast() 方法，在不使用 spark.io.encryption.enabled=true 的情况下，都会以文件的格式跟 JVM 交互，因为将一个大的 dataset 发送到 JVM 是比较耗时的，所以 pyspark 默认采用本地文件的方式，如果有安全...

spark jvm Python

2020-08-14

0

Spark Java UDAF 输入struct嵌套结构

虽然Spark3.0.0的官方文档1已对Spark Java UDAF进行了说明，并且有example代码。因此本文主要解决在实际开发过程中，遇到的2种问题：

2020-08-14

0

【Spark】常见的编译错误

改动了一下 Spark 的代码，重新编一个，因为有段时间没编了，本地环境可能有点问题，果不其然，报错了，java.lang.ClassNotFoundException: xsbt.CompilerInterface。仔细看一下 maven 的编译日志，把下面 .sbt/ 目录下的问题件删...

打包 xml Java spark kubernetes

2020-08-12

1

147 148 149 150 151