Search topics:spark

Page 6 of 207 results

joomcode/trace-analysis 0.1.1

Library for performance bottleneck detection and optimization efficiency prediction

Scala versions: 2.13 2.12

opentracing performance spark optimization jaeger

38 2
absaoss/spark-hats 0.3.0

Nested array transformation helper extensions for Apache Spark

Scala versions: 2.13 2.12 2.11

arrays schema spark nested-structures scala

37 6
tupol/spark-utils 0.6.2

Basic framework utilities to quickly start writing production ready Apache Spark applications

Scala versions: 2.12

apache-spark convenience data-source framework data-sink spark scala spark-applications spark-streaming

36 1
agile-lab-dev/darwin 1.2.2

Avro Schema Evolution made easy

Scala versions: 2.13 2.12 2.11 2.10

schema-evolution avro hadoop scala hbase spark avro-schema

35 10
music-of-the-ainur/almaren-framework 2.4.5-2.4.5

The Almaren Framework provides a simplified consistent minimalistic layer over Apache Spark. While still allowing you to take advantage of native Apache Spark features. You can still combine it with standard Spark code.

Scala versions: 2.12 2.11

spark

31 13
intenthq/pucket 1.7.3

Bucketing and partitioning system for Parquet

Scala versions: 2.11

parquet spark thrift hdfs partitioning scala

30 5
sansa-stack/archived-sansa-query 0.7.1

SANSA Query Layer

Scala versions: 2.11

rdf flink partitioning distributed-computing spark sparql

31 10
indix/sparkplug 0.6.0

Spark package to "plug" holes in data using SQL based rules ⚡️ 🔌

Scala versions: 2.12 2.11

datapipeline spark spark-sql

29 8
agile-lab-dev/wasp 3.0.1

WASP is a framework to build complex real time big data applications. It relies on a kind of Kappa/Lambda architecture mainly leveraging Kafka and Spark. If you need to ingest huge amount of heterogeneous data and analyze them through complex pipelines, this is the framework for you.

Scala versions: 2.12

jdbc elasticsearch kafka hadoop spark scala hbase hdfs yarn parquet akka spark-streaming solr

31 15
fsanaulla/chronicler-spark 0.6.0

InfluxDB connector to Apache Spark on top of Chronicler

Scala versions: 2.12 2.11

chronicler streaming dataframe spark scala rdd influxdb

28 2
sansa-stack/archived-sansa-inference 0.7.1

A general Inference API based on two of the most popular Big Data processing engines: Apache Spark and Apache Flink

Scala versions: 2.11

flink rdfs spark semantic-web distributed-computing owl reasoning

28 6
fsanaulla/chronicler 0.7.2

Scala toolchain for InfluxDB

Scala versions: 2.13 2.12 2.11

chronicler url-connection async-http-client akka-http influxdb spark macros scala udp

27 7
weaviate/spark-connector 1.4.0

Weaviate connector for Apache Spark

Scala versions: 2.13 2.12

spark vector-search weaviate

34 12
sansa-stack/archived-sansa-owl 0.7.1

SANSA Stack OWL (Web Ontology Language) API

Scala versions: 2.11

flink owl spark semantic-web distributed-computing

25 6
alonsodomin/sbt-spark 0.6.0

Simple SBT plugin to configure Spark applications

Scala versions: 2.12 2.10

sbt plugins: 1.x 0.13

boilerplate sbt scala spark

24 2
arangodb/arangodb-spark-connector 2.0.0

Scala versions: 2.12 2.11

arangodb nosql java spark scala

33 8
timgent/data-flare 3.2.0_0.1.14

Data quality control tool built on spark and deequ

Scala versions: 2.12

big-data data-quality spark

25 5
locationtech/rasterframes 0.11.1

Geospatial Raster support for Spark DataFrames

Scala versions: 2.12

geotrellis earth-observation sparksql spark-ml spark scala image-processing machine-learning

252 11
absaoss/pramen 1.12.1

Resilient data pipeline framework running on Apache Spark

Scala versions: 2.13 2.12 2.11

hacktoberfest etl big-data spark data-pipeline scala

24 8
apache/incubator-wayang 0.7.1

Apache Wayang(incubating) is the first cross-platform data processing system.

Scala versions: 2.12 2.11

data-management-platform jdbc cross-platform big-data hadoop scala middleware distributed-system java spark apache data-processing open-source performance

224 43

1
2
3
4
5
6 (current)
7
8
9
10