Search *

19 results

apache/kyuubi 1.11.1

Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.

Scala versions: 2.12

sql kubernetes hacktoberfest jdbc spark hive thrift data-lake hadoop spark-sql

2348 201 235
mjakubowski84/parquet4s 2.23.0

Read and write Parquet in Scala. Use Scala classes as schema. No need to start a cluster.

Scala versions: 3.x 2.13 2.12

bigdata aws fs2 writer reader parquet-files google-storage hadoop streams akka-streams scala parquet akka

302 18
51zero/eel-sdk 1.2.4

Big Data Toolkit for the JVM

Scala versions: 2.12 2.11

etl big-data kafka hadoop hive scala kudu orc parquet

147 0 9
smart-data-lake/smart-data-lake 2.9.0

Smart Automation Tool for building modern Data Lakes and Data Pipelines

Scala versions: 2.13

smart-data-lake deltalake data-pipelines hadoop spark hive scala transform-data data-lake

126 193 30
aliyun/aliyun-emapreduce-datasources 2.2.0

Extended datasource support for Spark/Hadoop on Aliyun E-MapReduce.

Scala versions: 2.11

datasources kafka hadoop e-mapreduce spark aliyun

169 0 20
coxautomotivedatasolutions/waimak 2.9.7

Waimak is an open-source framework that makes it easier to create complex data flows in Apache Spark.

Scala versions: 2.13 2.12

data-engineering hadoop scala spark

76 0 9
coxautomotivedatasolutions/spark-distcp 0.2

A re-implementation of Hadoop DistCP in Apache Spark

Scala versions: 2.12 2.11

apache-spark data-engineering distcp hadoop spark

47 3
agile-lab-dev/darwin 1.2.2

Avro Schema Evolution made easy

Scala versions: 2.13 2.12 2.11 2.10

schema-evolution avro hadoop scala hbase spark avro-schema

36 0 10
izeigerman/akkeeper 0.4.11

An easy way to deploy your Akka services to a distributed environment.

Scala versions: 2.12 2.11

deployment monitoring hadoop distributed-systems distributed-actors yarn akka

30 0 5
agile-lab-dev/wasp 3.1.0

WASP is a framework to build complex real time big data applications. It relies on a kind of Kappa/Lambda architecture mainly leveraging Kafka and Spark. If you need to ingest huge amount of heterogeneous data and analyze them through complex pipelines, this is the framework for you.

Scala versions: 2.12

jdbc elasticsearch kafka hadoop spark scala hbase hdfs yarn parquet akka spark-streaming solr

31 8 16
apache/wayang 0.7.1

Apache Wayang is the first cross-platform data processing system.

Scala versions: 2.12 2.11

data-management-platform jdbc cross-platform big-data scala open-source distributed-system java hadoop algorithm spark apache data-processing privacy-preserving machine-learning

271 59
romans-weapon/spear-framework 3.1.1-3.0

Rapid ETL/ELT-connectors/pipeline development leveraged on top of Apache Spark

Scala versions: 2.12

kafka spark scala shell-script docker-compose hadoop

19 2
hammerlab/spark-util 3.1.0

low-level helpers for Apache Spark libraries and tests

Scala versions: 2.12 2.11

hadoop kryo scala spark

16 0 1
tapad/sbt-hadoop-oss 0.2.1

An sbt plugin for publishing artifacts to HDFS.

hadoop hadoop-filesystem hdfs sbt

10 0 1
zuinnote/hadoopoffice 1.5.0

HadoopOffice - Analyze Office documents using the Hadoop ecosystem (Spark/Flink/Hive)

Scala versions: 2.12 2.11

bigdata poi office hadoop spark hadoopoffice hadoop-ecosystem flink excel analyze-office-documents hive

63 2 1
tapad/sbt-oozie-oss 0.1.0

An sbt plugin for launching and scheduling Oozie applications.

Scala versions: 2.12 2.11 2.10

twirl-templates oozie hdfs sbt hadoop

1 0 0
hindog/grid-executor 2.0.7

Library for remote JVM ExecutorService with only dependency being password-less SSH -- Run clustered Hadoop/Spark jobs from IDE -- IDE-pimped Spark shell with full auto-completion!

Scala versions: 2.11

jvm ide grid spark-shell cloud hadoop

0 0 1
zuinnote/hadoopcryptoledger 1.0.2

Hadoop Crypto Ledger - Analyzing CryptoLedgers, such as Bitcoin Blockchain, on Big Data platforms, such as Hadoop/Spark/Flink/Hive

Scala versions: 2.11 2.10

bigdata bitcoin cryptoledger flink hadoop spark hive blockchain ethereum

142 1 4
h2oai/h2o-3 3.30.0.3

H2O is an Open Source, Distributed, Fast & Scalable Machine Learning Platform: Deep Learning, Gradient Boosting (GBM) & XGBoost, Random Forest, Generalized Linear Modeling (GLM with Elastic Net), K-Means, PCA, Generalized Additive Models (GAM), RuleFit, Support Vector Machine (SVM), Stacked Ensembles, Automatic Machine Learning (AutoML), etc.

Scala versions: 2.11 2.10

deep-learning gpu opensource big-data java pca h2o-automl python h2o r machine-learning automl naive-bayes ensemble-learning data-science distributed hadoop gbm spark random-forest

7495 121 176