Search *

Page 2 of 39 results

apache/samza 1.3.0

Mirror of Apache Samza

Scala versions: 2.11

big-data samza scala

841 132
catboost/catboost 1.2.10

A fast, scalable, high performance Gradient Boosting on Decision Trees library, used for ranking, classification, regression and other machine learning tasks for Python, R, Java, C++. Supports computation on CPU and GPU.

Scala versions: 2.13 2.12

gpu cuda gbdt tutorial coreml gbm kaggle catboost python r machine-learning decision-trees gradient-boosting categorical-features data-mining big-data gpu-computing data-science

8983 780 189
hablapps/doric 0.0.8

Type safety for spark columns

Scala versions: 2.13 2.12

big dataframe spark-columns big-data spark typesafe scala

79 4 9
swoop-inc/spark-records 3.0.1

Bulletproof Apache Spark jobs with fast root cause analysis of failures.

Scala versions: 2.12

apache-spark big-data sparksql scala spark-records spark swoop

73 4
locationtech-labs/geopyspark 0.3.0

GeoTrellis for PySpark

Scala versions: 2.11

tile-server geotrellis big-data geospatial spark python

179 0 9
apache/fluss 0.9.1-incubating

Apache Fluss is a streaming storage built for real-time analytics.

Scala versions: 2.12

hacktoberfest streaming fluss big-data real-time-analytics lakehouse

1944 123
absaoss/pramen 1.13.14

Resilient data pipeline framework running on Apache Spark

Scala versions: 2.13 2.12 2.11

hacktoberfest etl big-data spark data-pipeline scala

30 10
grouzen/zio-apache-parquet 0.3.4

Scala ZIO-powered Apache Parquet library

Scala versions: 3.x 2.13

bigdata parquet-tools parquet parquet-files parquet-format big-data apache-parquet zio2 zio scala zio-streams

28 4
apache/wayang 0.7.1

Apache Wayang is the first cross-platform data processing system.

Scala versions: 2.12 2.11

data-management-platform jdbc cross-platform big-data scala open-source distributed-system java hadoop algorithm spark apache data-processing privacy-preserving machine-learning

271 59
timgent/data-flare 3.2.0_0.1.14

Data quality control tool built on spark and deequ

Scala versions: 2.12

big-data data-quality spark

25 1 5
grouzen/zio-apache-arrow 0.1.10

Scala ZIO-powered Apache Arrow library

Scala versions: 3.x 2.13 2.12

bigdata datafusion apache-arrow big-data zio2 arrow-datafusion zio scala zio-streams arrow

22 2
eff3ct0/teckel4s 0.0.5

Scala/Spark reference implementation of the Teckel v3.0 specification — declarative YAML ETL pipelines on Apache Spark.

Scala versions: 2.13

big-data spark

11 1
databeans/lighthouse 0.1.0

Shed light on your data layout in order to monitor the health of your Lakehouse tables and identify when data maintenance operations should be performed.

Scala versions: 2.12

big-data delta-lake spark analytics performance

10 2
diana-hep/spark-root 0.1.16

Apache Spark Data Source for ROOT File Format

Scala versions: 2.11

root big-data histogrammar spark scala python

29 0 4
queukat/spark_oracle_hive_streaming 2.0

Scala/Spark Oracle-to-Hive full-load migration library using SCN snapshots, ROWID ranges, and schema policy controls.

Scala versions: 2.12

oracle apache-spark jdbc etl big-data spark-sql hive scala data-migration

1 1
apache/flink-ml 2.0.0

Machine learning library of Apache Flink

Scala versions: 2.12

big-data java flink ml python machine-learning

331 1 18
apache/incubator-parquet-mr 1.6.0

Mirror of Apache Parquet

Scala versions: 2.10

big-data java parquet

1 0
ytsaurus/ytsaurus 2.8.2

YTsaurus is a scalable and fault-tolerant open-source big data platform.

Scala versions: 2.12

sql olap-database ytsaurus big-data distributed-database lakehouse spark clickhouse

2195 7001 169
h2oai/h2o-3 3.30.0.3

H2O is an Open Source, Distributed, Fast & Scalable Machine Learning Platform: Deep Learning, Gradient Boosting (GBM) & XGBoost, Random Forest, Generalized Linear Modeling (GLM with Elastic Net), K-Means, PCA, Generalized Additive Models (GAM), RuleFit, Support Vector Machine (SVM), Stacked Ensembles, Automatic Machine Learning (AutoML), etc.

Scala versions: 2.11 2.10

deep-learning gpu opensource big-data java pca h2o-automl python h2o r machine-learning automl naive-bayes ensemble-learning data-science distributed hadoop gbm spark random-forest

7494 121 176