Search topics:spark

Page 5 of 200 results

databrickslabs/automl-toolkit

Toolkit for Apache Spark ML for Feature clean-up, feature Importance calculation suite, Information Gain selection, Distributed SMOTE, Model selection and training, Hyper parameter optimization and selection, Model interprability.

Scala versions: 2.11

apache-spark feature-engineering spark scala ml pyspark machinelearning

189 7
potix2/spark-google-spreadsheets

Google Spreadsheets datasource for SparkSQL and DataFrames

Scala versions: 2.11 2.10

sparksql scala data-frame spark spreadsheet

58 5
uosdmlab/spark-nkp

Natural Korean Processor for Apache Spark

Scala versions: 2.11

nlp apache-spark text-mining korean-nlp spark natural-language-processing spark-mllib

53 2
yaooqinn/itachi

A library that brings useful functions from various modern database management systems to Apache Spark

Scala versions: 2.12

postgres spark hive presto trino

53 2
cerndb/sparkplugins

Code and examples of how to write and deploy Apache Spark Plugins. Spark plugins allow runnig custom code on the executors as they are initialized. This also allows extending the Spark metrics systems with user-provided monitoring probes.

Scala versions: 2.13 2.12

kubernetes monitoring scala spark

76 1
hydrospheredata/spark-ml-serving

Spark ML Lib serving library

Scala versions: 2.11

inference scoring serving spark

48 2
hablapps/sparkoptics

Optics for Spark DataFrames

Scala versions: 2.12 2.11

dataframes dataframe optics spark-sql spark scala

47 4
locationtech-labs/geopyspark

GeoTrellis for PySpark

Scala versions: 2.11

tile-server geotrellis big-data geospatial spark python

177 0 9
benfradet/struct-type-encoder

Deriving Spark DataFrame schemas from case classes

Scala versions: 2.12 2.11

spark sparksql

44 6
tharwaninitin/etlflow

EtlFlow is an ecosystem of functional libraries in Scala based on ZIO for running complex Auditable workflows which can interact with Google Cloud Platform, AWS, Kubernetes, Databases, SFTP servers, On-Prem Systems and more.

Scala versions: 3.x 2.13 2.12 2.11

Scala.js versions: 1.x

dataproc gcs etl bigquery scala redis aws s3 gcp etl-framework etl-pipeline spark zio

43 1 5
absaoss/hyperdrive

Extensible streaming ingestion pipeline on top of Apache Spark

Scala versions: 2.12 2.11

apache-spark streaming spark-structured-streaming framework pipeline kafka streaming-etl spark ingestion

41 11
coxautomotivedatasolutions/spark-distcp

A re-implementation of Hadoop DistCP in Apache Spark

Scala versions: 2.13 2.12 2.11

apache-spark data-engineering distcp hadoop spark

40 3
zuinnote/spark-hadoopoffice-ds

A Spark datasource for the HadoopOffice library

Scala versions: 2.13 2.12 2.11 2.10

read xlsx xls excel spark datasource write hadoopoffice

39 1
xskipper-io/xskipper

An Extensible Data Skipping Framework

Scala versions: 2.12 2.11

data-skipping indexing scala spark

42 5
univalence/zio-spark

A functional wrapper around Spark to make it works with ZIO

Scala versions: 3.x 2.13 2.12 2.11

scala spark zio zio-spark

39 9
g-research/spark-dgraph-connector

A connector for Apache Spark and PySpark to Dgraph databases.

Scala versions: 2.13 2.12

dgraph gr-oss pyspark spark

41 4
tupol/spark-utils

Basic framework utilities to quickly start writing production ready Apache Spark applications

Scala versions: 2.13 2.12 2.11

apache-spark convenience data-source framework data-sink spark scala spark-applications spark-streaming

35 1
absaoss/spark-hats

Nested array transformation helper extensions for Apache Spark

Scala versions: 2.13 2.12 2.11

arrays schema spark nested-structures scala

35 6
heartsavior/spark-sql-kafka-offset-committer

Kafka offset committer for structured streaming query

Scala versions: 2.12 2.11

kafka spark structured-streaming

34 3
joomcode/trace-analysis

Library for performance bottleneck detection and optimization efficiency prediction

Scala versions: 2.13 2.12

opentracing performance spark optimization jaeger

34 2

1
2
3
4
5 (current)
6
7
8
9
10