Search *

Page 5 of 203 results

yaooqinn/itachi 0.3.0

A library that brings useful functions from various modern database management systems to Apache Spark

Scala versions: 2.12

postgres spark hive presto trino

63 0 2
mrpowers/spark-stringmetric 0.5.0

Spark functions to run popular phonetic and string matching algorithms

Scala versions: 2.13 2.12

cosine-distance fuzzy-score nysiis jaccard-similarity spark jaro-winkler double-metaphone hamming-distance refined-soundex

60 0 2
databrickslabs/automl-toolkit 0.7.2

Toolkit for Apache Spark ML for Feature clean-up, feature Importance calculation suite, Information Gain selection, Distributed SMOTE, Model selection and training, Hyper parameter optimization and selection, Model interprability.

Scala versions: 2.11

apache-spark feature-engineering spark scala ml pyspark machinelearning

191 7
pishen/sbt-lighter 1.2.0

SBT plugin for Apache Spark on AWS EMR

emr sbt spark

57 0 6
potix2/spark-google-spreadsheets 0.6.3

Google Spreadsheets datasource for SparkSQL and DataFrames

Scala versions: 2.11

sparksql scala data-frame spark spreadsheet

58 0 5
uosdmlab/spark-nkp 0.3.3

Natural Korean Processor for Apache Spark

Scala versions: 2.11

nlp apache-spark text-mining korean-nlp spark natural-language-processing spark-mllib

55 2
univalence/zio-spark 0.12.0

A functional wrapper around Spark to make it works with ZIO

Scala versions: 3.x 2.13 2.12 2.11

scala spark zio zio-spark

54 10
hydrospheredata/spark-ml-serving 0.3.3

Spark ML Lib serving library

Scala versions: 2.11

inference scoring serving spark

50 0 2
hablapps/sparkoptics 0.1.1

Optics for Spark DataFrames

Scala versions: 2.12 2.11

dataframes dataframe optics spark-sql spark scala

48 0 4
coxautomotivedatasolutions/spark-distcp 0.2

A re-implementation of Hadoop DistCP in Apache Spark

Scala versions: 2.12 2.11

apache-spark data-engineering distcp hadoop spark

47 0 3
absaoss/hyperdrive 4.7.0

Extensible streaming ingestion pipeline on top of Apache Spark

Scala versions: 2.12 2.11

apache-spark streaming spark-structured-streaming framework pipeline kafka streaming-etl spark ingestion

47 1 11
xskipper-io/xskipper 1.6.0

An Extensible Data Skipping Framework

Scala versions: 2.12

data-skipping indexing scala spark

50 5
tharwaninitin/etlflow 1.7.3

EtlFlow is an ecosystem of functional libraries in Scala based on ZIO for running complex Auditable workflows which can interact with Google Cloud Platform, AWS, Kubernetes, Databases, SFTP servers, On-Prem Systems and more.

Scala versions: 3.x 2.13 2.12

Scala.js versions: 1.x

dataproc gcs etl bigquery scala redis aws s3 gcp etl-framework etl-pipeline spark zio

45 0 5
locationtech-labs/geopyspark 0.3.0

GeoTrellis for PySpark

Scala versions: 2.11

tile-server geotrellis big-data geospatial spark python

179 0 9
benfradet/struct-type-encoder 0.6.0

Deriving Spark DataFrame schemas from case classes

Scala versions: 2.12

spark sparksql

44 0 6
heartsavior/spark-sql-kafka-offset-committer 0.2.0

Kafka offset committer for structured streaming query

Scala versions: 2.12 2.11

kafka spark structured-streaming

41 0 3
g-research/spark-dgraph-connector 0.2.0

A connector for Apache Spark and PySpark to Dgraph databases.

Scala versions: 2.12

dgraph gr-oss pyspark spark

44 5
joomcode/trace-analysis 0.1.1

Library for performance bottleneck detection and optimization efficiency prediction

Scala versions: 2.13 2.12

opentracing performance spark optimization jaeger

39 0 1
absaoss/spark-hats 0.3.0

Nested array transformation helper extensions for Apache Spark

Scala versions: 2.13 2.12 2.11

arrays schema spark nested-structures scala

37 0 6
zuinnote/spark-hadoopoffice-ds 1.7.0

A Spark datasource for the HadoopOffice library

Scala versions: 2.13 2.12 2.11

read xlsx xls excel spark datasource write hadoopoffice

36 1 1

1
2
3
4
5 (current)
6
7
8
9
10