Search topics:spark

Page 5 of 207 results

googleclouddataproc/spark-bigquery-connector 0.41.1

BigQuery data source for Apache Spark: Read data from BigQuery into DataFrames, write DataFrames into BigQuery tables.

Scala versions: 2.13 2.12

spark google-cloud-dataproc google-cloud google-bigquery bigquery bigquery-storage-api

400 70
mrpowers/spark-stringmetric 0.5.0

Spark functions to run popular phonetic and string matching algorithms

Scala versions: 2.13 2.12

cosine-distance fuzzy-score nysiis jaccard-similarity spark jaro-winkler double-metaphone hamming-distance refined-soundex

60 2
yaooqinn/itachi 0.3.0

A library that brings useful functions from various modern database management systems to Apache Spark

Scala versions: 2.12

postgres spark hive presto trino

59 2
databrickslabs/automl-toolkit 0.7.2

Toolkit for Apache Spark ML for Feature clean-up, feature Importance calculation suite, Information Gain selection, Distributed SMOTE, Model selection and training, Hyper parameter optimization and selection, Model interprability.

Scala versions: 2.11

apache-spark feature-engineering spark scala ml pyspark machinelearning

192 7
pishen/sbt-lighter 1.2.0

SBT plugin for Apache Spark on AWS EMR

emr sbt spark

57 6
cerndb/sparkplugins 0.4

Code and examples of how to write and deploy Apache Spark Plugins. Spark plugins allow runnig custom code on the executors as they are initialized. This also allows extending the Spark metrics systems with user-provided monitoring probes.

Scala versions: 2.13 2.12

kubernetes monitoring scala spark

89 1
potix2/spark-google-spreadsheets 0.6.3

Google Spreadsheets datasource for SparkSQL and DataFrames

Scala versions: 2.11

sparksql scala data-frame spark spreadsheet

57 5
uosdmlab/spark-nkp 0.3.3

Natural Korean Processor for Apache Spark

Scala versions: 2.11

nlp apache-spark text-mining korean-nlp spark natural-language-processing spark-mllib

54 2
hydrospheredata/spark-ml-serving 0.3.3

Spark ML Lib serving library

Scala versions: 2.11

inference scoring serving spark

48 2
hablapps/sparkoptics 0.1.1

Optics for Spark DataFrames

Scala versions: 2.12 2.11

dataframes dataframe optics spark-sql spark scala

47 4
coxautomotivedatasolutions/spark-distcp 0.2

A re-implementation of Hadoop DistCP in Apache Spark

Scala versions: 2.12 2.11

apache-spark data-engineering distcp hadoop spark

47 3
locationtech-labs/geopyspark 0.3.0

GeoTrellis for PySpark

Scala versions: 2.11

tile-server geotrellis big-data geospatial spark python

180 10
absaoss/hyperdrive 4.7.0

Extensible streaming ingestion pipeline on top of Apache Spark

Scala versions: 2.12 2.11

apache-spark streaming spark-structured-streaming framework pipeline kafka streaming-etl spark ingestion

45 11
tharwaninitin/etlflow 1.7.3

EtlFlow is an ecosystem of functional libraries in Scala based on ZIO for running complex Auditable workflows which can interact with Google Cloud Platform, AWS, Kubernetes, Databases, SFTP servers, On-Prem Systems and more.

Scala versions: 3.x 2.13 2.12

Scala.js versions: 1.x

dataproc gcs etl bigquery scala redis aws s3 gcp etl-framework etl-pipeline spark zio

44 5
benfradet/struct-type-encoder 0.6.0

Deriving Spark DataFrame schemas from case classes

Scala versions: 2.12

spark sparksql

44 6
univalence/zio-spark 0.12.0

A functional wrapper around Spark to make it works with ZIO

Scala versions: 3.x 2.13 2.12 2.11

scala spark zio zio-spark

44 10
xskipper-io/xskipper 1.6.0

An Extensible Data Skipping Framework

Scala versions: 2.12

data-skipping indexing scala spark

47 5
g-research/spark-dgraph-connector 0.2.0

A connector for Apache Spark and PySpark to Dgraph databases.

Scala versions: 2.12

dgraph gr-oss pyspark spark

43 5
heartsavior/spark-sql-kafka-offset-committer 0.2.0

Kafka offset committer for structured streaming query

Scala versions: 2.12 2.11

kafka spark structured-streaming

39 3
zuinnote/spark-hadoopoffice-ds 1.7.0

A Spark datasource for the HadoopOffice library

Scala versions: 2.13 2.12 2.11

read xlsx xls excel spark datasource write hadoopoffice

38 1

1
2
3
4
5 (current)
6
7
8
9
10