Search topics:spark

Page 3 of 200 results

snowflakedb/spark-snowflake

Snowflake Data Source for Apache Spark.

Scala versions: 2.11 2.10

spark

196 39
qbeast-io/qbeast-spark

Qbeast-spark: DataSource enabling multi-dimensional indexing and efficient data sampling. Big Data, free from the unnecessary!

Scala versions: 2.12

big-data spark-sql spark scala sampling datasource data-lakehouse

189 10
projectglow/glow

An open-source toolkit for large-scale genomic analysis

Scala versions: 2.12 2.11

genomics gwas spark delta regression machine-learning population-genetics

258 24
swoop-inc/spark-alchemy

Collection of open-source Spark tools & frameworks that have made the data engineering and data science teams at Swoop highly productive

Scala versions: 2.12

data-engineering data-science scala spark

178 7
benfradet/spark-kafka-writer

Write your Spark data to Kafka seamlessly

Scala versions: 2.13 2.12 2.11 2.10

kafka spark

176 8
setl-framework/setl

A simple Spark-powered ETL framework that just works 🍺

Scala versions: 2.12 2.11

data-engineering etl-pipeline etl pipeline data-science spark scala machine-learning setl framework big-data modularization data-transformation dataset data-analysis

176 7
leobenkel/zparkio

Boiler plate framework to use Spark and ZIO together.

Scala versions: 2.11

functional-programming boiler-plate scala spark zio helpers template

173 8
azure/azure-cosmosdb-spark

Apache Spark Connector for Azure Cosmos DB

Scala versions: 2.11 2.10

databricks apache-spark lambda-architecture cosmos-db databricks-notebooks azure-databricks connector azure-cosmos-db jupyter-notebook pyspark spark changefeed

196 24
sparkling-graph/sparkling-graph

SparklingGraph provides easy to use set of features that will give you ability to proces large scala graphs using Spark and GraphX.

Scala versions: 2.11 2.10

measure graph-algorithms vertex coarsing big-data link-predication comunity-detection-methods spark heuristics graph approximation network-analysis machine-learning dsl

150 5
housepower/spark-clickhouse-connector

Spark ClickHouse Connector build on DataSourceV2 API

Scala versions: 2.13 2.12

grpc spark clickhouse arrow http datasourcev2

167 14
clustering4ever/clustering4ever

C4E, a JVM friendly library written in Scala for both local and distributed (Spark) Clustering.

Scala versions: 2.11

big-data scalability spark artificial-intelligence scala ai clustering-evaluation clustering bigdata clustering-algorithm

128 5
zouzias/spark-lucenerdd

Spark RDD with Lucene's query and entity linkage capabilities

Scala versions: 2.12 2.11 2.10

lucene entity-linking hacktoberfest linkage record-linkage rdd spark spatial-search deduplication

127 3
g-research/spark-extension

A library that provides useful extensions to Apache Spark and PySpark.

Scala versions: 2.13 2.12 2.11

gr-oss java pyspark spark scala python

168 4
streamnative/pulsar-spark

Spark Connector to read and write with Pulsar

Scala versions: 2.13 2.12 2.11

structured-streaming apache-spark apache-pulsar flink data-science batch-processing stream-processing spark-sql spark data-processing

109 20
aliyun/aliyun-emapreduce-datasources

Extended datasource support for Spark/Hadoop on Aliyun E-MapReduce.

Scala versions: 2.11 2.10

datasources kafka hadoop e-mapreduce spark aliyun

168 20
alexarchambault/ammonite-spark

Run spark calculations from Ammonite

Scala versions: 2.13 2.12 2.11

ammonite scala spark

115 6
indix/schemer

Schema registry for CSV, TSV, JSON, AVRO and Parquet schema. Supports schema inference and GraphQL API.

Scala versions: 2.11

schema-registry json parquet tsv avro spark graphql-api schema-inference

112 4
saurfang/sbt-spark-submit

sbt plugin for spark-submit

Scala versions: 2.10

sbt plugins: 0.13

sbt spark

96 3
minio/spark-select

A library for Spark DataFrame using MinIO Select API

Scala versions: 2.11

bigdata amazon-s3 parquet-files select pyspark spark minio sbt spark-sql

96 2
microsoft/mobius

C# and F# language binding and extensions to Apache Spark

Scala versions: 2.11 2.10

bigdata apache-spark streaming mapreduce dataframe eventhubs kafka-streaming rdd dstream spark-streaming near-real-time csharp mobius spark dataset fsharp

937 37

1
2
3 (current)
4
5
6
7
8
9
10