Sparklyclean Alternatives

Name: david-siqi-liu/sparklyclean
Brand: david-siqi-liu/sparklyclean
SKU: project/david-siqi-liu/sparklyclean
Rating: 4.42 (6 reviews)

Optimal distributed data deduplication and supervised learning pipeline using Apache Spark

Categories > Data Processing > Data Science

Suggest Alternative

Stars

Alternatives

License

mit

Open Issues

Most Recent Commit

almost 6 years ago

Programming Language

Scala

Dependent Repos

Dependent Packages

Total Releases

Categories

Programming Languages > Scala

Data Processing > Data Science

Data Processing > Spark

Data Processing > Hadoop

User Interface > Reducer

Software Architecture > Distributed Systems

Data Processing > Data Engineering

Data Processing > Deduplication

Data Processing > Data Cleaning

Repo

Alternatives To david-siqi-liu/sparklyclean

Project Name	Stars	Repos Using This	Packages Using This	Most Recent Commit	Total Releases	Latest Release	Open Issues	License	Language
moj-analytical-services/splink	939	0	2	over 2 years ago	119	November 14, 2023	167	mit	Python
Fast, accurate and scalable probabilistic data linkage with support for multiple SQL backends
zinggAI/zingg	828	0	0	over 2 years ago	1	June 01, 2022	76	agpl-3.0	Java
Scalable identity resolution, entity resolution, data mastering and deduplication using ML
zouzias/spark-lucenerdd	127	0	0	over 2 years ago	39	June 02, 2021	36	apache-2.0	Scala
Spark RDD with Lucene's query and entity linkage capabilities
ing-bank/spark-matcher	27	0	0	over 2 years ago	0		5	gpl-2.0	Python
Record matching and entity resolution at scale in Spark
phymbert/spark-search	20	0	0	over 4 years ago	8	September 26, 2021	32	apache-2.0	Scala
Spark Search - high performance advanced search features based on Apache Lucene
NYUBigDataProject/SparkClean	20	0	0	about 7 years ago	0		0	apache-2.0	Python
A Scalable Data Cleaning Library for PySpark.
david-siqi-liu/sparklyclean	6	0	0	almost 6 years ago	0		0	mit	Scala
Optimal distributed data deduplication and supervised learning pipeline using Apache Spark

Alternatives To david-siqi-liu/sparklyclean

Select To Compare

moj-analytical-services/splink ⭐ 939

Fast, accurate and scalable probabilistic data linkage with support for multiple SQL backends

dependent packages 2 total releases 119 most recent commit over 2 years ago downloads badge

zinggAI/zingg ⭐ 828

Scalable identity resolution, entity resolution, data mastering and deduplication using ML

dependent packages 0 total releases 1 most recent commit over 2 years ago downloads badge

zouzias/spark-lucenerdd ⭐ 127

Spark RDD with Lucene's query and entity linkage capabilities

dependent packages 0 total releases 39 most recent commit over 2 years ago

ing-bank/spark-matcher ⭐ 27

Record matching and entity resolution at scale in Spark

dependent packages 0 total releases 0 most recent commit over 2 years ago

phymbert/spark-search ⭐ 20

Spark Search - high performance advanced search features based on Apache Lucene

dependent packages 0 total releases 8 most recent commit over 4 years ago

NYUBigDataProject/SparkClean ⭐ 20

A Scalable Data Cleaning Library for PySpark.

dependent packages 0 total releases 0 most recent commit about 7 years ago

david-siqi-liu/sparklyclean ⭐ 6

Optimal distributed data deduplication and supervised learning pipeline using Apache Spark

dependent packages 0 total releases 0 most recent commit almost 6 years ago

Suggest An Alternative To sparklyclean

Alternative Project Comparisons

david-siqi-liu/sparklyclean vs Splink

david-siqi-liu/sparklyclean vs Zingg

david-siqi-liu/sparklyclean vs Spark Lucenerdd

david-siqi-liu/sparklyclean vs Spark Matcher

david-siqi-liu/sparklyclean vs Spark Search

david-siqi-liu/sparklyclean vs Sparkclean

david-siqi-liu/sparklyclean vs Sparklyclean

Popular Spark Projects

apache/spark⭐ 37,661

Apache Spark - A unified analytics engine for large-scale data processing

donnemartin/data-science-ipython-notebooks⭐ 25,668

Data science Python notebooks: Deep learning (TensorFlow, Theano, Caffe, Keras), scikit-learn, Kaggle, big data (Spark, Hadoop MapReduce, HDFS), matplotlib, pandas, NumPy, SciPy, Python essentials, AWS, and various command lines.

getredash/redash⭐ 24,479

Make Your Company Data Driven. Connect to any data source, easily visualize, dashboard and share your data.

yeasy/docker_practice⭐ 23,279

Learn and understand Docker&Container technologies, with real DevOps practice!

DataTalksClub/data-engineering-zoomcamp⭐ 19,461

Free Data Engineering course!

Popular Deduplication Projects

restic/restic⭐ 22,423

Fast, secure, efficient backup program

borgbackup/borg⭐ 10,158

Deduplicating archiver with compression and authenticated encryption.

prometheus/alertmanager⭐ 8,323

Prometheus Alertmanager

kopia/kopia⭐ 5,678

Cross-platform backup tool for Windows, macOS & Linux with fast, incremental backups, client-side end-to-end encryption, compression and data deduplication. CLI and GUI included.

gilbertchen/duplicacy⭐ 4,900

A new generation cloud backup tool

Popular Data Processing Categories

Jupyter Notebook

Dataset

Sql

Validation

Pipeline

Translation

Data Science

Classification

Transaction

Scraper