gaur

This project provides libraries to create datasets for topic modeling or text classification. This also has a pure python implementation of the collapsed Gibbs sampling algorithm of the topic model Latent Dirichlet Allocation (Caveat: It's not written for handling large datasets).

Currently, it supports downloading articles from the English Wikipedia to create datasets. The user has to specify the Wikipedia categories of interest to download the associated articles and create a data set out of it. This project uses the MediaWiki API to query abd download articles in a Wikipedia category.

Usage

To download the Wikipedia articles, see download_wikipedia_articles.py
To build a topic modeling data set (in the LDA-C format), see build_ldac_corpus.py
To run the LDA collapsed Gibbs sampling algorithm, see lda_gibbs.py and lda_gibbs_test.py*

Dependencies

The Gensim package (to create a topic modeling dataset in the LDA-C format)
The MediaWiki API

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
datasets		datasets
.gitignore		.gitignore
.project		.project
.pydevproject		.pydevproject
LICENSE		LICENSE
README.md		README.md
analyze_reuters_places.py		analyze_reuters_places.py
build_clda_corpus_nips.py		build_clda_corpus_nips.py
build_clda_corpus_reuters.py		build_clda_corpus_reuters.py
build_clda_corpus_sklearn.py		build_clda_corpus_sklearn.py
build_clda_corpus_yelp.py		build_clda_corpus_yelp.py
build_lda_corpus_birds.py		build_lda_corpus_birds.py
build_ldac_corpus_sklearn.py		build_ldac_corpus_sklearn.py
build_ldac_corpus_wikipedia.py		build_ldac_corpus_wikipedia.py
build_ldac_corpus_wikipedia_birds_01.py		build_ldac_corpus_wikipedia_birds_01.py
build_ldac_corpus_wikipedia_birds_02.py		build_ldac_corpus_wikipedia_birds_02.py
build_ldac_corpus_wikipedia_birds_03.py		build_ldac_corpus_wikipedia_birds_03.py
build_ldac_corpus_wikipedia_run.py		build_ldac_corpus_wikipedia_run.py
download_wikipedia_articles.py		download_wikipedia_articles.py
download_wikipedia_birds_01.py		download_wikipedia_birds_01.py
download_wikipedia_birds_02.py		download_wikipedia_birds_02.py
download_wikipedia_birds_03.py		download_wikipedia_birds_03.py
en_stopwords		en_stopwords
lda_gibbs.py		lda_gibbs.py
lda_gibbs_test.py		lda_gibbs_test.py
lda_gibbs_test_wt.py		lda_gibbs_test_wt.py
preprocess_corpus_yelp.py		preprocess_corpus_yelp.py
utils_text.py		utils_text.py
utils_wikipedia.py		utils_wikipedia.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

gaur

Usage

Dependencies

About

Releases

Packages

Languages

License

clintpgeorge/gaur

Folders and files

Latest commit

History

Repository files navigation

gaur

Usage

Dependencies

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages