GitHub - joaorobson/tsne_word_vectors: Jupyter notebook to visualize similarity between word embeddings using t-SNE and word2vec

Par de pontos mais próximo: TSNE Word Vectors

Nome: Vinicius Ferreira Bernardo de Lima
Matrícula: 15/0151331

Nome: João Robson Santos Martins
Matrícula: 15/0154003

Em Machine Learning, mais especificamente no ramo NLP (Natural Language Processing), o pré processamento do texto usado como feature deve levar em consideração eventuais erros gramaticais presentes no dataset. Para minimizar esse problema e reduzir a dimensionalidade das features (tokens únicos no texto), pode ser utilizado o Word2Vec para produzir conjuntos de palavras próximas gramaticalmente. Nesse projeto, utilizando o dataset com notícias da agência Reuters de 2016 a 2018 encontrado na plataforma Kaggle, foi gerado um TSNE o qual comprime as 100 dimensões geradas pelo Word2Vec em um par de coordenadas x e y para cada palavra. Com isso, foi utlizado o algoritimo de par de pontos mais próximos para descobrir as palavras mais próximas gramaticalmente e semanticamente do dataset.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
requirements.txt		requirements.txt
reuters_news.zip		reuters_news.zip
word2vec_tsne.ipynb		word2vec_tsne.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Par de pontos mais próximo: TSNE Word Vectors

About

Releases

Packages

Contributors 2

Languages

joaorobson/tsne_word_vectors

Folders and files

Latest commit

History

Repository files navigation

Par de pontos mais próximo: TSNE Word Vectors

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages