Skip to content

Jupyter notebook to visualize similarity between word embeddings using t-SNE and word2vec

Notifications You must be signed in to change notification settings

joaorobson/tsne_word_vectors

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Par de pontos mais próximo: TSNE Word Vectors

Nome: Vinicius Ferreira Bernardo de Lima
Matrícula: 15/0151331

Nome: João Robson Santos Martins
Matrícula: 15/0154003

Em Machine Learning, mais especificamente no ramo NLP (Natural Language Processing), o pré processamento do texto usado como feature deve levar em consideração eventuais erros gramaticais presentes no dataset. Para minimizar esse problema e reduzir a dimensionalidade das features (tokens únicos no texto), pode ser utilizado o Word2Vec para produzir conjuntos de palavras próximas gramaticalmente. Nesse projeto, utilizando o dataset com notícias da agência Reuters de 2016 a 2018 encontrado na plataforma Kaggle, foi gerado um TSNE o qual comprime as 100 dimensões geradas pelo Word2Vec em um par de coordenadas x e y para cada palavra. Com isso, foi utlizado o algoritimo de par de pontos mais próximos para descobrir as palavras mais próximas gramaticalmente e semanticamente do dataset.

About

Jupyter notebook to visualize similarity between word embeddings using t-SNE and word2vec

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published