Giter VIP home page Giter VIP logo

corretor-ortografico's Introduction

Corretor Ortografico em Python Utilizando tecnicas de NLP

Badge em Desenvolvimento

🪧 Vitrine.Dev
✨ Nome Corretor Ortografico
🏷️ Tecnologias Python
🚀 URL https://github.com/wesleyfuchs/Corretor-ortografico
🔥 Desafio https://cursos.alura.com.br/course/nlp-corretor-ortografico

1-1024x576

Sobre o projeto 📚

Esse corretor ortografico foi o projeto criado durante o curso Corretor Ortográfico em Python: aplicando técnicas de NLP da Alura.
A ideia do projeto foi criar um corretor que como parametro uma palavra digitada de maneira equivocada, gerar as possíveis palavras corretas, e então inferir quais daquelas possíveis candidatas era possivelmente a correta.
Durante o desenvolvimento foram adicionados algoritimos onde nós inseríamos letras na palavra digitada equivocadamente, deletamos letras, trocamos letras e invertemos letras da palavra. Para realizar a inferência da palavra correta foi usada uma base de dados, e neste caso foram os artigos do Blog da Alura compilados em artigos.txt.

Desenvolvimento

Começei pela importação da base de dados

import

Separei a string em pequenos tokens. Para isso, utilizei a biblioteca Python específica para processamento de linguagem natural chamada nltk.
Depois, separei dos tokens apenas os que eram palavras, e aí foi feita uma contagem do número de palavras que havia no nosso dataset e tambem do numero de palavras unicas.

bibliteca-nltk tokenize palavras_unicas

Após isso, foi iniciada a construção do algoritimo

Inserir_letras palavras_geradas

A função corretor() faz uma comparação das palavras geradas e procura pela palavra com mais aparições dentro do dataset

corretor

Para testar o corretor foi criado uma função que mostra a taxa de acerto do corretor após aplicar testes em um arquivo .txt com diversas palavras.

dados_teste avaliador_1

Alem da inserir_letra(), foram adicionadas as funções deletando_caracteres(), troca_letra() e inverte_letra().
Chegando então a quase 77% de taxa de acerto.

avaliador_2

Foi criado tambem um corretor_turbinado() que tem como ideia corrigir palavras com 2 erros, que consegue corrigir palavras que o nosso antigo corretor não conseguia, porem, depois de testa-lo foi constatado uma taxa de 55.38% de acerto fazendo com que o antigo continue tendo uma taxa de acerto maior e continue sendo a melhor opção

corretor_turbinado

corretor-ortografico's People

Contributors

wesleyfuchs avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.