Giter VIP home page Giter VIP logo

processamento_linguagem_natural's Introduction

Processamento de linguagem natural

O termo, também conhecido como NLP (Natural Language Processing) é entendido como uma área de inteligência artificial direcionada para o estudo e extração de informações de texto. Essa técnica também inclui o reconhecimento de voz, a criação de textos, análise de sentimento, tradução e diversas outras aplicações. Recentemente aumentou a aplicação dessas técnicas exatamente porque ficou mais fácil usar as diversas bibliotecas que estão disponíveis, em especial no Python. Particularmente gosto de trabalhar com a NLTK (Natural Language Toolkit) que já contém diversas funções que facilitam a análise como, por exemplo, para fazer stemming, lemmatization, parsing e tokenization, apesar do pacote não oferecer ferramentas de redes neurais. Mas, além do NLTK, também há outros que podem ser usados e que possuem diferentes funcionalidades, como o spaCy, scikit Learn, gensim, Pattern e Polyglot. Cada um desses pacotes possui uma funcionalidade diferente e ferramentas que podem ser úteis para determinados problemas. A questão é que, ao escolher um pacote para aplicar em NLP, tenha em mente a a disponibilidade da língua no qual pretende trabalhar, isso porque, em agluns pacotes não é possível usar o dicionário de português.
Há diversas transformações que são feitas nas palavras em uma análise de NLP. Uma delas contempla o que se denomina de "embeded words". Nesse processo as palavras são colocadas em vetores, facilitando a interpretação de palavras iguais ou similares. Por exmeplo, podemos ter um vetor de animais, onde todos possuem dois olhos, quatro patas, rabo, unhas, focinho dentre outras característias. Outro vetor seria um que classificasse pessoas, com duas pernas, dois pés, dois braços, dois olhos, com cabelo e por ai vai. Dentre as diversas técnicas para lidar com esse procedimento em palavras, destaque para word2vec e Glove. O primeiro é um algoritmo criado pelo Google que atua de duas formas: i) continuous Bag-of-words - usado para preencher palavras faltantes em frases; ii) skip-gram - utilizado para prever o contexto da frase. Já o Glove atua no sentido de trabalhar com probabilidades de ocorrência de palavras a partir da razão entre as palavras fornecidas. br>

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.