Giter VIP home page Giter VIP logo

ic's Introduction

IC

Ultimas modificações

  • Inserido demais datasets:
  • 2 sujos: iTunes-Amazon, Walmart-Amazon
  • 2 estruturados: Fodors-Zagats, iTunes-Amazon dados IC

Como as modificações foram geradas?

  1. Houve uma limpeza dos dados, pois erros eram gerados
  2. Para cada par de dataset, ex.: iTunes-Amazon, selecionamos 2 atributos mais representativos de cada e identicos, assim para o iTunes selecionamos 2 atributos e para a Amazon 2 atributos;
  3. Foi realizado o produto cartesiano entre as 2 tabelas para formar o conjunto iTunes-Amazon através de um script
  4. Foi executado os testes no DeepMatcher e no Ditto

Para artigo

deepmatcher

  • preparar exemplo similar os deepmatcher sobre diry, structured, textual, descrição do produto (descrição computador)

  • usa tabelas

  • figura 1 colocar em portugues

  • mostrar tupla t1 e t2 (dirty, structured, textual) com erro de digitação

  • FIGURA 1 em portugues

  • t1 e t2 normal
  • criar t1.1 e t2.1 com erros

artigo que descreve deepmatcher 'Entity Matching with Transformer Architectures - A Step Forward in Data Integration'

  • LSTM lida com memoria;

trabalhar no resumo do relatorio. Pegar na introdução os ultimos paragrafos

cada frase do resumo é um paragrafo da introdução. Qual o problem? Pq imoprtate? o que de ruim pode acarretar? Pq dificil para resolver? Limitçõe dos trabalhos anteriores, limites textuais (o nosso) e indicativo dos resultados.

Artigo cientifico para o ERI citar no relatorio.

Introdução paragrafo por paragrafo para gerar resumo.

escrever e declara o termo especifico (descrver o termo)

Escrever seção 3 - olhar artigos pra usar como base

descrever dataset (mais tempo), metricas (F1), ambiente

e 4 do artigo

AMBIENTE (menor que resultados)************************************************** => tabela 1 A tabela 1 apresenta alguns datasets que foram utilizados para para a realização dos experimentos, o atributo ''tipo'' se refere ao tipo de dados de entrada, assim para o tipo estruturados há cinco datasets, para textual há 1 dataset e para sujos há 2 datasets.

Os datasets estruturados (descrever datasets)

-> descrever de onde veio o dataset (olhar git deepmatcher)

O atributo rotulado se refere a quantidade de dados rotulado (descrever)

atributo atributo (comentar)

=> metricas (descrever brevemente) Para mensurar o desempenho dos modelos do \textit{Ditto} e modelos de sumarização do \textit{DeepMatcher}, se usa o F1 que representa a acurácia em todos os modelos treinados para a identificação de menções de entidades e é obtido a partir da precisão e do recall. A precisão é definida como o verdadeiro positivo dividido pela soma do falso e verdadeiro positivo, $P = VP/(FP+VP)$, ela representa as correspondências corretas. Já o recall é obtido pelo verdadeiro positivo dividido pela soma do falso negativo e verdadeiro positivo, $R = VP/(VP+FN)$, ele representa as correspondências identificadas corretamente pelo modelo. Por fim o F1 é dado por $2PR/(P + R)$ \cite{doan2018DeepMatcher,12doan2020Ditto}.

=> tabela 2

  • definir Ei
  • descrever porcentagem de erros, a quantidade, atibutos (pq tal atributo? mais representativo)

=> mais

  • citar pacotes e onde foram baixados
  • padronização do ambiente de execução
  • comentar sobre colab

RESULTADOS ************************************************** => comentar sobre tempo (qual mais rapido e mais lento e pq) => comparação delta

  • descrver brevemente as tabelas
  • um paragrafo pra cada tabela
  • definir delta (original -e)
  • pq ditto é melhor?

alterar titulo

  • um para artigo;
  • um para relatorio;
  • um para tcc;

ic's People

Contributors

pauloh48 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.