Giter VIP home page Giter VIP logo

Comments (5)

sooftware avatar sooftware commented on June 2, 2024

CTC로 학습된 모델 같은 경우는 기술적으로 가능은 하지만, 현재 그런 기능을 제공하고 있지는 않습니다.

from kospeech.

Dripmaster avatar Dripmaster commented on June 2, 2024

CTC로 학습된 모델 같은 경우는 기술적으로 가능은 하지만, 현재 그런 기능을 제공하고 있지는 않습니다.
@sooftware

deep_cnn_with_joint_ctc_listen_attend_spell 이 모델로 학습했다면 가능할까요?
가능하다면 ctcdecode 이 페이지에 있는 CTCBeamDecoder를 이용해 타임스탬프 생성을 해보려고 합니다.

from kospeech.

Dripmaster avatar Dripmaster commented on June 2, 2024

아, 제가 사용한 모델은 openspeech에 있는 모델이었네요. 답변감사했습니다.

from kospeech.

Dripmaster avatar Dripmaster commented on June 2, 2024

성급하게 이슈를 닫은 것 같네요. 만약 저와 같은 기능을 찾고 계신분들이 있다면 도움 되시라고 올립니다.
모델 : deepspeech2
criterion : ctc
tokenizer unit : kspon_character
위 환경으로 테스트하였습니다.

ctcdecode에 구현된 CTCBeamDecoder 를 이용해 decoder.decode를 하면
beam_results, beam_scores, timesteps, out_lens가 나오는데요,(이 때, decode메서드의 파라미터는 logits를 넣어주세요)
이 때 음성 내에서 각 글자의 위치는
timesteps = timesteps[0][0][:out_lens[0][0]]
이렇게 구할 수 있었습니다.
pytorch asr inference 가이드에 있는 시각화 코드도 참고하시면 좋을 것 같습니다. 해당 가이드에서 사용하는 ctcdecoder는 아직 beta버전이라서 사용해보진 못했습니다.

image

ctc attention LAS 모델에서는 작동되지 않아 좀 더 테스트 해보고 공유해드리겠습니다.

from kospeech.

sooftware avatar sooftware commented on June 2, 2024

좋은 기록 감사합니다.
CTC-Attention 모델의 경우, CTC 모델과 작동방법이 꽤 상이해서, 같은 방법으로는 어려울 것 같습니다.
어텐션 맵을 이용해서 어느 정도는 유추 가능할 것 같지만, CTC처럼 모델 예측 => 타임 스탬프를 정확히 구하는건 어려울 것 같습니다.

from kospeech.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.