Giter VIP home page Giter VIP logo

hangulize's Introduction

한글라이즈

GoDoc Go Report Card Build Status Coverage Status

(WIP: 아직 개발 중, API가 임의로 바뀔 수 있어요!)

외국어의 한글 표기 체계가 제대로 서려면 일반인이 외국어를 한글로 표기하고 싶을 때 바로바로 쉽게 용례를 찾을 수 있어야 한다. 정기적으로 회의를 열어 용례를 정하는 것으로는 한계가 있다. 외래어 표기 심의 방식이 자동화되어 한글로 표기하고 싶은 외국어를 입력하자마자 한글 표기가 나와야 한다. 이미 용례가 정해진 것은 그것을 따르고 용례에 없는 것이라도 각 언어의 표기 규칙에 따라 권장 표기를 표시해야 한다. 프로그래머들과 언어학자들이 손잡고 연구한다면 이게 공상으로만 그치지 않을 것이다.

Brian Jongseong Park (http://iceager.egloos.com/2610028)

한글라이즈는 외래어를 한글로 변환하는 도구입니다.

$ go get -u github.com/hangulize/hangulize
import "github.com/hangulize/hangulize"

hangulize.Hangulize("ita", "Cappuccino")
// output: "카푸치노"

지원하는 언어

LANG     STAGE    ENG                      KOR
aze      draft    Azerbaijani              아제르바이잔어
bel      draft    Belarusian               벨라루스어
bul      draft    Bulgarian                불가리아어
cat      draft    Catalan                  카탈로니아어
ces      draft    Czech                    체코어
chi      draft    Chinese                  중국어
cym      draft    Welsh                    웨일스어
deu      draft    German                   독일어
ell      draft    Greek                    그리스어
epo      draft    Esperanto                에스페란토어
est      draft    Estonian                 에스토니아어
fin      draft    Finnish                  핀란드어
grc      draft    Ancient Greek            고대 그리스어
hbs      draft    Serbo-Croatian           세르보크로아트어
hun      draft    Hungarian                헝가리어
isl      draft    Icelandic                아이슬란드어
ita      draft    Italian                  이탈리아어
jpn      draft    Japanese                 일본어
jpn-ck   draft    Japanese (C.K.)          일본어(최영애-김용옥)
kat-1    draft    Georgian (1st scheme)    조지아어(제1안)
kat-2    draft    Georgian (2nd scheme)    조지아어(제2안)
lat      draft    Latin                    라틴어
lav      draft    Latvian                  라트비아어
lit      draft    Lithuanian               리투아니아어
mkd      draft    Macedonian               마케도니아어
nld      draft    Dutch                    네덜란드어
pol      draft    Polish                   폴란드어
por      draft    Portuguese               포르투갈어
por-br   draft    Brazilian Portuguese     브라질 포르투갈어
ron      draft    Romanian                 루마니아어
rus      draft    Russian                  러시아어
slk      draft    Slovak                   슬로바키아어
slv      draft    Slovenian                슬로베니아어
spa      draft    Spanish                  스페인어
sqi      draft    Albanian                 알바니아어
swe      draft    Swedish                  스웨덴어
tur      draft    Turkish                  터키어
ukr      draft    Ukrainian                우크라이나어
vie      draft    Vietnamese               베트남어
wlm      draft    Middle Welsh             웨일스어(중세)

읽을거리

만든이

라이선스

한글라이즈는 MIT 라이선스 하에 공개되어 있습니다. 소스코드를 사용할 경우 라이선스 내용을 준수해주세요. 라이선스 전문은 LICENSE 파일에서 확인하실 수 있습니다.

hangulize's People

Contributors

iceager avatar suapapa avatar sublee avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

hangulize's Issues

독일어 st sp 표기

독일어에서 st와 sp에서 s는 단어 앞에서는 /ʃ/로 그 외에는 /s/로 발음되는 것으로 배웠습니다.
https://blog.naver.com/bluett2/150128236355
https://www.google.com/search?q=german+st+sp+pronunciation

외래어표기법에 따로 이 내용이 적혀 있지는 않지만 다음 용례를 보면 외래어표기법도 이를 지킨다고 볼 수 있을 듯합니다(sp는 합성어 외에는 용례를 못 찾아 넘어갑니다).

Münster 뮌스터
Forster 포르스터
Fürstenberg 퓌르스텐베르크
Torsten 토르스텐
Carsten 카르스텐

한글라이즈에서는 이런 경우 '스'를 '슈'로 전사하는데, 이를 고쳐야 하지 않을까 싶습니다. 혹은 제가 모르는 근거가 있는 것일까요?

TypeScript/JavaScript API

여러 웹 애플리케이션에서 쉽게 가져다 쓸 수 있도록 TypeScript/JavaScript API도 제공하면 좋을 것 같습니다. 현재 한글라이즈 공식 웹사이트에서 쓰이는 것처럼 서버와 따로 통신할 필요 없다면 더 좋을 것 같습니다.

일본어 세칙 중 장음 표기?

ぼう 같은 단어를 돌려보면 '보우'라고 나오지만, 국립국어원 용례를 보면 다음과 같습니다.

보소반도 房總(ぼうそう)반도
이누보자키 犬吠埼(いぬぼうざき)
무카이보 다카시 向坊隆(むかいぼう たかし)
쓰보우치 쇼요 坪內逍遙(つぼうち しょうよう)
보 히데오 坊秀男(ぼう ひでお)

이는 일본어 세칙에서 장음을 표기하지 않기 때문 같아요.
규칙을 수정해야 하지 않을까요? 확인 부탁합니다~

인도네시아어 발음변환

개발자님, 안녕하세요.

혹시 인도네시아어 발음도 변환이 가능한지요?

네이버 인도네시아어 사전에 한글로 발음이 표기되어 있어서요....

감사합니다!

기존 저장소는 어떻게 하나요?

기존 저장소에는 리부트 공지나 새 저장소 주소가 없어 혼동이 생길 수 있을 듯합니다.

또한 기존 저장소의 이슈 중 해결되지 않은 것도 남아 있고요(기능 이슈가 아니라 변환 규칙에 관한 이슈).
혹시 다른 저장소의 이슈를 그대로 가져오는 게 가능할까요?
https://github.com/sublee/hangulize/issues

사소한 문제지만 시간이 되실 때 해결해주시면 좋겠습니다.

국제 음성 기호 입력

불규칙성이 많아 사전이 꼭 필요한 언어들을 지원하기가 바로는 어렵다면, 과도기적 대책으로 국제 음성 기호를 입력으로 받을 수 있으면 좋을 것 같습니다.

말레이어 지원 문의

이흥섭 개발자님, 수고가 많으십니다.

생업을 하시는라 바쁘신 가운데 저도 제 업을 위해 한글라이즈를 매일 사용하고 있습니다.
코드가 고로 바뀐 뒤로 훨씬 빨라졌다고 느껴집니다.^^

트랜스리터레이션에 AI를 도입하면 좋겠지만 자발적으로 도움을 주실 수 있는 전산언어학 트레이너들을 구할 수 있을지 미지수네요. 업무 때문에 만하임 대학의 Tesseract OCR 트레이닝 데이터를 사용하고 있는데 속도와 정확성의 개선에 경외감이 느껴질 정도입니다. 40여개 언어로 작업 중인데 해상도가 떨어져 알아볼 수 없거나 구겨진 서류들도 이제는 정확하게 읽어냅니다.

한글라이즈도 AI 트레이닝 데이터가 구축되면 전세계언어들을 규칙에 맞게 다 표기할 수 있을텐데요...^^;;;

한글이 워낙 변방 언어이고 토크나이저도 절망적이어서 그냥 신경을 끄고 삽니다.

바쁘신 것으로 알고 있고 염치는 없지만 혹시 말레이시아어도 지원이 가능하신지 문의를 드려봅니다.

한글라이즈를 만들어 주셔서 감사합니다.

사전 기반 독일어 발음 추출

관련 예전 이슈:

@iceager 님 답변:

독일어는 생각보다 철자로부터 발음을 예측하기가 어려습니다. 지적하신 합성어의 표기 문제도 복합어를 인식할 수 있는 알고리즘 없이는 완벽하게 처리할 수 없습니다. 예를 들어 Mondlicht를 Mond와 Licht로 구성된 복합어로 인식해야 하는데 사전이 없이는 뾰족한 수가 보이지 않습니다.

그러기 전에는 확률적으로 높은 쪽의 표기를 선택하는 것이 최선이겠지만 완벽한 처리는 못합니다. 어중의 -ndl-은 Schindler '신들러', Handlung '한들룽'에서는 /ndl/로, Abendland '아벤틀란트', handlich '한틀리히'에서는 /ntl/로 발음됩니다. Abendland도 Abend와 Land의 합성어이니 말씀하신 세칙대로는 '아벤트란트'로 표기해야 하겠지만 '기타 언어의 표기 원칙'에서 -land형의 지명은 복합어임을 무시하고 표기하도록 되어 있습니다.

어쨌든 이 문제는 독일어 철자에 단순한 알고리즘을 대입하여 한글 표기를 얻어내는 현재의 방식으로는 해결할 수 없기 때문에 발음 사전을 이용하는 방식을 연구하고 있습니다.

러시아어 알렉산드르

"Алекса́ндр"가 "알렉사́느드르"로 옮겨지네요. (사와 느 사이에 특수문자 하나 있어요.)

한글라이즈의 출력 결과에 한글이 아닌 글자가 나오지 않도록 필터링할 필요도 있어보입니다.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.