Giter VIP home page Giter VIP logo

rime-moetaigi's Introduction

rime-moetaigi 萌台語: 基於萌典 API 的 RIME 臺語輸入法

萌台語是中州韻輸入法引擎 (Rime) 的台語輸入法方案,建立在從萌典 API 取得的《臺灣閩南語常用詞辭典》兩萬多筆詞條與其發音,讓您使用注音符號(臺語方音符號)輕鬆輸入台語。

你嘛來試看覓!

特點

  1. 相容 台語的 44 個注音符號與 9 個聲調符號被妥善的安置在鍵盤上,以最大化符合中文注音輸入法使用者的習慣與記憶。幾乎不需要學習新的鍵盤配置,只要你使用注音與大千式鍵盤,就可以運用相同的鍵位來拚打出台語注音!這裡是詳細的鍵盤配置。
  2. 精確 台語詞彙的注音拚寫法與對應漢字以《臺灣閩南語常用詞辭典》的用字原則為基準。可精確的輸入注音與聲調來打字、選字。因此,我保證在《萌典》查到的台語條目可以準確無誤地用此輸入法打出來!

骨力

  1. 快速 使用多種來源的字、詞頻表(見資料來源)對台語用字進行排序,並且支援簡拼(不打聲調或只打聲符)輸入,幫助使用者在輸入最少拼音符號、最少選字的情況下打出台語文。此外,內建 AI 更會記錄使用者的常用字,打越多直接選到正確字的機會就越高。

莫佇遐假鬼假怪

  1. 詳盡 與《萌典》同步,透過 API 收錄《[臺灣閩南語常用詞辭典]》本文的兩萬多筆台語字詞。未來更計畫收錄同辭典附錄中的補充字詞。
  2. 學習 「我想要『ㄎㄨㄟˋ』腳」、「『ㄙㄨㄧˋ』啦!」、「『鏡頭』、『縣長』的台語是?」... 不管你是只會念某個台語詞但不知道對應的漢字怎麼寫,還是不知道某個詞彙的台語怎麼念,抑或只是想確定某字的聲調,使用萌台語的簡拚、中文反查,以及注音顯示功能,都可以幫助你快速找到答案。一邊輸入台語,一邊精進你的台語文能力。

這隻豬予伊飼甲肥朒朒

  1. 標點 利用 Rime 輸入法方案的特點,打台文的同時可快速輸入常用的全形標點符號。對應鍵位請參考這裡。
  2. 開源 開放原始碼並使用 CC0 公眾領域授權,任何人都可以不受限制地使用或改進此作品,歡迎各路英雄一同精進本專案、改善程式碼、補充台語字典...!

安裝

Windows

  1. 安裝 Rime 的 Windows 發行版「小狼豪
  2. 下載 rime-moetaigi
  3. 解壓縮後找到 rime-moetaigi/GenYoGothic-L.ttc 這個檔案,這是源樣黑體 L的字型檔。需要安裝此檔案到作業系統內,所有注音與臺文漢字才能正常顯示。字型的授權請見這裡的說明。
  4. 在同一個資料夾內找到 moetaigi-tsuim.schema.yamlmoetaigi.dict.yamlmoetaigi.extended.dict.yamlmoetaigi.unspaced.dict.yamlmoetaigi.unspaced.schema.yaml,以及tsuim.yaml 六個檔案,複製到 %APPDATA%\Rime 資料夾或是用戶自訂的文件夾位置底下。
  5. 切換至新安裝的 Rime 輸入法,打開控制選單,重新佈署 Rime 以後,進入輸入法設定啟用「萌台語-注音」(如下圖)。(您不需要啟用「萌台語-無空格辭典」;這個辭典只要能在輸入法設定中搜尋到,就可以被「萌台語-注音」利用。)

啟用「萌台語-注音」

  1. 按下 ctrl + ` 後選擇「萌台語-注音」,就可以開始打台語文了!

Ubuntu

  1. 安裝 Rime 的 ibus 模組,又稱為「中州韻」:
$ sudo apt install ibus-rime
  1. 下載 rime-moetaigi
  2. 解壓縮後找到 rime-moetaigi/GenYoGothic-L.ttc 這個檔案,這是源樣黑體 L的字型檔。需要安裝此檔案到作業系統內,所有注音與臺文漢字才能正常顯示。字型的授權請見這裡的說明。 你可以安裝 Ubuntu 的 font-manager 後以 GUI 簡單安裝:
$ sudo apt install font-manager

或是使用純指令列的方法安裝字形,詳細作法可參考此網頁。

  1. 進入 ibus-setup
$ ibus-setup

在 General - Fontand Style 欄位中,勾選 "Use custom font",選擇剛剛安裝的源樣黑體 L,在字型列表中的名稱是 GenYoGothic TW L

  1. 在第二步驟中被解壓縮的 rime-moetaigi 資料夾內找到 moetaigi-tsuim.schema.yamlmoetaigi.dict.yamlmoetaigi.extended.dict.yamlmoetaigi.unspaced.dict.yamlmoetaigi.unspaced.schema.yaml,以及tsuim.yaml 六個檔案,複製到 ~/.config/ibus/rime 資料夾或是用戶自訂的文件夾位置底下。
  2. 使用文字編輯器開啟 ~/.config/ibus/rime/default.yaml (如果找不到檔案的話,就去 /usr/share/rime-data 資料夾中把同名的檔案複製過來,再開啟複製的檔案),在 schema_list 群組中加入兩行後存檔:
  - schema: moetaigi.unspaced
  - schema: moetaigi-tsuim
  1. 切換至新安裝的 Rime 輸入法,在右上視窗打開控制選單,佈署 Rime 以後,就可以使用 ctrl + ` 切換至「萌台語-注音」。(您不需要啟用「萌台語-無空格辭典」;這個辭典只要能在輸入法設定中搜尋到,就可以被「萌台語-注音」利用。)

其他作業系統

安裝方式大同小異。注意在 iOS 上 Rime 的發行版稱為鼠鬚管。另外需注意的一點是不同作業系統的用戶文件夾位置也不一樣,需要先確認後再行安裝。

簡易功能鍵、輸入鍵位指引

  • ctrl + `: 切換至萌台語-注音輸入法或 Rime 提供的其他輸入法
  • shift: 切換漢字 / 英數輸入
  • 空白鍵 : 候選字視窗存在時,會把選中的字放進佇列。如果只有佇列存在,則會把所有在佇列中的字送上螢幕。
  • Enter: 把所有字 (在佇列中的字與在候選字視窗內選中的字) 送上螢幕
  • ctrl + 數字鍵: 依照編號選擇候選字視窗內的字放進佇列
  • `: 進入《中文反查》模式,用中文注音輸入漢字或查詢對應的台語發音。(如果欲查詢的字沒有台語發音的話,會顯示出本字的漢語拼音。)
  • ': 進入《注音顯示》模式,打字的時候待選詞組的注音會顯示在詞組的右邊。
  • 在輸入注音後按下 ': 強制分開不同字的注音,例如打「匏仔」簡拼時可以輸入 ㄅ'ㄚ,以防輸入法搜尋到 ㄅㄚ 的結果。

鍵盤配置

注音符號的鍵盤配置請參考下圖。注意深綠色的注音需搭配 shift 輸入;例如 shift + d 可以輸入「ㄫ」。符號代表的發音請參考臺語注音符號的維基說明

鍵盤配置 萌台語-注音輸入法的注音配置。淺綠色底的按鍵:與大千式注音鍵盤相同或發音相似的注音。紅色底的按鍵:與大千式注音鍵盤不同的注音。黃色底的按鍵:聲調符號。 修改自 Sakurambo 的作品。本作品以 CC BY-SA 4.0 授權發布。

輸入全形標點符號:

輸入 呈現
.
>
"
\
=
[ 「或〈
] 」或〉
[[ 『或《
]] 』或》
{
}
?
|
+++
_ ─ (連接號或半破折號)
+ ‧ (音界號,又稱間隔號)
~

《萌台語》完整說明文檔

這裡可以查閱《萌台語》的安裝、部署、輸入台文,以及使用上的各式細節。(之後補上)

鳴謝與資料來源

感謝以下專案與資料來源,以及背後的作者與貢獻者們,讓本輸入法得以奠基與實現:

  1. Rime 中州韻輸入法引擎 (佛振)
  2. 《臺灣閩南語常用詞辭典》
  3. 萌典萌典 API (唐鳳)
  4. 本輸入法使用如下的台語字詞頻率統計資料:
  5. 輸入法使用字型:源樣黑體 (柯志杰 (But Ko))
  6. 感謝以下 Rime 的官方/客製化輸入法 schema 為本專案的開發提供了範本與靈感:

授權條款

CC0

在本作品中,除了源樣黑體 L 的字型檔、從不同來源取得的原始資料,以及少數以其他授權發佈的圖片外,作者鄭懷傑 (Whyjay Zheng) 已在法律許可的範圍內,拋棄該著作依著作權法所享有之權利,包括所有相關與鄰接的法律權利,並宣告將該著作貢獻至公眾領域。你可以複製、修改、發布或展示此作品,亦可進行商業利用,完全不需要經過許可。更多資訊可參閱 LICENSE 檔或這裡

以下是仍保有著作權並提供不同程度使用許可的部分:

  • 源樣黑體 L 是改造過後 Adobe 開發的「思源黑體」字型,由柯志杰 (But Ko) 所開發,專案網址可由此進。萌台語輸入法基於 SIL Open Font License 1.1 的授權協議,以相同的授權條款再散佈此字型。
  • 《臺灣閩南語常用詞辭典》的詞目資料 rime-moetaigi/dict_prep/source_data/詞目總檔.csv 使用 CC BY-ND 3.0 臺灣授權 再發布。
  • 《台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計》網站擷取之詞頻資料 rime-moetaigi/dict_prep/source_data/詞頻表1*,資料作者保留所有權利。
  • 夢生《部育部臺灣閩南語常用詞辭典語詞字頻表》部落格擷取之詞頻資料 rime-moetaigi/dict_prep/source_data/詞頻表2*,資料作者保留所有權利。

對於以其他授權發佈的圖片,您可以在圖片說明文字中找到授權條款。

如何參與開發

萌台語歡迎各路英雄一同參與開發!文檔錯字、補充說明,乃至程式碼改進、擴增新功能... 不管您想到的是什麼,您可以:

  1. 開 Issue 提出您的問題與建議,或是未來開發的想法
  2. 隨時送一個 PR 過來,一起完善萌台語輸入法!

您可以參考這裡獲得本專案的更多細節。

rime-moetaigi's People

Contributors

whyjz avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar

Forkers

alanjui kkpan11

rime-moetaigi's Issues

字型選擇

RIME (Windows 小狼豪版) 使用微軟雅黑的繁體字作為預設字型。雅黑支援所有的台語注音符號 (小ㄍ除外,這是 Unicode 的問題),但是仍存在兩個問題:

  1. 微軟雅黑使用中國新字形,某些字不遵守繁體漢字在台灣的規範寫法,例如「骨」、「過」、「及」、「角」等等。
  2. 少部分的台語外字無法正常顯示,例如「足百」山。

下列字型或可滿足部分的需求,但目前為止 (2021.10) 尚無一種我知道的字型能完美支援繁體漢字規範、臺語注音符號,以及所有的臺語漢字。

  • 字咍台語字型:標音字型支援繁體漢字台灣規範、臺語注音符號、幾乎所有的臺語外字,以及臺語注音符號,但沒有不標音的版本。
  • Open 粉圓 (jf open 粉圓 1.1):支援繁體漢字台灣規範與大部分的台語外字,但是不支援臺語注音符號。
  • 豆腐烏 (Tauhu Oo 20.05):支援繁體漢字台灣規範與幾乎所有的台語外字,但是不支援臺語注音符號。
  • 標楷體:支援繁體漢字台灣規範,不支援臺語注音符號以及許多台語外字。
  • 微軟正黑體:支援繁體漢字台灣規範以及臺語注音符號,但不支援許多台語外字。

「著」的發音

教典台羅:tio̍h
萌典轉譯:ㄉㄧㄜㆷ˙
萌台語:ㄉㄧㆦㆷ˙
可能有一個轉譯規則漏掉了... (-oh 時的 ㆦ/ㄜ 選擇)

空格的用法:輸出到螢幕還是入候選字?

目前萌台語的空格是用來把所有的選擇上輸出到螢幕。

根據 sn00151200@PTT 的建議,可考慮輸出到候選字行的替代方案 (像是新注音輸入時畫底線的部分),讓選字更有彈性。

找不到發音的字/詞

目前總共有 522 組字/詞是教育部閩南語辭典查得到發音,但萌典沒有列出的。

這個檔案是這些字詞的列表。

這些詞條在教育部閩南語辭典上都僅提供發音,不提供釋義,可能是因為這樣使得在萌典無法正常顯示。

目前 rime-moetaigi 字典檔沒有收錄這些詞條。未來可能有兩種處理方案:

  1. 手動添加這些詞條的發音
  2. 在字典檔裡列出這些詞條但不加註發音。對於雙字以上的構詞,預設會採用順位最高的字音 (通常為白讀音) 作為詞音。至於單字構詞則是無解。

優先度較低但未來可改進的特徵

  • 非選字頁面時,按空白鍵輸入全形空格
  • 增加更多標點符號 (以 ` 當特殊符號的啟動鍵)
  • 追加閩南語辭典內附錄條目 (例如地名、捷運站名、人體部位名等等)
  • 追加涵蓋詞組的詞頻表
  • 第八聲只輸入輕聲作為聲調符號
  • 輸入帶調號的韻母 (台羅)
  • 日語假名輸入
  • 處理教典內記載的所有外來語詞
  • 定期與萌典 API 自動同步的功能
  • 模糊搜尋 (例如ㄅ可以當作ㆠ)
  • 隱藏在中文反查模式下,沒有台語注音的漢字顯示的漢語拼音
  • 在候選字列表中增加全注音的選項 (例如打ㄅㆭ˫ 可選擇輸出ㄅㆭ˫ )
  • 游標在候選佇列中往前滑時,把未翻譯的原始輸入翻譯成注音 (見 rime/librime#454)

未來預計加入的功能

  • 輸入 14 種基本標點符號
  • 直接打出注音
  • 增加常用外來語詞 (漢字/注音標示)
  • 更改字體 (見#5)
  • 更新詞頻表
  • 加入學習模式 (選項顯示注音)
  • 加入中文反查模式 (選項顯示注音)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.