利用網絡公開的巴利三藏及譯文,斷句並統一編號,製成平行語料庫,作為自然語言處理及機器學習的基礎數據。
node md [集名]
集名 缺省為 cs
- VRI巴利三藏 cs Github存庫
- SuttaCentral 英譯 sc Github存庫
- 元亨寺 南傳大藏經 cs-yh Github存庫
- 光明寺経蔵 cs-kmj Github存庫
- 巴利佛典译丛 cs-hz Github存庫
- 蕭式球 cs-xsq Github存庫
- 莊春江 cs-ccc Github存庫
- 菩提比丘 cs-bb Github存庫
- 緬譯 Tipitaka Myanmar cs-mm Github存庫
- 北京大學 cs-mm Github存庫
- 轉換文件格式並統一為緬甸版段落號碼。
- 逐句對齊,對齊工具
- 打包成全文數據庫
- PWA 瀏覽界面 (本程序)
- 由於數據轉換之後必然有滯後性,不能立刻反映原譯作,倘若文字有出入,以原譯者網站公布為準。
- 嚴謹學術場合,請務必回查原譯文。
- 所有數據結構及轉換程序以 Creative Common Zero 釋出,唯譯文必須尊重各譯者聲明的授權方式。
- 第一層:長、中、相應、增支各部
- 第二層:長部及中部的經,相應部的相應,增支部的集
- 第三層:緬甸第六次結集的段落號。
- 第四層:句,平行語料的最小單元。
build-redbean to create dist/sz.com
deploy sz.com and *.ptk