词库系统
词库系统
核心词库
核心词库放在 ~/Library/Rime/dicts/,在方案里用 dicts/ 前缀引用。
| 词库 | 条目数 | 内容 |
|---|---|---|
dicts/zi | ~51k | 字表,所有汉字及拼音 |
dicts/jichu | ~1474k | 核心词汇,2-3 字词为主 |
dicts/lianxiang | ~366k | 联想词汇,5 字以上长词组 |
dicts/cuoyin | ~156 | 常见错音纠正 |
dicts/duoyin | ~5.4k | 多音字兼容处理 |
dicts/shici | ~328k | 古诗词,唐宋元明清全覆盖 |
dicts/diming | ~71k | 地名,省市县级 |
dicts/renming | ~65k | 人名,历史及现代 |
dicts/wuzhong | ~72k | 物种名称 |
外挂词库
外挂词库不直接塞进仓库。流程是:
- CI 构建
- 上传到 Cloudflare R2
- 本地通过
gins-rime update或 Swift CLI 的update下载 - 由
gins.dict.yaml聚合进主词典
tone_moe(萌娘百科)
补 ACG 相关词。动漫、游戏、VTuber、圈内简称主要都在这里。
zhwiki(维基百科标题)
来源:Wikimedia dump zhwiki-latest-all-titles-in-ns0.gz
从中文维基百科标题里提词。构建时会经过 OpenCC 转成简体,只保留正文命名空间下适合当词条的标题。
过滤规则:
- 只取 ns=0(正文命名空间,排除 Template/Category 等)
- 排除含
/、(的标题(子页面、消歧义页) - 长度 2–20 字
gins-shici(古诗词补充)
来源:chinese-poetry/chinese-poetry
补核心词库里没有的诗句和词牌名。构建时会先去重,再转简体。
中英混输
这里一共三块,处理方式不一样:
dicts/cn&en
核心自带,约 1868 条。
收录 U盘、B站、WiFi 这类常见中英混合词,直接进 import_tables。
en_dicts/cn_en.txt
雾凇提供,约 1000 条。
这是 tabledb 格式,编码不是带调拼音,所以单独挂成 table_translator@cn_en,initial_quality: 0.5。
melt_eng
雾凇英文词库,约 25k 条。
由 en 和 en_ext 组成,挂成 table_translator@melt_eng,initial_quality: 1.1。