Skip to content

词库系统

词库系统

核心词库

核心词库放在 ~/Library/Rime/dicts/,在方案里用 dicts/ 前缀引用。

词库条目数内容
dicts/zi~51k字表,所有汉字及拼音
dicts/jichu~1474k核心词汇,2-3 字词为主
dicts/lianxiang~366k联想词汇,5 字以上长词组
dicts/cuoyin~156常见错音纠正
dicts/duoyin~5.4k多音字兼容处理
dicts/shici~328k古诗词,唐宋元明清全覆盖
dicts/diming~71k地名,省市县级
dicts/renming~65k人名,历史及现代
dicts/wuzhong~72k物种名称

外挂词库

外挂词库不直接塞进仓库。流程是:

  1. CI 构建
  2. 上传到 Cloudflare R2
  3. 本地通过 gins-rime update 或 Swift CLI 的 update 下载
  4. gins.dict.yaml 聚合进主词典

tone_moe(萌娘百科)

来源:moetype/Moegirl-RIME

补 ACG 相关词。动漫、游戏、VTuber、圈内简称主要都在这里。

zhwiki(维基百科标题)

来源:Wikimedia dump zhwiki-latest-all-titles-in-ns0.gz

从中文维基百科标题里提词。构建时会经过 OpenCC 转成简体,只保留正文命名空间下适合当词条的标题。

过滤规则:

  • 只取 ns=0(正文命名空间,排除 Template/Category 等)
  • 排除含 /( 的标题(子页面、消歧义页)
  • 长度 2–20 字

gins-shici(古诗词补充)

来源:chinese-poetry/chinese-poetry

补核心词库里没有的诗句和词牌名。构建时会先去重,再转简体。

中英混输

这里一共三块,处理方式不一样:

dicts/cn&en

核心自带,约 1868 条。
收录 U盘B站WiFi 这类常见中英混合词,直接进 import_tables

en_dicts/cn_en.txt

雾凇提供,约 1000 条。
这是 tabledb 格式,编码不是带调拼音,所以单独挂成 table_translator@cn_eninitial_quality: 0.5

melt_eng

雾凇英文词库,约 25k 条。
enen_ext 组成,挂成 table_translator@melt_enginitial_quality: 1.1