
网站详情
基本信息
- 收录时间 2025-05-20
- 所属国家 中国
- 全球排名 #-
- 语言支持 中文
- 费用类型 免费 + 高级订阅
功能评分
标签分类
详情介绍
站点名称:中古汉语语料库
站点 URL:http://lingcorpus.iis.sinica.edu.tw/cgi-bin/kiwi/dkiwi/kiwi.sh
Title
Keywords
Description
站点简介
核心功能
- 多维度检索:支持字词、词类、句法结构等检索,可自定义语料范围(如限定某部文献或特定历史时期),并提供词频统计、共现分析等功能。例如,研究者可通过 “异文发现” 功能对比《水经注》不同版本的文本差异,或利用 “词性标注” 功能分析中古汉语语法演变。
- 深加工标注:语料经过分词、词性标注、义项标注等处理,部分语料还包含句法分析和异文标注。例如,用户可直接检索标注为 “副词” 的词语,并查看其在不同语境中的语义变化。
- 出土文献支持:收录吐鲁番文献、长沙走马楼三国吴简等 100 万字出土文献,结合传世文献提供跨文本对比分析,助力考古学与文献学研究。
- 检索结果管理:支持按句或全文显示检索结果,院外用户可下载 2000 行数据,院内用户可下载 20000 行,便于后续统计与分析。
特点优势
- 权威性:语料经过严格校勘和三次人工复核,确保文本准确性,被《汉语大词典》第二版编纂团队采用,提供 10000 条核心复音词词表及 5040 条新词条建议。
- 技术创新:采用 PAT 数组和全局双序列比对算法,实现高效同文搜索与异文定位;分词系统结合中古汉语音韵、构字规则,显著提升分词准确率。
- 多库协同:校勘库、义项库、语法库等模块相互关联,例如检索某词语时,可同步查看其在不同文献中的校勘记录、义项演变及句法功能,形成立体研究视角。
- 用户友好:界面支持自订语料范围、过滤条件、排序方式等,提供词类累计、共现率统计等可视化工具,降低学术研究门槛。
适用人群
- 汉语史研究者:用于词汇、语法、音韵演变研究,例如通过 “历时检索” 功能分析某词语在中古时期的语义变化。
- 古籍整理专家:支持版本校勘、异文对比,例如利用 “异文发现软件” 识别《洛阳伽蓝记》不同抄本的文本差异。
- 辞书编纂者:提供高频词表、义项演变数据,辅助词条收录与释义修订,如《汉语大词典》第二版新增中古汉语词条多源于此库。
- 高校教师与学生:可作为教学资源,例如通过 “词性标注” 功能讲解中古汉语语法特点,或利用出土文献语料开展跨学科研究。
使用指南
- 检索流程:
- 进入官网后,点击 “自订语料库” 选择文献范围(如《后汉书》《水经注》),支持多文献组合检索。
- 在 “内容检索” 中输入关键词(如 “之”),可选择 “词项”“词类”“重叠词型态” 等检索条件,例如检索所有名词性 “之” 的用例。
- 使用 “进阶处理” 功能,设置过滤条件(如排除注释文本)、排序方式(如按出现频率降序),并可导出 CSV 格式结果。
- 标注查看:
- 检索结果中点击具体句子,可查看分词、词性标注、义项等信息。例如,某句 “蒲阪二汉晋《太康地志》属河东” 会被切分为 “蒲阪 / 地名”“二汉 / 朝代名” 等,并标注词性为 “名词”。
- 异文分析:
- 选择 “异文发现” 功能,上传待对比的文本文件,系统自动定位异文位置并生成对比报告,例如对比敦煌写本与传世本《世说新语》的异文差异。
常见问题及解决方案
- 检索结果为空:
- 原因:关键词拼写错误、语料范围未覆盖目标文本、检索条件过严(如限定词性错误)。
- 解决:检查关键词正确性,扩大语料范围(如勾选 “包含出土文献”),或调整检索条件(如取消词性限制)。
- 分词结果不准确:
- 原因:中古汉语存在大量异体字、通假字,自动分词可能误切。
- 解决:点击 “人工复核” 按钮,手动调整分词结果;或参考义项库标注,例如 “走” 在中古汉语中多为 “跑” 义,避免误切为 “行走”。
- 下载数据超限:
- 原因:院外用户单次下载上限为 2000 行。
- 解决:分批次检索下载,或通过站内 “数据申请” 通道提交研究需求,申请扩大权限。
- 疑难字显示异常:
- 原因:部分生僻字未被字库收录。
- 解决:点击字库图标,系统将自动替换为方正超大字符集或图片链接,例如 “?” 会显示为图片形式。
相关产品推荐
- CCL 语料库(http://ccl.pku.edu.cn):北京大学开发的古代汉语语料库,涵盖先秦至现代文本,支持字符串检索和模式匹配,适合基础研究。
- BCC 语料库(http://bcc.blcu.edu.cn):北京语言大学建设的大规模语料库,包含古汉语、文学、科技等领域,提供历时检索和统计功能,适合对比研究。
- 汉籍全文检索系统(https://hanji.sinica.edu.tw):台湾中央研究院开发的综合性古籍数据库,覆盖上古至近代汉语,支持多维度检索和文本比对,适合跨时代研究。
- fastHan 工具:基于 BERT 的古汉语分词、词性标注工具,支持与中古汉语语料库数据对接,可提升文本处理效率。
特色功能
AI图片生成
支持自由姿势的商品种草图生成,批量产出差异化、氛围感的商拍图
AI文案优化
基于商品信息自动生成高转化率的种草文案,适配不同平台风格
虚拟模特训练
提供丰富的商用AI模特库,支持用户训练专属虚拟模特形象
图片处理工具
集成一键美图、换装、去水印、高清修复等功能,快速提升图片品质
相关推荐

上古汉语语料库
http://lingcorpus.iis.sinica.edu.tw/ancient/
中央研究院上古汉语语料库提供先秦至西汉时期的权威文献检索与分析服务,支持分词、词性标注及语义标注,涵盖甲骨文、金文等原始...
简帛网
http://www.bsm.org.cn/index.php
简帛网是简帛学研究的权威平台,提供丰富的简牍帛书数字化资源、最新学术论文、会议资讯及专家访谈,助力中国古代文化研究。
用户评论 (2,348)
张伟
这是我用过最好的AI对话工具!写作助手功能太强大了,帮我节省了大量时间。特别是写报告和邮件时,它能快速生成高质量内容。
李婷
作为程序员,Copilot和ChatGPT是我每天必用的工具。ChatGPT在解释复杂概念和提供算法思路方面特别出色。强烈推荐!
王教授
我在教学中使用ChatGPT作为辅助工具,它能快速生成测验问题和解释复杂概念。但学生需要学会批判性思考,不能完全依赖AI的答案。