上古汉语语料库

上古汉语语料库

lingcorpus.iis.sinica.edu.tw

更新: 2025-05-20
访问: 615,002次
访问网站

网站详情

基本信息

  • 收录时间 2025-05-20
  • 所属国家 中国
  • 全球排名 #-
  • 语言支持 中文
  • 费用类型 免费 + 高级订阅

功能评分

易用性 9.0/10
功能丰富度 8.8/10
内容质量 9.2/10
性价比 8.5/10

标签分类

AIGC工具导航 上古汉语语料库 训诂学 学术工具 甲骨文 语料库 音韵学 上古汉语 古汉语研究 分词标注 金文

详情介绍

站点名称:中央研究院上古汉语标记语料库


站点 URL:http://lingcorpus.iis.sinica.edu.tw/ancient/


Title


上古汉语语料库 - 权威古汉语研究资源平台

Keywords


上古汉语,语料库,古汉语研究,分词标注,甲骨文,金文,训诂学,音韵学,学术工具

Description


中央研究院上古汉语语料库提供先秦至西汉时期的权威文献检索与分析服务,支持分词、词性标注及语义标注,涵盖甲骨文、金文等原始语料,是语言学家、学者及学生进行古汉语研究的专业平台。

站点简介


中央研究院上古汉语标记语料库是古汉语研究领域的重要资源,由台湾中央研究院开发,旨在为学术界提供高质量的上古汉语语料支持。该语料库分为素语料库和标记语料库两部分,素语料库覆盖先秦至西汉的重要文献,如《诗经》《尚书》《左传》等;标记语料库则对部分文献进行分词、词性标注及语义标注,标注一致性高达 93.7%。用户可通过在线检索系统进行关键词查询、搭配分析、词类统计等操作,支持复杂检索表达式及批量下载功能。语料库还提供 API 接口,方便研究者整合数据进行深度分析。其权威性和专业性使其成为古汉语教学、辞书编撰及人工智能研究的重要工具。

核心功能


  1. 多维度检索:支持关键词、词头、词尾、词类及语义角色检索,可通过 “自订语料库” 功能限定文献范围,结合 “进阶处理” 筛选特定结构的例句。例如,用户可检索 “甲骨文 + 动词 + 宾语” 结构,分析上古汉语的句法特点。
  2. 标注与分析:提供分词、词性标注及语义标注数据,标注质量经过严格人工校正,支持词义消歧和历时演变分析。研究者可利用标注信息进行词汇、语法及语义的定量研究。
  3. 数据可视化:通过词频统计、共现分析等工具,直观展示词汇分布及语义关联,辅助学术发现。例如,用户可通过 “词类累计” 功能统计副词在不同文献中的使用频率
  4. 批量下载与 API 支持:支持检索结果批量下载(院外用户限 2000 行),并提供 API 接口,方便开发者整合语料进行二次开发

特点优势


  1. 权威性与专业性:由中央研究院团队建设,语料来源权威,标注标准统一,与 EvaHan2022 基测集的分词一致性达 93.7%,词性标注一致性达 89.49%
  2. 技术创新:采用 Bi-LSTM 等深度学习模型优化分词和词性标注,结合领域适应方法提升标注性能,支持词义标注及多模态检索
  3. 功能全面:相比 CCL 语料库(生语料库,未标注)和 BCC 语料库(侧重现代汉语),该语料库在古汉语标注深度和学术支持上更具优势,尤其适合上古汉语的精细化研究
  4. 开放与协作:语料库持续更新,逐步开放更多标注数据,并与学界合作推动古汉语知识库的建设,如参与 “基于上古汉语语义知识库的历史语法与词汇研究” 课题

适用人群


  1. 语言学家与学者:用于上古汉语词汇、语法、语义的定量分析,支持学术论文撰写及古籍整理研究。
  2. 高校师生:可作为古汉语教学辅助工具,帮助学生理解古籍文本的语言结构和历史演变。
  3. 人工智能研究者:提供标注数据用于训练古汉语分词、词性标注及语义角色标注模型,推动古汉语自然语言处理技术发展
  4. 文化遗产保护者:辅助甲骨文、金文等出土文献的释读与数字化保护,促进传统文化研究。

使用指南


  1. 检索操作
    • 进入 “自订语料库” 选择文献范围(如《诗经》《尚书》)。
    • 在 “内容检索” 输入关键词或表达式(如 “之 + 结构助词”),点击 “检索” 获取结果。
    • 利用 “过滤” 功能按词类、词长等条件筛选数据,通过 “统计” 按钮生成词频报告

  2. 标注查看
    • 检索结果页面显示分词、词性及语义标注信息,点击例句可查看上下文。
    • 使用 “进阶处理” 中的 “搭配查询” 功能,对比不同动词的共现名词频次

  3. 数据导出
    • 点击 “下载” 按钮保存检索结果为 txt 文件(院外用户限 2000 行)。
    • 开发者可通过 API 接口获取结构化数据,用于编程分析


常见问题及解决方案


  1. 检索结果为空
    • 检查关键词拼写或表达式语法,确保符合语料库的检索规则(如使用 “+” 表示间隔)。
    • 扩大检索范围,尝试不指定文献或词类条件。

  2. 标注信息不全
    • 部分文献尚未完成标注,可切换至素语料库进行原始文本检索。
    • 联系管理员反馈需求,参与标注协作计划。

  3. 下载限制
    • 院外用户单次下载上限为 2000 行,如需更多数据可申请院内访问权限。
    • 使用 API 接口实现自动化数据获取

  4. 检索速度较慢
    • 减少检索条件或分批次查询,避免同时运行多个复杂任务。
    • 刷新页面或联系技术支持优化服务器性能。


相关产品推荐


  1. 北京大学汉语史标注语料库(PACC):覆盖先秦至清代文献,提供典籍精校、句法树可视化等功能,适合汉语史及语法研究
  2. CCL 语料库:包含古代汉语和现代汉语生语料,支持模式查询和批量下载,适合原始文本分析
  3. 汉典:综合性古汉语工具网站,提供字词解释、音韵演变及古籍原文检索,适合基础查询
  4. 识典古籍:结合 AI 技术的古籍整理平台,支持自动标点、翻译及实体识别,适合非专业用户
  5. BCC 语料库:包含 20 亿字古汉语语料,支持历时检索和统计功能,适合跨时代语言对比

特色功能

AI图片生成

支持自由姿势的商品种草图生成,批量产出差异化、氛围感的商拍图

AI文案优化

基于商品信息自动生成高转化率的种草文案,适配不同平台风格

虚拟模特训练

提供丰富的商用AI模特库,支持用户训练专属虚拟模特形象

图片处理工具

集成一键美图、换装、去水印、高清修复等功能,快速提升图片品质

相关推荐

中古汉语语料库

中古汉语语料库

http://lingcorpus.iis.sinica.edu.tw/cgi-bin/kiwi/dkiwi/kiwi.sh

中古汉语语料库由台湾中央研究院开发,提供东汉至隋代的 1000 万字原始语料及深加工标注资源。支持字词检索、异文对比、词...

AIGC工具导航

先秦史研究室

http://www.xianqin.org/

中国社会科学院先秦史研究室官网,专注先秦历史学术研究,提供甲骨文、青铜器等权威史料,结合 AI 技术实现甲骨碎片智能缀合...

AIGC工具导航
经籍籑诂

经籍籑诂

http://www.homeinmists.com/Classic/index.html

《经籍籑诂》是清代阮元编纂的训诂学权威文献,本平台系统整合 106 卷古籍训诂资料,按韵部归类,提供唐代以前经史诸子的字...

AIGC工具导航

汉籍电子文献资料库

http://hanchi.ihp.sinica.edu.tw/ihp/hanji.htm

中央研究院汉籍电子文献资料库提供权威古籍数字化资源,涵盖经史子集 1173 种典籍,支持全文检索与免费访问,包含造字解决...

AIGC工具导航

用户评论 (2,348)

用户头像

张伟

2023-10-10

这是我用过最好的AI对话工具!写作助手功能太强大了,帮我节省了大量时间。特别是写报告和邮件时,它能快速生成高质量内容。

用户头像

李婷

2023-10-08

作为程序员,Copilot和ChatGPT是我每天必用的工具。ChatGPT在解释复杂概念和提供算法思路方面特别出色。强烈推荐!

用户头像

王教授

2023-10-05

我在教学中使用ChatGPT作为辅助工具,它能快速生成测验问题和解释复杂概念。但学生需要学会批判性思考,不能完全依赖AI的答案。