? 如何通过台湾数位图书馆工具集进行历史文献脉络分析?TreeMap 阶层图与词频统计实战教程
? 一、台湾数位图书馆工具集核心功能解析
? 二、TreeMap 阶层图:可视化文献主题脉络
- 数据导出:在 THDL 中检索目标文献,将检索结果以 CSV 格式导出,包含文献标题、关键词、年代等字段。
- 数据清洗:使用 Excel 或 Python 去除重复数据,合并同义词(如「田赋」和「地税」),确保统计准确性。
- 层级构建:根据研究需求确定层级结构。例如,以「朝代」为一级节点,「地域」为二级节点,「关键词」为三级节点。
- 可视化生成:将清洗后的数据导入 ECharts,使用 TreeMap 组件进行绘制。调整矩形颜色以区分不同朝代,面积大小代表关键词出现频率。
假设我们分析清代台湾的契约文书,TreeMap 可能显示:
- 最大矩形代表「乾隆朝」,其下细分「淡水厅」「彰化」等地域节点。
- 「淡水厅」节点中,「永佃权」「典契」等关键词占据较大面积,反映该地区土地制度的特点。
? 三、词频统计:挖掘文献隐性脉络
- 文献筛选:通过关键词、年代、作者等条件检索目标文献,形成自定义文献集。
- 统计设置:
- 分词精度:选择「精确模式」可避免误切(如「台湾府」不会被拆分为「台湾」和「府」)。
- 停用词过滤:排除「之」「乎」「者」等无实际意义的虚词。
- 词频阈值:设置最低出现次数(如 5 次),过滤低频词汇。
- 结果解读:
- 高频词列表:直接列出出现频率最高的词汇,如「番社」「开垦」可能在清代台湾文献中频繁出现。
- 词云图:通过字体大小直观展示词汇重要性,可快速识别研究热点。
- 对比分析:选择两个不同时期的文献集,比较词频差异,揭示社会变迁(如「洋行」在清末文献中的频率上升)。
- 语义关联分析:结合 中国历代人物传记资料库(CBDB),将人名与文献内容关联,分析人物在不同文献中的角色和影响力。
- 时间序列分析:按年代分段统计词频,绘制趋势图,观察词汇使用的动态变化。
?️ 四、工具组合:从数据到洞察的完整流程
- 文献检索与预处理:
- 使用 THDL 检索文献,导出为 TXT 格式。
- 通过 Markus 古籍半自动标记平台 标记人名、地名、时间等实体,提高后续分析精度。
- 可视化与脉络挖掘:
- TreeMap 生成:用 ECharts 绘制主题分布。
- 社会网络分析:将标记后的人名导入 Gephi,构建人物关联网络,识别关键人物和社群。
- 深度解读与验证:
- 结合 GIS 工具(如台湾百年历史地图),将文献中的地名标注在地图上,分析空间分布规律。
- 通过 文献引用分析(如 HistCite),追踪学术思想的传承脉络。
? 五、常见问题与解决方案
- 数据格式不兼容:
- 台湾数位图书馆导出的 CSV 可能存在编码问题,可在 Excel 中通过「数据 - 自文本/CSV」功能重新导入,选择 UTF-8 编码。
- 分词不准确:
- 对于古籍文献,可使用 CKIP 中文断词系统 或 Jieba 分词 进行自定义分词,提高精度。
- 可视化工具使用门槛高:
- 推荐使用 Tableau Public 或 Power BI 等低代码工具,内置 TreeMap 模板,降低技术难度。
? 六、实战案例:清代台湾契约文书分析
- 文献检索:在 THDL 中输入「清代 台湾 契约」,获取 1000 份相关文献。
- 词频统计:
- 高频词:「田面」「工本银」「胎借」等,反映土地租赁和借贷关系。
- 时间分布:「番界」一词在乾隆朝出现频率最高,与当时的拓垦政策相关。
- TreeMap 可视化:
- 一级节点:朝代(乾隆、嘉庆、道光)。
- 二级节点:地域(淡水、凤山、嘉义)。
- 三级节点:关键词(如「永佃」在淡水地区的占比显著高于其他地区)。
- 社会网络分析:
- 标记人名后,发现「陈赖章」「吴沙」等垦首在多个契约中出现,是当时的关键人物。
? 七、工具与资源推荐
- 台湾数位图书馆:https://thdl.org/(需注册)
- DocuSky 平台:https://docu.ntu.edu.tw/
- ECharts 在线工具:https://echarts.apache.org/zh/index.html
- Gephi 社会网络分析:https://gephi.org/
- CKIP 断词系统:https://ckiplab.org/