雷夫托马斯·曼承诺帮助他寻找出版商
Posted: Sat Feb 08, 2025 4:28 am
然而,该项目更进一步,除了提到的索引之外,还通过针对“流放”主题的同义词库提供了信件的主题索引。这本同义词典是根据流亡时期的信件编写的,经过仔细阅读 后,使用最合适的关键词将其内容汇总在一起,例如“家”、“经济困难”、“内心生活”、“成功”或“团结”。如果一个关键词也代表其他字母的内容,则认为该关键词与语料库相关。通过这种归纳法,逐渐建立了一个主题词库,目前包含大约 500 个关键词,并且可以进一步修改和添加。这个›流放词库‹构成了信件主题索引的基础,该索引通过半自动化过程完成。为此,首先确定每个字母的语言。该语料库包含德语、法语和英语信件——这也反映了流亡的特殊性,这种特殊性导致了部分被迫、部分自愿的语言变化。随后,每个字母被分解成其词形,并用词性标注器[12]进行处理 ,如果能够识别,则标注器会确定每个词形的词性和词形还原形式。现在,从经过处理的文本中提取所有名词
下一步,删除所有在 XML 标记过程中已经标记为人物、地点等的词元[13] 。最后,确定每个名词的逆文档频率,以便与整个语料库相比评估其在字母中的特殊性。使用现有的同义词库(例如 OpenThesaurus)和单词列表(例如Wortschatz des Deutschen) 及其存储的同义词,为每个提取的关键词生成一个选择列表,该列表建议从同义词库中分配一个可能合适的关键词:例如,将关键词›感觉‹与关键词› 阿塞拜疆电报数据 内心生活‹链接起来,或将关键词›祖国‹与关键词›家‹链接起来。但是,也存在不正确或误导性的归因建议,例如建议将关键字›谓词‹与关键字›审查‹联系起来,
或将关键字›文章‹(表示期刊出版物)与关键字›支持‹、›费用‹联系起来。因此,主题预构建之后是进一步的手动或智力工作步骤,其中考虑到各自的背景,作业建议被视为有用的而被接受或被视为不可用而被拒绝。[14]在后一种情况下,可以对主题词库的关键词进行单独分配;也可以根据关键词的发现对流亡词库进行任何必要的扩展。通过将字母与此流放同义词库中的条目链接起来,可以创建一个强大的索引内容工具。只有主题丰富了,搜索才有可能——例如,对于关键词“谨慎”——不仅返回单纯的全文搜索的纯句法匹配,而且还返回信件中的段落,例如“与此同时,对我们来说,最重要的是,你立即告诉 W 主任:他应该对所有人严格保密莉莉的生活计划。” [15]
下一步,删除所有在 XML 标记过程中已经标记为人物、地点等的词元[13] 。最后,确定每个名词的逆文档频率,以便与整个语料库相比评估其在字母中的特殊性。使用现有的同义词库(例如 OpenThesaurus)和单词列表(例如Wortschatz des Deutschen) 及其存储的同义词,为每个提取的关键词生成一个选择列表,该列表建议从同义词库中分配一个可能合适的关键词:例如,将关键词›感觉‹与关键词› 阿塞拜疆电报数据 内心生活‹链接起来,或将关键词›祖国‹与关键词›家‹链接起来。但是,也存在不正确或误导性的归因建议,例如建议将关键字›谓词‹与关键字›审查‹联系起来,
或将关键字›文章‹(表示期刊出版物)与关键字›支持‹、›费用‹联系起来。因此,主题预构建之后是进一步的手动或智力工作步骤,其中考虑到各自的背景,作业建议被视为有用的而被接受或被视为不可用而被拒绝。[14]在后一种情况下,可以对主题词库的关键词进行单独分配;也可以根据关键词的发现对流亡词库进行任何必要的扩展。通过将字母与此流放同义词库中的条目链接起来,可以创建一个强大的索引内容工具。只有主题丰富了,搜索才有可能——例如,对于关键词“谨慎”——不仅返回单纯的全文搜索的纯句法匹配,而且还返回信件中的段落,例如“与此同时,对我们来说,最重要的是,你立即告诉 W 主任:他应该对所有人严格保密莉莉的生活计划。” [15]