基本方法论考虑

Discuss smarter ways to manage and optimize cv data.
Post Reply
suchona.kani.z
Posts: 387
Joined: Sat Dec 21, 2024 5:37 am

基本方法论考虑

Post by suchona.kani.z »

总结到底是什么?一个很好的解释是:“摘要是对内容进行简短概括的名称,不带任何评价性成分。摘要或目录包含[完整作品]的所有重要部分。它必须考虑到可能最重要的方面并忽略其他方面,因为根据定义它应该比整个作品短。 […]它应该提供快速概述[…]。(来源: https: //definition.cs.de/summfassung/)这清楚地表明:摘要应该简短,并精简到要点,并提供价值-免费概述。到底什么是“短”,什么是“本质”,仁者见仁,智者见智,因此是非常不同的。

当出版经过正式质量流程的作品(例如一本书或一篇科学文章)时,长度已确定为 150 至 250 个字。如下图所示,一些学术期刊甚至提出了实质性要求。下图通过“引导总结”展示了这样的规范。这里首先解释本出版物的原因(目的),然后解释研究方法(设计/方法/途径)、结果(发现)、发现或局限性(研究局限性/影响)以及科学附加价值(原创性/价值)被考虑。



特别是近年来,格式“TL;DR”=“太长;未读”被强制执行(见图 2)。在此示例 医疗邮件列表 中,编辑器指定了大约 5 个缝合句子的准则,每个句子的最大长度为 85 个字符(包括空格)。


图 2:《国际信息管理杂志》中的 TL;DR 格式示例。这两个角色模型应该作为根据既定指南设计机器摘要的起点。

法学硕士总结时面临的挑战
假设输入具有干净的数字化文本格式,因此在各种中间过程中不易出错,则会出现以下挑战:

技术性质的机器总结挑战概述
挑战 描述
上下文长度 法学硕士倾向于更好地利用文本输入(=上下文)开头或结尾的内容,而不是中间的内容。即,高上下文输入会带来性能损失的风险。
经济因素 成本乘数是及时发出指示和持续处理摘要文本。
处理时间 迭代方法无法并行化。
幻觉 法学硕士倾向于从他们的世界知识中汲取知识并添加一些东西。
指定摘要的范围 博客文章的下一部分将详细介绍这一点。
及时工程 博客文章的下一部分将详细介绍这一点。
品质因素 博客文章的下一部分将详细介绍这一点。
艺术
从技术上来说
从技术上来说
从技术上来说
从技术上来说
从技术上来说
从技术上来说
从技术上来说
挑战:上下文长度
上下文长度是法学硕士可以捕获和处理的最大允许文本输入(以标记大小衡量)。各种性能特征在这里得到发展。例如(按时间顺序排列):

夜光:最多 2,048 个代币
GPT-3.5 Turbo:最多 16,000 个代币
GPT-4:32,000 个代币
Claude:最多 100,000 个代币
这些数字意味着什么?我们可以使用以下类比:GPT-4 适合一篇优秀、清晰的博士论文,而 Claude 适合几本《哈利·波特》书籍。当前发展的趋势表明上下文长度的延长,并导致这样的假设:这自然会更好。
Post Reply