向你的语言模型发出你的声音:监督微调

Discuss smarter ways to manage and optimize cv data.
Post Reply
suchona.kani.z
Posts: 387
Joined: Sat Dec 21, 2024 5:37 am

向你的语言模型发出你的声音:监督微调

Post by suchona.kani.z »

然后,模型从来源接收信息并制定答案。 Gemini 还可以使用脚注来指示当前引用的来源。

语言模型是分层训练的。在监督微调期间,会添加另一层。这是通过为模型提供进一步的示例问题和答案并基于它们进行重新训练来实现的。通过影响这些例子,我们塑造了模型的知识和响应方式。训练数据必须能够代表模型将要执行的任务类型。

Google Cloud 只允许对 20 个示例进行微调,但根据应用程序,您应该将训练数据集中的示例设置为 100-500 个示例。

因此,当系统提示中的示例不充分、数据基础一致并且您有一些时间进行训练和训练数据时,有监督的微调是理想的选择。但是,如果要求发生变化,则必须进行新的培训。

好与更好的区别:来自人类反馈的强化学习
任何曾经从事过语言模型训练工作的人可能都听说过 Human in the Loop。这个想法是 护士电子邮件列表 让真人在训练过程中提供关于哪个模型答案最好的反馈。

Google Cloud 提供了在进一步训练模型时使用此策略的机会。训练数据集不是像监督微调那样简单地使用问题-答案对,而是由每个问题的两个答案组成。两者都可以接受,用户选择更适合的答案。通过这种方式,模型学习适应一个人想要的风格。当很难准确地用语言表达完美答案是什么样子并且可接受的答案和出色的答案之间只有细微的差别时,这尤其有用。 Google Cloud 的 USP。

模特的灵动小妹妹:法学硕士的升华
蒸馏时,我们使用一个大型的综合模型,例如Gemini Pro 1.5,并将其设置为在特定方面训练较小模型的任务。由于大模型在较小模型的训练中专注于指定任务,例如特别正式的寻址,因此小模型变得特别擅长这些任务,并且由于其较小的尺寸,也比其较大的姊妹模型更快。训练完成后,仅使用速度更快的专用模型。

任何曾经对 Google Gemini Flash 1.5 的惊人速度感到震惊的人可能已经猜到了:Gemini Flash 1.5 是 Google 当前旗舰产品 Gemini Pro 1.5 的精华。

通过训练新模型,这比有监督的微调模型具有更大的可塑性,但也更昂贵。您可以蒸馏任何模型;Google Cloud Vertex AI 直接为此提供了蒸馏管道。

例如,由于速度的提高和可定制性的提高,精炼模型通常是支持台中的聊天机器人的正确选择。然而,与微调一样,如果不重新启动该过程,则随后无法更改任何信息。

世界上最好的:针对制药行业的提案
读到这里的任何人可能想知道,如果需要来源参考或需要更新信息,是否不需要任何形式的培训。事实并非如此。

举一个具体的例子,我们来看一下制药行业。优化的语言模型尚未用于那里的市场准入,但潜力巨大。

在德国,根据药品重组法案(AMNOG),每种药物在批准后都必须经过成本效益分析。为此,向联邦联合委员会提交了一份包含一千多页的益处档案,该委员会参考了批准及之后的各种研究,以证明新药的益处。

在这种情况下,必须明确哪些信息与哪些研究相关,并且每种药物都有自己的研究。此外,研究的结构良好且均匀,因此非常适合细分为矢量数据库,然后由 RAG 系统检索。
Post Reply