本文介绍了一种称为位置(pi)的方法,可以将基于rope的预训练llm的上下文窗口大小扩展到32768个位置,并在各种任务上展示了强大的实证结果。该方法通过线性缩小输入位置索引来实现扩展,同时保持了模型在原始上下文窗口内的质量。通过位置插值扩展的模型保留了原始架构,并可以重复使用大部分预先存在的优化和基础设施。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/yun238508.html
本文介绍了一种称为位置(pi)的方法,可以将基于rope的预训练llm的上下文窗口大小扩展到32768个位置,并在各种任务上展示了强大的实证结果。该方法通过线性缩小输入位置索引来实现扩展,同时保持了模型在原始上下文窗口内的质量。通过位置插值扩展的模型保留了原始架构,并可以重复使用大部分预先存在的优化和基础设施。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/yun238508.html