第293章 最新兴叠加时代方向-《短线搏杀》
第(2/3)页
目前已成为aigc大模型的主流架构,但随着模型规模的扩展和需要处理 的序列不断变长,t
a
sfo
me
的局限性也开始凸显,例如模型中自注意力机制的计算量会随着上下文长度的 增加呈平方级增长,导致计算效率持续降低。近日一篇研究论文提出,mamba在语言任务上击败/匹配t
a
sfo
me
性能,具有线性复杂度和5倍推理吞吐量,是通用序列模型骨干的有力候选者。公司一直对ai技术领域的发展动态保持高度敏感和关注,并持续学习,希望利用领先且可用的技术不断迭代和优化i
sightgpt。公司研发团队正在对mamba模型进行调研和分析,初步认为其在快速训练和推理以及特定任务性能方面确实显示出较大潜力,但对长文本提问的回复质量可能弱于t
a
sfo
me
第(2/3)页