微软、清华和中国科学院大学共同推出专为大语言模型设计的 BitNet 架构

2023.10.19

据品玩 10 月 19 日报道，Arxiv 页面显示，微软研究院联手中国科学院大学、清华大学共同发布论文，公布了一款可扩展且稳定的 1 位 Transformer 架构 BitNet 架构。BitNet 专为大语言模型设计。研究团队表示，为了训练 1 位权重，团队引入了 BitLinear 作为 nn.Linear 层的替代品。实验结果显示，BitNet 在语言建模任务上实现了竞争力的性能，同时显著减少了内存占用和能源消耗。

此外，BitNet 呈现出与全精度 Transformer 类似的扩展定律，表明它有潜力在保持效率和性能优势的同时，扩展到更大的语言模型。

原文链接

免责声明:数字资产交易涉及重大风险，本资料不应作为投资决策依据，亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考，不构成任何投资建议，用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

微软、清华和中国科学院大学共同推出专为大语言模型设计的 BitNet 架构

加⼊OKEx全球社群

相关推荐