基于移动自回归的时序扩散预测模型
港大提出SparX:强化Vision Mamba和Transformer的稀疏跳跃连接机制
Mamba入局图像复原,达成新SOTA
准确性超Moshi和GLM-4-Voice,端到端语音双工模型Freeze-Omni
CNN, RNN, GNN和Transformer模型的统一表示和泛化误差理论分析
复旦提出大模型推理新思路:Two-Player架构打破自我反思瓶颈
浙大、微信提出精确反演采样器新范式,彻底解决扩散模型反演问题
经典图神经网络(GNNs)的基准分析研究
一种信息引导的量化后LLM微调新算法IR-QLoRA
适配器微调在推荐任务中的几个关键因素
OCR终结了?旷视提出可以文档级OCR的多模态大模型框架Vary,支持中英文,已开源!
再登Nature!DeepMind大模型突破60年数学难题,解法超出人类已有认知
NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界
ICLR 2024高分投稿:用于一般时间序列分析的现代纯卷积结构
GPT推断中的批处理(Batching)效应简析
DeepMind论文登上Nature:困扰数学家几十年的难题,大模型发现全新解
拆解大语言模型RLHF中的PPO算法
大规模神经网络优化:超参最佳实践与规模律
陶哲轩用 AI 形式化的证明究竟是什么?一文看懂 PFR 猜想的前世今生
星载传算能力——天地一体化网络在轨边缘计算产业发展的拦路虎