Roselia~ fighting~(﹡ˆᴗˆ﹡)♡
transformer学习记录 transformer学习记录
transformer学习记录1. 注意力机制重点:词嵌入机制(embeddings) 1.1 embeddings机制 对于上述遇到的一些具体歧义的单词时,如Apple,既可以代表水果,也可以代表苹果品牌。传统的embeddings技术如
2025-03-10
模型剪枝 模型剪枝
符号 定义 在 PruneFL 中的角色 ⊙ 两个向量的逐元素乘积 用于掩码操作,例如将参数向量与掩码向量相乘,保留重要参数,剪枝不重要参数。 n, N 客户端索引(单个设备)、客户端总数 表示参与联邦学习的边缘设备,N 是
2025-03-07
DLADMM算法 DLADMM算法
3 DLADMM算法3.1将原有的深度学习的目标即损失函数转化为一个优化问题 首先介绍了深度学习网络的基本结构以及反向传播算法,其次定义了优化问题1即损失函数,通过最小化损失函数来接近正确值,同时为了防止过拟合,引入了正则化项,为了确保优
2024-10-20