电池论文记录 | 大概是个博客

论文电池特征工程随机森林数据同质和异质性数据处理联邦学习 admm 隐私保护

论文

发布日期: 2025-03-02

文章字数: 1.8k

阅读时长: 6 分

阅读次数:

实现过程

**1.**电池采集原始数据（充放电电压，容量，IC曲线等）做特征工程，提取30个特征点

**2.**根据特征工程数据集通过同质或异质划分数据集，先对数据集添加噪声，随后将数据分发到各个客户端，客户端对数据进行重采样后进行本地训练。

为了解决数据稀缺性问题，研究采用了数据增强技术。具体方法是对每个电池类别的数据进行重采样（Bootstrap），通过有放回采样的方式，增加每个类别的数据量，最终将每个类别的数据扩展到200条记录。
高斯噪声添加：为了进一步保护隐私，并验证模型对噪声的鲁棒性，在增强后的数据上添加了随机高斯噪声，噪声强度由噪声-信号比（NSR）控制，范围从1%到10%。这种噪声的加入是为了评估模型在不同隐私预算下的表现。
数据集被分为训练集和测试集，分别按照80%和20%的比例进行划分。此外，在训练集中再进行40%的二次划分，用于交叉验证。
数据的划分采用分层抽样的方式，确保在每个客户端的数据样本分布中，各个电池类别都有足够的代表性。

同质 (Homogeneous)

定义：同质集成指的是集成模型中的所有基学习器都是同一种类型的模型。在随机森林中，所有基学习器通常都是决策树，因此随机森林本身是一个同质集成模型。
特点：虽然所有基学习器都是决策树，但通过对数据集进行不同的采样（即通过引入随机性，如数据采样和特征选择），每棵决策树的结构和预测结果可能会有所不同。这种通过随机性引入的差异使得同质集成的模型在一定程度上具有多样性。

例子：

随机森林的每个基学习器都是决策树，虽然它们的模型形式相同，但由于每棵树基于不同的数据子集和特征子集构建，因此形成了同质集成。

异质 (Heterogeneous)

定义：异质集成是指集成模型中的基学习器由不同类型的模型组成。在这种情况下，集成模型会结合多种不同类型的算法来构建。例如，你可以结合决策树、支持向量机（SVM）、神经网络、k近邻算法等模型。
特点：由于不同类型的模型通常具有不同的假设和表现，异质集成模型能够通过结合不同的模型优势，提高整体的预测性能和稳健性。这种方法通常被称为“堆叠（stacking）”或“集成学习”的一种复杂形式。

例子：

使用决策树、逻辑回归和支持向量机来创建一个集成模型。不同模型的预测结果可以通过投票、平均或堆叠来聚合。

区别总结：

同质集成：所有基学习器都是相同类型的模型（如随机森林中的所有树都是决策树）。
异质集成：基学习器由不同类型的模型组成（如组合决策树、SVM、神经网络等）。

随机森林是一种典型的同质集成模型，通过引入随机性（如随机选择特征和样本）来增加模型的多样性，从而提升整体表现。

3.使用WDV投票机制，将每个客户端中的结果进行聚合，参与者上传给中心服务器的并不是随机森林模型的原始参数或训练数据，而是每个参与者在本地随机森林模型上预测的结果。随机森林的聚合通常是通过投票，平均法或bagging等方法对每个随机森林的最后预测结果进行聚合，以投票法为例，可以理解为取随机森林结果中概率最大的那个预测结果。

本地模型训练与预测结果生成

每个参与者使用本地数据集训练一个随机森林模型。这些随机森林模型基于本地数据进行训练，而不与其他参与者的数据共享。