杏彩体育科技股份有限公司-工程机械智能化解决方案

您好,欢迎来到杏彩体育科技股份有限公司官网!

联系电话0769-87921175 联系邮箱dglc17@126.com

新闻资讯  |   NEWS
用于逻辑回归的可解释性感知特征离散化的可视化系统

来源:小编  |  发布时间: 2026-05-06  |   次浏览

  

用于逻辑回归的可解释性感知特征离散化的可视化系统(图1)

  本发明属于人工智能和可视化,具体涉及一种用于逻辑回归的可解释性感知特征离散化的可视化系统。

  1、近年来,随着人工智能和机器学习技术的不断进步,各种黑盒模型被相继开发出来,在实践中展现出了强大的泛化性能,能够在复杂的数据集上取得高精度的预测结果。然而,尽管它们在技术上具有诸多优势,但由于缺乏令人信服的可解释性,这些黑盒模型在一些对透明度要求极高的敏感行业引发了广泛的争议和关注,模型的决策过程和依据往往需要能够被清晰地解释和理解。

  2、逻辑回归(logistic regression,lr)凭借其快速的计算速度、输出概率的能力以及高水平的可解释性,仍然在行业中处于中心地位。lr模型通过构建线性关系来预测目标变量的概率,其系数直接反映了自变量对因变量的影响方向和程度。这种直观的解释方式使得lr模型在决策支持和风险管理等方面具有得天独厚的优势。然而,作为线性模型,lr也存在一定的局限性,它无法有效地捕捉数据中的非线性模式,这限制了其在处理复杂数据集时的预测能力和适用范围。为了克服这一局限,研究者们开始探索通过透明特征工程(transparent feature engineering,tfe)来提高lr模型的性能。

  3、tfe旨在通过一系列技术手段,将原始数据转换为更适合lr模型处理的形式,同时保持模型的可解释性。其中,透明特征离散化(tfd)作为tfe的核心环节之一,对于lr模型捕获非线性特征而不牺牲其可解释性具有至关重要的作用。tfd过程的主要任务包括选择合适的特征、均匀地对特征进行分箱、计算每个箱子内的正例率、估计非线性、对特征进行离散化、训练lr实例,以及比较和管理这些实例。通过这一过程,可以将原始数据中的连续特征转换为离散的类别变量,从而简化模型复杂度,提高计算效率和可解释性。同时,通过合理划分分箱和计算正例率,可以捕捉特征与目标变量之间的非线性关系,进而增强lr模型的预测能力。

  4、然而,在实际操作中,tfd过程也面临着诸多挑战。其中,相对数据稀疏性(rds)和长尾分布(ltd)问题最为突出。rds是指由于分箱过程中每个分区内的样本量不足,导致阳性率的估计不稳定,进而影响到非线性趋势的准确判断。而ltd则是指数据分布的不均衡性,即少数几个分区占据了大量样本,而大多数分区则只有少量样本,这同样会干扰阳性率的计算和对非线性关系的识别。这些问题导致的阳性率非内在无序性,不仅增加了数据科学家判断的难度,也严重影响了tfd循环的有效性和效率。目前,尚未有一种可视化系统能够有效地辅助tfd过程,有待进一步开发和应用。

  1、鉴于上述,本发明的目的是提供一种用于逻辑回归的可解释性感知特征离散化的可视化系统,着重于可解释特征离散化,在保证数据分析的有效性的同时降低数据利用的技术门槛,基于模型演化模块的可视化视图,支持用户进行自主探索,实现在逻辑回归模型实例构建过程中不断比较和管理多个逻辑回归模型实例,基于特征评估模块和非线性模式评估模块的可视化视图进行信息的直观展示,方便用户捕捉特征非线性模式,并能够探索多个去离散化区域并用于调整离散化方案,从而提高逻辑回归模型的预测性能和可解释性。

  3、本发明实施例提供的一种用于逻辑回归的可解释性感知特征离散化的可视化系统,包括:

  4、模型演化模块,根据用户输入的样本的特征构建相应的逻辑回归模型实例作为基础模型,对基础模型或其生成的父类模型进行修改生成新的逻辑回归模型实例以建立逻辑回归模型实例的演变和优化过程并可视化为树状图,将逻辑回归模型实例作为节点,构建树状图中每个节点的复合图用于评估每个逻辑回归模型实例的性能以比较相邻实例的性能变化情况;

  5、控制模块,基于模型演化模块中构建的某个逻辑回归模型实例,在控制面板中展示和调节当前实例的相关参数和当前输入样本的特征概览,并支持用户进行参数调整和特征选择;

  6、特征评估模块,基于模型演化模块中构建的某个逻辑回归模型实例,根据控制面板所设置的离散化方案和输入特征对样本数据进行特征分区,计算所有特征分区内的样本量和阳性率信息,并可视化为折线图区域和直方图区域,用于捕捉特征非线、非线性模式评估模块,基于阳性率信息通过聚类算法计算得到非线性区域并可视化为散点图,与特征评估模块结合,提供了一个关于特征非线性模式的新视角,用于评估和调整离散化方案。

  8、优选地,在模型演化模块中,逻辑回归模型实例的演变和优化过程的树状图呈现为二叉树图,共有一个根节点,每个父节点支持在它之后生成一个或两个子节点,二叉树图的每个节点都被可视化为一个表示逻辑回归模型实例的复合图,当构建新的逻辑回归模型实例时,树状图将随相应的复合图节点而增长;

  9、其中,根节点的复合图包括一个交互式文本元素、一个外环和一个雷达图,子节点的复合图包括一个交互式文本元素、一个外环和两个雷达图;交互式文本元素包括逻辑回归示例的命名,点击交互式文本元素以选中根节点或子节点代表的逻辑回归模型实例,并支持单独放大展示对应的复合图;外环中的每一段代表输入的一个对应特征,每一段的大小代表特征对逻辑回归模型实例的相对贡献,每一段的颜色深度代表特征效果的绝对强度;通过根节点复合图中的一个雷达图展示根节点的逻辑回归模型实例的性能;通过子节点复合图中的两个雷达图分别展示子节点及其父节点的逻辑回归模型实例的性能。

  10、优选地,逻辑回归模型实例的性能包括:准确度、精度、召回率、f1-分数和归一化熵。

  11、优选地,在树状图的生成过程中,从所选节点对应的复合图右边缘绘制一条曲线,表示下一个逻辑回归模型实例的另一个复合图将绘制在该曲线的末尾,当下一个逻辑回归模型实例对应的复合图将超出预设视图范围或将发生重叠时,则自动绘制水平线而不是曲线,以避免可能出现的视图错位,若下一个逻辑回归模型实例未能绘制出预期的复合图,则相应的曲线、优选地,在特征评估模块中,折线图区域包括由两条不同颜色的曲线构成的图形以及由灰色和彩色两种类型的色块构成的图形叠加而成,y轴表示阳性率的大小,x轴表示特征分区的编号;两条不同颜色的曲线分别表示原始的阳性率数据以及由sg滤波器处理过的阳性率数据;灰色类型的色块作为背景用于表示该特征分区内的样本量不足且阳性率表达的置信度低;彩色类型的色块基于正确率过滤及其聚类标签绘制,其宽度表示相应区域的范围,高度表示特征分区内阳性率的范围,不同颜色表示不同的聚类标签。

  13、优选地,每个色块内部根据纵坐标的最大值、上四分位数、中位数、下四分位数和最小值进行区域划分,在上四分位数和下四分位数之间的区域的高度越大表明该区域的上下四分位数间隔越大,说明该区域的样本越分散,该区域是线性的,反之,则说明该区域的样本越集中,该区域是非线、优选地,在特征评估模块中,直方图区域包括直方图、直方图上部的复合图示和交互式背景色块;直方图的y轴表示样本量大小,x轴表示 特征分区的编号,直方图的高度表示该特征分区内的样本量,直方图的颜色表示了该特征分区内阳性率的置信水平,根据样本量是否达标将直方图编码为不同颜色;直方图指标线上部的复合图示由一条直线和一个点组成,直线的长度表示阳性率波动值的大小即过滤后的各区间阳性率的一阶差,用不同颜色和方向表示波动值为负值或正值;交互式背景色块在灰色和透明之间交替出现,通过鼠标触摸显示色块周围的虚线,色块的宽度表示当前被离散化的区域,并且色块之间支持互动,用户通过直接拖动色块来控制其宽度,并更新由决策树创建的离散化方案。

  15、优选地,在非线性模式评估模块中,散点图与特征评估模块中的折线图区域共享y轴,散点图的x轴显示阳性率波动值,通过将阳性率波动值以及每个特征分区中的阳性率的sg过滤值作为二维特征输入到k-means聚类模型得到聚类后的点簇,将点簇以散点图的形式呈现并用于观察数据的多个非线、优选地,在非线性模式评估模块中,还包括控制区,支持用户通过控制区修改聚类算法中聚类的簇数量,支持点击重新着色按钮以更新色块 的颜色数量,支持点击保存按钮保存当前离散化方案并上传至控制模块。

  17、优选地,在控制模块中,支持通过控制面板展示和调节当前通过模型演化模块的树状图中所选定的逻辑回归模型实例的相关参数,相关参数包括区间、窗口大小、等级、树深度调节、离散化和预测,其中,区间表示连续数据应该被分割成伪静止的历时,历时的大小称之为区间,窗口大小表示适用于sg滤波器的滑动窗口大小,等级表示sg滤波器多项式的等级,树深度调节表示调节树的深度,适用于离散化中cart算法的训练,点击离散化触发离散化命令,点击预测则开始系统运行;支持对不同的特征显示特征概览,支持选择当前特征的范围并点击输入按钮输入特征,并支持点击获得详细信息按钮获取特征详细信息。

  19、本发明通过直观、高效和智能的可视化系统界面功能设计,使得数据科学家在选择特征、构建、比较和管理逻辑回归模型实例的循环中显著减少工作量,并且通过可视化中的非线性识别功能设计允许数据科学家基于sg滤波器和k-means算法识别非线性,支持交互式调整离散化方案,避免了相对数据稀疏性和长尾分布带来的风险。


上一篇: 开途科技完成北美市场首秀 具身智能战略落地全球化新征程
上一篇: 从技术突破到品牌引领华为玄玑感知系统发布引领数字健康新时代