一、预测性模型中的一种数据挖掘算法(论文文献综述)
刘占玉[1](2021)在《基于数据挖掘的电力客户投诉预测模型研究与应用》文中进行了进一步梳理伴随电力市场改革的不断深入,人们对供电能力和服务品质的要求也日益提高。在大数据背景下,使用数据挖掘技术理解市场需求与客户诉求,全面提升供电服务质量,已成为各国家电网公司的共识。本文以某国家电网公司客户为研究对象,“95598历史工单”为数据基础,应用数据挖掘技术对电力客户投诉问题展开研究。主要研究工作如下:(1)为了给电力客户投诉预测模型挖掘有价值的特征,提出特征构建方法。分析电力客户投诉影响因素,结合“95598历史工单”数据特点和挖掘需求,提出从轨迹、时间、业务和客户情绪四个不同角度进行特征构建的思路,然后采用该思路设计了以数据挖掘技术为基础的特征构建方法。(2)针对电力客户工单存在正负样本严重不平衡的问题,提出基于SMOTE和贝叶斯优化算法改进的随机森林算法,即BSMOTE-RF算法。选择经典的数据挖掘分类算法与BSMOTE-RF算法进行实验对比分析,结果表明,BSMOTE-RF算法在大数据集上的分类精度及处理正负样本不平衡问题都优于SVM、朴素贝叶斯和随机森林算法。(3)利用BSMOTE-RF算法设计电力客户投诉预测模型,并将其应用于真实电力客户服务数据中,预测电力客户在未来是否会发起投诉。通过实验证明,该模型可以高效、精确的预测电力客户在未来是否会发起投诉,可以协助国家电网公司开展服务工作,提升客户满意度。提出的特征构建方法和BSMOTE-RF算法比较适合电力客户投诉预测,实验证明它们有助于高效的预测出电力客户是否会发起投诉。
张芷有[2](2020)在《基于数据挖掘的入侵检测方法的研究》文中指出随着信息和通信技术的飞速发展,人们对网络信息安全的关注度越来越高,因为任何的网络入侵或攻击行为都有可能造成严重的损失。目前,网络安全的主要防护措施有数据加密、防火墙技术以及入侵检测技术等,其中入侵检测技术不仅能够抵抗外部攻击行为,而且可以识别内部网络的异常访问或者攻击行为。由于网络运行过程中会产生大量的数据,因而数据挖掘技术在发现有价值的信息时起着关键的作用,因此将数据挖掘技术应用到入侵检测中具有无可比拟的优势。针对传统入侵检测方法中存在低检测率、高误报率和漏报率的问题,本文提出了一种基于模糊c-均值与支持向量机的集成式入侵检测方法。具体的研究内容和创新点如下:(1)本文重点研究了模糊c-均值算法的原理。针对模糊c-均值算法中存在容易陷于局部最优解的缺陷以及没有考虑到特征之间的重要程度存在差异性的问题,提出了使用信息增益比来作为特征重要性程度的判别指标,并将其融入到欧氏距离公式中。同时使用密度的方法来选择初始的聚类中心,防止该算法陷入局部最优解中。最后使用两种不同的数据集对改进的模糊c-均值算法进行验证,通过实验表明,与传统的模糊c-均值算法相比,改进的算法能够实现更好的聚类效果、降低了熵值并且适用于高维的数据集中。(2)本文提出了一种基于模糊c-均值与支持向量机相集成的入侵检测方法。该方法使用改进的模糊c-均值算法来构建高质量的小型训练数据集,这样能够显着地减少训练所需的时间并且提高了分类器的性能,然后使用支持向量机多分类算法进行训练来获得最佳的模型,并对测试集中的数据的攻击类型进行预测以及评估该方法的性能。本文使用NSL-KDD数据集进行实验,实验结果表明本文所提出的入侵检测方法能够准确地检测出各种攻击行为,并且降低了误报率和漏报率。
李天举,谢志峰,张侃弘,陶亦筠,范杰,汤臻[3](2020)在《基于集成学习的烟草异常数据挖掘研究与应用》文中研究表明为了推动上海市烟草专卖市场监管方式转型,实现市场监管水平的有效提升,通过引入异常数据挖掘方法,从而强化市场异动预测和分析。结合目前机器学习前沿理论的研究,提出了基于多模型Stacking集成学习的烟草异常数据挖掘模型,运用Stacking集成学习的方式,充分发挥各个算法模型的优势。数据集使用的是2016年1月到2019年4月的烟草专卖数据,通过数据预处理等方式将数据指标化,并使用数据增强等手段一定程度上缓解了数据不平衡的问题。使用该数据对模型进行了验证分析,其结果很好地证明了Stacking模型中单个机器学习算法的学习能力越强,关联程度越低,集成后的模型预测结果越好。最后通过实证稽查环节,充分验证了模型的有效性,经过全市实证后,市场检查对零售户的问题查实率能从现有的5%左右提升至15%以上。
郭章[4](2020)在《面向智能教学系统的学习者建模研究》文中认为随着互联网时代向人工智能时代的过渡,现代化的教育也越发趋于智能化,人工智能+教育的方式成为未来教育的发展趋势。大数据环境下的人工智能教育具有个性化、精准化以及全面化等特点,在减轻教师教学负担的同时,极大地提高了学生的学习收益,促进了教育技术的变革。知识追踪作为一种对学习者知识水平进行建模的方法,在智能教学系统中起着关键作用,对其研究是促进教育发展的重要手段之一,具有重要的研究意义和社会价值。现有的基于知识追踪的学习者建模方法仍存在许多不足,主要体现在:个性化能力不足、模型结构简单,未考虑学习者的差异以及知识点结构之间的关系,最终导致模型预测性能有限和可解释性较差等问题。本文为了提升学习者模型的性能,考虑了不同的因素,从传统的概率图模型到深度学习的模型,在多个方面对其进行了改进。主要有如下三方面的工作:(1)针对传统贝叶斯知识追踪模型个性化能力不足和预测精度有限等问题,本文创新性地将演化聚类引入到了知识追踪模型中。模型将学习者在智能教学系统中的交互数据按照时间推移进行动态聚类,得到不同知识水平的学生群体,构造出一种包含多个知识追踪模型的集成学习模型,并且使用一种改进的算法进行预测。针对模型训练算法易陷入局部最优的问题,提出了一种优化策略。模型充分考虑了学习者的个体差异以及学习者知识水平变化的时间平滑特性,能有效缓解异常数据的干扰,具有更好的可解释性,能有效地服务于学习者和教学系统。(2)针对传统贝叶斯知识追踪模型结构简单,难以利用更多的特征进行建模的问题,设计了一种基于问题综合难度与输入输出隐马尔可夫模型的知识追踪模型,从结构上对模型进行了改进。使得建模时不再只利用考生的答题正误情况,而是根据实际的问题难度来构建不同的模型参数。并且设计了一种结合响应时间的问题综合难度计算方法。实验结果表明,该模型在预测表现上优于传统模型,并且具有较好的可扩展性。(3)针对基于深度学习的知识追踪模型预测准确度有限,波动性较大以及数据稀疏性等问题,从知识点的结构方面改进了深度知识追踪模型。考虑到不同的知识点之间有复杂的内部联系,首先构造出知识点之间的层级结构关系和对等关系,存在联系的知识点之间必然会有相似的掌握程度,然后将其作为约束条件加入模型的损失函数中。实验表明改进的方法能进一步提升深度知识追踪模型的预测精度,能构建出更好的知识结构关系。
常岚[5](2020)在《基于大数据的学生行为画像研究与分析》文中研究表明随着高校信息管理系统中学生行为数据的日益繁增,激发新思路分析与挖掘学生的各类行为数据成为当前教育领域的主流,同时,可以通过构建学生行为画像找到学生的行为数据与真实生活之间的联系。学生行为画像是指利用语义化的学生行为数据标签集合识别学生的行为特征,描述学生的行为习惯。本文提出基于大数据的学生行为画像研究与分析。该研究主要是以学生的各类行为数据为主,以空间聚类算法模型和基于关联规则的分类算法模型为辅,挖掘隐藏在学生行为背后的数据价值。从而引导和预测学生的行为轨迹,改进了高校传统的教与学的模式,在满足学生行为画像需求的同时,打破了学生数据已形成的先入之见。本文的主要内容如下:(1)处理学生行为数据。目前,针对高校学生行为数据的存储与量级鳞次栉比的问题,利用学生行为数据预处理和行为类型划分策略,集成相对完整的学生静态属性数据、成绩数据、消费金额数据、消费频次数据和借阅册数数据,消除学生各类行为数据的量级差异,规范化学生的各类行为数据。(2)分析学生各类行为数据。以规范化和集成化后具有相同量级的学生各类行为数据为基础。首先结合改进的肘部法则与K-means聚类算法分别对学生的各类行为数据进行聚类分析,确定了学生的各类行为数据的最佳聚类k值和聚类类别,其次结合学生各类行为数据的反规范化值对学生的各类行为数据的聚类类别进行数字化描述,最后通过各类行为数据的数字化描述与聚类类别构建学生各类行为数据的离散化标签集合。(3)构建学生行为画像。以学生的各类行为数据的聚类类别为基础,结合学生的静态属性数据和各类行为数据的聚类类别构建学生数据的离散化标签集合,利用基于多频繁模式树的分类算法模型,发现学生数据中的多频繁模式树,识别并描述学生的各类行为特征,根据学生各类行为数据的前缀路径构建学生行为画像。实验结果显示,本文所构建的学生行为画像能够有效地引导和预测学生的行为发展趋势。
王武生[6](2020)在《基于乙肝患者生化信息的肝纤维化无创预测模型构建及其可视化》文中进行了进一步梳理目的:本研究旨在确定合理的降维和变量筛选方法来选择合适的预测因子,利用现有的已接受肝穿刺活体组织检查术的乙肝患者的血清生化水平指标,建立无创慢性乙肝患者肝纤维化的预测模型,并实现模型的可视化,用以筛选需要进行肝穿确诊的人群,或者实现患者自检,提早筛查的功能,从而达到降低成本,增加经济效益,更好地支持临床决策和诊治的目的。方法:本研究的研究对象为2009年至2014年于中国医科大学附属盛京医院采集的共计1224例的全部肝病门诊患者,经过纳入和排除标准的筛选,867例乙肝患者纳入研究。采用频数及构成比来描述离散型变量的情况,中位数和上下四分位数来描述连续型变量的情况。随后将数据按照7:3分为两组,分别用于模型构建和外部测试,建模组数据经过LASSO(Least absolute shrinkage and selection operator)降维和随机森林两种变量筛选方法综合筛选模型的预测因子,确定候选变量。筛选后的变量经过决策树分箱后纳入到模型中,利用Logistic回归拟合模型,得出各预测变量指标模型系数。利用校正曲线和受试者工作曲线及曲线下面积进行模型预测能力的评定,利用决策曲线判对模型的最终收益进行评定,最终实现模型的可视化。结果:经过基本情况描述单变量分析,保留21个预测因子。867例患者按照7:3的比例分成建模组和验证组,两组间差异无统计学意义,均衡可比。随后对建模组内数据进行降维和变量筛选,其中LASSO降维分析排除6个变量,而随机森林分析剔除7个变量,综合二者变量选择排除10个预测因子,保留TT、APOB、DD、CHOL、AST、ALPK、APTT、TBA、GGT、PLT、AFP这11个随后用于模型构建的预测因子。单变量决策树分箱将这11个变量离散化,其中4个转化成二分类指标,5个转化成三分类指标,2个转化成四分类指标。分箱后的变量作为解释变量,二分类的肝穿结局变量作为因变量,建立Logistic回归,最终7个变量纳入模型中,其中APOB和PLT可以解释为肝纤维化的保护因素,而其他的5个变量AFP、GGT、TBA、APTT、TT可以认为是肝纤维化的危险因素。对模型单变量拟合的检验发现,模型整体拟合良好,没有变量出现过度拟合状况。另外,建模组和校正组校正曲线显示预测与实际情况贴合紧密,预测符合实际。而在受试者工作曲线中,建模组曲线下面积为0.834(0.802-0.862),验证组曲线下面积为0.818(0.765-0.863),两组面积均超过0.8,模型预测准确度高。而决策曲线结果显示模型收益高于现有的几个简单纤维化诊断模型。结论:本研究中LASSO降维和随机森林联合筛选11个候选变量,决策树分箱将他们离散化,而最终模型提示载脂蛋白B(APOB)和血小板计数(PLT)是纤维化的保护因素,γ-谷氨酸转肽酶(GGT)、血清总胆汁酸(TBA)、甲胎蛋白(AFP)、活化部分凝血酶时间(APTT)和凝血酶凝结时间(TT)是纤维化的危险因素。模型整体表现优异,ROC曲线下面积分别是0.834和0.818,准确度和综合效益均高于一般模型,转化后的诺谟图更加直观和快捷,值得广泛推广,同时也可以给其他的纤维化研究提供依据。
胡闯[7](2019)在《面向差分隐私保护的聚类算法研究》文中研究说明互联网的高速发展,使得电子商务、即时通讯、在线服务等互联网经济活动产生了海量数据,众多企业等组织机构为了能够更好地分析这些数据中潜藏的关键价值信息,并将分析结果应用于商业战略、决策分析等,数据挖掘应运而生。人们在享受数据挖掘带来便捷服务的同时,大量敏感信息的披露给用户带来众多威胁和损失,数据隐私泄露问题愈发严重。因此,在数据挖掘过程中如何保护数据隐私成为数据挖掘和隐私保护领域的热点问题。差分隐私凭借其严格的数学定义和可证明性成为近年来备受关注并被广泛研究的一种新型隐私保护技术。现有的差分隐私数据挖掘工作大多集中于关联规则和分类算法上,而面向差分隐私保护的聚类算法研究相对较少。本文的研究内容着重于面向差分隐私保护的聚类问题,主要有三个方面:针对以往的差分隐私k-means聚类算法对初始中心点的选择上较为敏感,降低了数据的可用性等问题,研究并提出一种新的优化的差分隐私DPk-means-up聚类算法。该算法通过选取合适的初始中心点来减少迭代次数,提高聚类结果的可用性。进行了理论分析和比较实验。理论分析表明,该算法满足ε-差分隐私,可适用于不同规模和不同维度的数据集。此外,实验结果表明,在相同隐私保护级别下,所提出的算法与其它的差分隐私k-means聚类方法相比,有效提高了聚类结果的可用性和算法性能。针对以往的差分隐私谱聚类算法中规模参数的选择会对结果产生较大影响以及聚簇的个数需要事先指定等问题,研究并提出一种新的优化的差分隐私自适应谱聚类算法。该算法可以通过选取使特征间隔最大的k值作为最合适的聚簇个数;也可以自动地计算规模参数,更好的反映样本间的亲密关系;此外使用前面提出的DPk-means-up算法代替传统谱聚类中用到的k-means算法,提高差分隐私谱聚类结果的可用性和准确性。理论分析和实验结果表明,所提出的优化算法相比传统的差分隐私谱聚类算法,较大程度上提高了聚类结果的准确性和可用性。为了验证DPk-means-up算法在实际应用中的有效性,本文选取组推荐系统作为应用场景,通过在组推荐算法中引入DPk-means-up算法来保证组推荐过程中用户隐私不被泄露。实验结果可以看出,在组推荐中应用DPk-means-up算法能够更好地平衡隐私保护水平和推荐结果准确性。
彭鹏[8](2019)在《基于关联规则的船舶制造实动工时影响因素分析》文中研究说明目前我国船厂在生产过程中实动工时超额的现象仍然普遍存在,特别是外包工超额的问题尤为严重。而目前船厂大量的业务都是通过外包的方式去完成,这就导致船厂派工生产的执行力较低,产生延期交货的问题,最终导致造船成本相对较高。实动工时超额的问题一方面是由于船厂制定生产任务的定额工时不准确导致的,另一方面就是由员工在生产制造过程中产生的。而随着生产现场管理信息化和智能化应用的不断深入,造船企业积累了大量的生产制造过程数据,在这些数据中很有可能存在影响实动工时的因素,但这些数据只被统计在数据库中未加以利用,基于此本文通过对这些过程数据进行研究分析,找出在生产过程中影响实动工时的因素。因此,本文以影响实动工时的因素为研究对象,从大数据的角度对生产过程中影响实动工时的因素进行挖掘分析。首先,对船舶制造生产派工过程进行分析,梳理影响船舶制造实动工时的可能因素,根据设定的选取原则并通过专家问卷调查以及行业经验知识从梳理的影响因素中选取十个因素用于本文研究。其次,根据船舶制造生产派工数据离散型的特点,应用关联规则中的Apriori算法构建了基于上述十个因素的数据挖掘模型。然后选取某船舶制造企业采集相关实动工时数据3180447条作为样本进行挖掘研究,首先对样本进行预处理,在剔除影响工时直接因素的基础上整理出完整的数据960438条,以实动工时超出定额工时20%为原则从中筛选出共计371895条数据,再从中选取数据最多的电焊、装配和涂装三种工种共计115628条数据为研究的样本对象。在此基础上通过数据挖掘软件clementine找出影响实动工时的潜在因素,以及影响因素之间的关联关系,最后对挖掘的结果进行解释,并提出相应建议。本文通过对数据进行研究分析,找出影响实动工时的潜藏因素及潜藏影响因素之间的关联关系,论文的研究结果对提高生产效率,降低制造成本,合理制定定额工时有一定的参考价值。
李霁雨[9](2019)在《基于卷积神经网络和Apriori算法的医疗数据挖掘研究》文中研究说明随着人们对医疗服务需求的日益增长,医疗领域的数据量呈爆炸式增长,并有逐年上升的趋势。这些医疗数据真实记录了患者的就诊信息和医生诊疗的全部过程,能反映医疗领域真实现状。目前医院管理人员大多使用简单的统计学方法对医疗数据进行处理,医疗数据资源的利用价值有限,为提高医疗数据利用价值,探索医疗数据之间隐藏的规律与联系,本文使用数据挖掘技术对某三甲医院的医疗数据进行数据挖掘研究。针对本文得到的实验数据设计并构建了医疗数据仓库,然后使用三种不同的挖掘方法进行研究,主要工作内容如下:(1)基于K-means聚类算法的医生服务质量评价为对医生服务质量进行评价,在数据仓库中选取一段时间内医生的接诊量和患者满意度评分作为主要研究数据。选取3个中心点,计算所有数据到中心点的距离,根据距离远近将所有数据分成三个簇。调整各个簇的中心点,再计算到新的中心点距离并分组,如此迭代直到结果收敛。基于该聚类算法将所有医生分为三组,通过分析可知该结果体现了新生力量、主要骨干和专家教授三个人群医生的服务质量。该结果也可以为奖金兑现、职称晋升和专项培训等方面提供决策依据。(2)基于卷积神经网络的医疗数据挖掘研究基于卷积神经网络提出了疾病分类模型和门诊药房人流量预测模型。将数据仓库中冠心病和肺病患者的信息通过疾病分类模型进行训练和测试,结果显示冠心病患者分类准确率较高,计算精确率P、召回率R、准确率A三个指标,结果显示该模型分类效果较好。将门诊药房前15天的人流量数据输入预测模型,对后5天门诊药房人流量进行预测,结果显示前3天预测效果较好,后2天预测效果一般,经分析发现人流量多时预测效果较好,人流量少时预测效果一般。(3)基于关联规则的住院信息挖掘为探究老年人发病规律及医疗数据间的潜在联系,在数据仓库中提取老年病科患者住院信息作为研究数据,使用关联规则中的Apriori算法进行数据挖掘。经过不断地剪枝、连接,最终得到10条规则。对结果中的数据进行分析,最终得出年龄在60岁~80岁之间的患者因心脏病和脑血管疾病住院的人数最多,该科室接收市区患者最多以及医保报销费用占住院总费用的53%左右的结论。
王国怡[10](2019)在《基于数据挖掘的在线学习行为分析》文中研究说明在科技迅速发展的今天,信息技术与教育教学的不断融合促进了教育信息化的快速发展,也使得教育相关数据的收集更加高效而丰富,从学生的管理系统到智能导学系统,各类学习平台都积累了海量的教育数据。而常见的在线学习系统有着众多的活跃学生,他们在平台上交流与讨论、观看视频或者参加测试,一切在线学习活动都记录在日志文件中,但是教育工作者难以从庞大的原始数据中获得有价值的知识。基于以上研究背景,本文利用数据挖掘为工具,探索包含在线学习行为的数据背后的信息。通过对比和总结不同学业表现的学生和在完成不同难度题目中行为模式,了解学生在ALEKS平台上学习过程的差异。研究结果能够为在线学习平台设计者、教学资源管理者和教师等进行教学改进提供科学的决策依据。首先介绍了教育数据挖掘和在线学习行为分析的相关研究,然后对隐马尔可夫模型进行介绍,总结利用隐马尔可夫模型分析在线学习行为数据的相关研究,后续详细介绍本文所使用的建模方法,即两层隐马尔可夫模型的特点和优势。然后利用两层隐马尔可夫模型建模不同学业表现的学生和在完成不同难度题目中学习行为。结果显示高学业表现的学生表现更多有效的学习行为,并能够从系统提供的解释中受益,而低学业表现的学生倾向于连续答题错误且不主动寻求解释,并难以理解系统提供的题目解释。另外学生在完成简单题时表现出更多有效学习行为。最后通过抽取的不同的训练集获得不同的两层隐马尔可夫模型,利用已得到的两层隐马尔可夫模型计算相应测试集中每条行为序列的潜在状态概率,每个测试集中的行为序列的潜在状态概率都能够很好预测学业表现,从而说明两层隐马尔可夫模型能有效抓取的学生行为模式。总之,本文利用两层隐马尔可夫模型挖掘学生在线学习行为,探究不同学业表现的学生以及在完成不同难度题目的行为模式特点,然后验证了两层隐马尔可夫模型所提取的行为模式能够体现学生的学习过程,并较好的预测学生的学业表现。本文的研究结论能够为在线学习平台的管理和改进、教师教学策略的设置等提供良好的参考意见,以提高学生的学习体验从而更好的帮助学生学习。
二、预测性模型中的一种数据挖掘算法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、预测性模型中的一种数据挖掘算法(论文提纲范文)
(1)基于数据挖掘的电力客户投诉预测模型研究与应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题研究背景及意义 |
1.2 国内外研究现状 |
1.3 课题研究内容 |
1.4 研究论文组织结构 |
第二章 数据挖掘技术相关理论基础 |
2.1 数据挖掘技术简述 |
2.2 文本挖掘技术 |
2.2.1 情感分析 |
2.2.2 LDA主题模型 |
2.3 关联分析 |
2.4 分类算法 |
2.4.1 支持向量机算法 |
2.4.2 随机森林算法 |
2.4.3 朴素贝叶斯算法 |
2.5 本章小结 |
第三章 电力客户投诉特征构建 |
3.1 电力客户投诉影响因素分析 |
3.2 特征构建的思路 |
3.2.1 基于轨迹因素的特征构建思路 |
3.2.2 基于时间因素的特征构建思路 |
3.2.3 基于业务因素的特征构建思路 |
3.2.4 基于客户情感因素的特征构建思路 |
3.3 特征构建方法 |
3.4 本章小结 |
第四章 基于SMOTE和贝叶斯优化算法改进的RF算法 |
4.1 改进的RF算法(BSMOTE-RF) |
4.1.1 BSMOTE-RF算法的相关概念和定义 |
4.1.2 BSMOTE-RF算法的基本思想 |
4.2 BSMOTE-RF算法的详细设计 |
4.3 BSMOTE-RF算法的实验对比分析 |
4.3.1 实验环境简介 |
4.3.2 实验数据集 |
4.3.3 BSMOTE-RF算法性能对比分析 |
4.4 本章小结 |
第五章 基于BSMOTE-RF算法的电力客户投诉预测模型设计 |
5.1 模型的总体设计 |
5.2 模型的详细设计 |
5.2.1 数据预处理 |
5.2.2 特征构建及选取 |
5.2.3 电力客户投诉挖掘 |
5.3 本章小结 |
第六章 基于BSMOTE-RF算法的电力客户投诉预测模型的应用 |
6.1 数据获取 |
6.2 模型的应用 |
6.2.1 数据预处理 |
6.2.2 特征构建及选取 |
6.2.3 电力客户投诉挖掘 |
6.3 模型的性能评价 |
6.3.1 模型评估指标 |
6.3.2 模型评估与实验结果分析 |
6.4 本章小结 |
第七章 总结与展望 |
7.1 总结 |
7.2 展望 |
致谢 |
参考文献 |
攻读学位期间参加科研情况及获得的学术成果 |
(2)基于数据挖掘的入侵检测方法的研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文组织结构 |
第二章 相关背景知识介绍 |
2.1 入侵检测技术 |
2.1.1 入侵检测的基本概念 |
2.1.2 入侵检测系统的模型 |
2.1.3 入侵检测系统的分类 |
2.1.4 入侵检测技术的发展趋势 |
2.2 数据挖掘技术 |
2.2.1 数据挖掘的基本概念 |
2.2.2 数据挖掘的主要步骤 |
2.2.3 数据挖掘技术在入侵检测中的应用 |
2.3 本章小结 |
第三章 模糊c-均值算法的研究 |
3.1 模糊c-均值算法 |
3.1.1 模糊聚类分析 |
3.1.2 模糊c-均值算法的原理 |
3.1.3 模糊c-均值算法存在的主要问题 |
3.2 模糊c-均值算法的改进 |
3.2.1 相异性度量 |
3.2.2 加权的欧氏距离 |
3.2.3 基于密度的初始化聚类中心 |
3.2.4 改进的模糊c-均值算法 |
3.3 仿真结果与分析 |
3.3.1 实验数据集 |
3.3.2 数据预处理 |
3.3.3 实验结果与分析 |
3.4 本章小结 |
第四章 改进的模糊c-均值与支持向量机在入侵检测的应用 |
4.1 支持向量机 |
4.1.1 线性支持向量机 |
4.1.2 非线性支持向量机 |
4.2 集成式入侵检测方法 |
4.3 仿真结果与分析 |
4.3.1 实验数据集 |
4.3.2 数据预处理 |
4.3.3 评价指标 |
4.3.4 实验结果与分析 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 全文总结 |
5.2 工作展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
致谢 |
(3)基于集成学习的烟草异常数据挖掘研究与应用(论文提纲范文)
0 引 言 |
1 数据预处理 |
1.1 数据来源 |
1.2 数据预处理(构建数据指标) |
2 相关算法 |
2.1 XGBoost算法 |
2.2 LightGBM算法 |
2.3 xDeepFM算法 |
3 烟草异常数据挖掘建模分析流程 |
3.1 整体流程分析 |
3.2 烟草异常数据挖掘建模分析 |
3.3 模型训练与结果分析 |
4 烟草异常数据挖掘模型的应用 |
5 结束语 |
(4)面向智能教学系统的学习者建模研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
§1.1 课题的研究背景与意义 |
§1.2 国内外研究现状 |
§1.2.1 现有的一些智能教学系统及其应用 |
§1.2.2 学习者建模研究现状 |
§1.3 主要研究内容 |
§1.4 论文组织结构 |
第二章 相关理论概述 |
§2.1 贝叶斯知识追踪模型原理 |
§2.1.1 模型的结构 |
§2.1.2 模型的拟合与评估 |
§2.1.3 交叉验证与模型的预测 |
§2.2 EM算法 |
§2.2.1 EM算法的推导过程 |
§2.2.2 EM算法的局限性 |
§2.3 ITS中的聚类算法 |
§2.4 本章小结 |
第三章 基于演化聚类的知识追踪模型 |
§3.1 问题描述 |
§3.2 演化聚类知识追踪模型 |
§3.2.1 模型框架 |
§3.2.2基于K-Means的演化知识追踪模型 |
§3.2.3 基于层次聚类的演化知识追踪模型 |
§3.2.4 参数优化策略 |
§3.2.5 集成策略 |
§3.3 实验结果与分析 |
§3.3.1 实验环境与数据集 |
§3.3.2 预测与评价指标 |
§3.3.3 参数优化分析 |
§3.3.4 集成策略分析 |
§3.3.5 预测结果分析 |
§3.4 本章小结 |
第四章 基于问题综合难度和输入输出隐马尔可夫模型的知识追踪模型 |
§4.1 问题描述 |
§4.2 传统问题难度模型 |
§4.3 Difficulty-BKT模型 |
§4.4 综合难系数算法 |
§4.4.1 理论分析 |
§4.4.2 算法实现过程 |
§4.5 模型训练 |
§4.5.1 问题定义 |
§4.5.2 训练过程 |
§4.6 模型预测 |
§4.7 实验结果与分析 |
§4.7.1 实验环境与数据集 |
§4.7.2 响应时间分析 |
§4.7.3 基于难度系数的模型预测结果 |
§4.8 本章小结 |
第五章 一种改进的深度知识追踪模型 |
§5.1 问题描述 |
§5.2 理论分析 |
§5.2.1 深度知识追踪模型 |
§5.2.2 知识点的结构关系 |
§5.3 改进方法 |
§5.4 实验结果与分析 |
§5.5 本章小结 |
第六章 总结与展望 |
§6.1 本文总结 |
§6.2 工作展望 |
参考文献 |
致谢 |
作者在攻读硕士期间的主要研究成果 |
(5)基于大数据的学生行为画像研究与分析(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.2.3 用户画像研究现状 |
1.3 相关方法研究现状 |
1.4 课题研究内容 |
1.5 论文组织结构 |
第2章 理论基础与相关技术 |
2.1 引言 |
2.2 数据挖掘概述 |
2.3 行为画像概述 |
2.4 数据预处理过程 |
2.4.1 数据清洗 |
2.4.2 数据集成 |
2.4.3 数据转换 |
2.4.4 数据规约 |
2.5 数据挖掘过程 |
2.5.1 数据挖掘步骤 |
2.5.2 相关性分析研究 |
2.5.3 CRISP-DM数据挖掘过程模型 |
2.5.4 Fayyad数据挖掘过程模型 |
2.5.5 结果的解释与评估 |
2.6 本章小结 |
第3章 学生数据处理 |
3.1 引言 |
3.2 学生数据预处理 |
3.2.1 数据采集 |
3.2.2 数据清洗 |
3.2.3 特征选择 |
3.2.4 数据转换 |
3.3 学生行为数据划分策略 |
3.3.1 聚类算法 |
3.3.2 肘部法则 |
3.3.3 轮廓系数 |
3.3.4 类别符号 |
3.4 本章小结 |
第4章 学生行为画像分析 |
4.1 引言 |
4.2 学生行为数据分析 |
4.2.1 实验方案 |
4.2.2 实验分析 |
4.2.3 实验对比 |
4.3 学生行为画像研究 |
4.3.1 行为画像过程 |
4.3.2 行为标签集合 |
4.4 基于频繁模式的分类算法 |
4.5 本章小结 |
第5章 学生行为画像模型融合 |
5.1 引言 |
5.2 模型融合开发环境 |
5.3 学生行为画像模型融合 |
5.3.1 实验方案 |
5.3.2 实验结果与分析 |
5.3.3 学生行为画像 |
5.4 数据挖掘结果可视化 |
5.5 本章小结 |
总结与展望 |
参考文献 |
致谢 |
附录 A 攻读学位期间发表的学术论文和获奖情况 |
(6)基于乙肝患者生化信息的肝纤维化无创预测模型构建及其可视化(论文提纲范文)
摘要 |
Abstract |
英文缩略语 |
1 前言 |
2 材料与方法 |
2.1 研究对象 |
2.2 组织学检查 |
2.3 预测因子 |
2.4 统计分析方法 |
2.4.1 数据降维与变量筛选 |
2.4.2 回归模型构建 |
2.4.3 模型评估 |
2.4.4 模型可视化 |
3 结果 |
3.1 患者的基线特征描述 |
3.2 数据分组 |
3.3 降维与变量筛选 |
3.3.1 LASSO降维结果 |
3.3.2 随机森林变量筛选结果 |
3.4 回归模型构建 |
3.4.1 建模前分箱 |
3.4.2 Logistic回归模型 |
3.5 统计模型检验 |
3.5.1 变量校准 |
3.5.2 校正曲线 |
3.5.3 受试者工作曲线评价 |
3.5.4 决策曲线 |
3.6 模型可视化 |
4 讨论 |
5 结论 |
本研究创新性的自我评价 |
参考文献 |
综述 |
参考文献 |
实践报告 |
攻读学位期间取得的研究成果 |
致谢 |
个人简历 |
(7)面向差分隐私保护的聚类算法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.2.1 差分隐私 |
1.2.2 差分隐私保护聚类分析 |
1.3 研究内容 |
1.4 结构安排 |
第二章 相关背景知识介绍 |
2.1 数据挖掘概述 |
2.2 聚类算法概述 |
2.3 隐私保护 |
2.3.1 隐私概念 |
2.3.2 隐私保护定义 |
2.3.3 隐私保护常用技术 |
2.4 差分隐私保护技术 |
2.4.1 基本定义 |
2.4.2 相关概念 |
2.5 隐私保护与数据挖掘 |
2.5.1 数据挖掘中常用的隐私保护技术 |
2.5.2 差分隐私保护数据挖掘实现模式 |
2.5.3 差分隐私保护在聚类中的实际应用场景 |
2.6 隐私保护方案的评估标准 |
2.7 本章小结 |
第三章 差分隐私保护k-means聚类算法优化 |
3.1 k-means算法及其隐私泄露问题 |
3.1.1 k-means算法思想 |
3.1.2 k-means算法中的隐私泄露问题 |
3.2 差分隐私k-means聚类算法 |
3.3 差分隐私k-means++聚类 |
3.4 优化的差分隐私DPk-means-up聚类算法 |
3.4.1 算法相关符号描述 |
3.4.2 算法介绍 |
3.4.3 安全性分析 |
3.5 实验设计与分析 |
3.5.1 实验设计 |
3.5.2 实验结果及分析 |
3.6 本章小结 |
第四章 差分隐私保护谱聚类算法优化 |
4.1 谱聚类算法 |
4.2 差分隐私谱聚类算法 |
4.3 差分隐私谱聚类优化算法 |
4.3.1 自适应选取聚簇个数k |
4.3.2 基于近邻排序的自适应确定规模参数 |
4.3.3 算法流程 |
4.3.4 算法分析 |
4.4 实验设计与分析 |
4.4.1 实验设计 |
4.4.2 实验结果及分析 |
4.5 本章小结 |
第五章 DPk-means-up算法在组推荐系统中的应用 |
5.1 组推荐系统概述 |
5.1.1 组推荐系统介绍 |
5.1.2 BaseGRA组推荐 |
5.2 DPk-means-up在BaseGRA组推荐中的应用 |
5.2.1 应用DPk-means-up解决BaseGRA隐私泄露 |
5.2.2 应用DPk-means-up的BaseGRA算法流程 |
5.3 实验设计与分析 |
5.3.1 实验设计 |
5.3.2 实验结果及分析 |
5.4 本章小结 |
第六章 总结与展望 |
1.本文总结 |
2.对未来的展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间申请的专利 |
附录3 攻读硕士学位期间参加的科研项目 |
致谢 |
(8)基于关联规则的船舶制造实动工时影响因素分析(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 工时测算相关方法研究 |
1.2.2 船舶行业在工时方面的研究 |
1.2.3 数据挖掘在船舶行业的研究 |
1.2.4 文献研究综述 |
1.3 研究思路、内容及创新点 |
1.3.1 研究思路与研究框架 |
1.3.2 研究内容 |
1.3.3 论文创新点 |
1.4 本章小结 |
第2章 相关理论与方法 |
2.1 工时相关概述 |
2.1.1 实动工时概述 |
2.1.2 定额工时概述 |
2.1.3 实动工时与定额工时的联系 |
2.2 数据挖掘概述 |
2.2.1 数据挖掘定义 |
2.2.2 数据挖掘过程 |
2.3 关联规则概述 |
2.3.1 关联规则的基本概念 |
2.3.2 关联规则分类 |
2.3.3 Apriori算法 |
2.4 本章小结 |
第3章 船舶制造实动工时影响因素的选取 |
3.1 船舶制造任务派工流程 |
3.1.1 生产派工流程分析 |
3.1.2 任务包 |
3.1.3 派工单 |
3.2 船舶制造实动工时影响因素分析 |
3.2.1 生产任务因素分析 |
3.2.2 员工因素分析 |
3.3 船舶制造实动工时影响因素选取 |
3.3.1 船舶制造实动工时影响因素选取原则 |
3.3.2 影响因素选取过程分析 |
3.4 本章小结 |
第4章 模型构建 |
4.1 关联规则在船舶制造实动工时影响因素分析中的适用性 |
4.2 基于关联规则的船舶制造实动工时影响因素分析过程模型 |
4.3 船舶制造实动工时影响因素数据的选取 |
4.4 船舶制造实动工时影响因素数据的离散化处理 |
4.5 基于关联规则的船舶制造实动工时影响因素分析 |
4.6 本章小结 |
第5章 模型应用 |
5.1 应用背景简介 |
5.1.1 CX船厂任务派工方面 |
5.1.2 生产定额测算方面 |
5.1.3 效率评估方面 |
5.2 数据预处理 |
5.2.1 数据准备 |
5.2.2 数据的离散化处理 |
5.3 分析过程 |
5.4 数据挖掘结果分析 |
5.4.1 规则解释 |
5.4.2 研究成果 |
5.4.3 模型评价 |
5.5 建议 |
5.6 本章小结 |
结论与展望 |
研究结论 |
研究展望 |
参考文献 |
攻读硕士学位期间所取得的相关科研成果 |
附录1 船舶制造实动工时影响因素调查问卷 |
致谢 |
大摘要 |
(9)基于卷积神经网络和Apriori算法的医疗数据挖掘研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 数据挖掘在医疗领域应用的研究现状及发展趋势 |
1.2.1 数据挖掘技术的研究现状与发展趋势 |
1.2.2 数据挖掘在医疗数据领域的应用 |
1.3 本章主要研究内容及章节安排 |
1.3.1 主要研究内容 |
1.3.2 全文章节安排 |
第二章 数据挖掘基本理论及算法 |
2.1 数据挖掘基本理论 |
2.1.1 数据挖掘概念 |
2.1.2 数据挖掘流程 |
2.1.3 常见数据挖掘工具 |
2.2 数据挖掘常见算法简介 |
2.2.1 聚类 |
2.2.2 关联规则 |
2.2.3 分类 |
2.3 本章小结 |
第三章 医疗数据仓库的构建 |
3.1 数据仓库概述 |
3.1.1 数据仓库的定义 |
3.1.2 数据仓库的特点 |
3.1.3 数据仓库系统结构和模型 |
3.2 医疗数据来源及分析 |
3.2.1 医疗数据来源 |
3.2.2 医疗数据的初步筛选 |
3.2.3 医疗数据的提取 |
3.3 医疗数据仓库的结构设计 |
3.3.1 医疗数据仓库模型设计 |
3.3.2 医疗数据仓库的数据结构 |
3.4 本章小结 |
第四章 基于K-means聚类算法的医生服务质量评价 |
4.1 研究意义 |
4.2 K-means聚类算法介绍 |
4.3 基于K-means聚类的医生服务质量评价 |
4.4 本章小结 |
第五章 基于卷积神经网络的医疗数据挖掘 |
5.1 研究意义 |
5.2 卷积神经网络原理 |
5.3 用于医疗数据挖掘的卷积神经网络结构设计 |
5.3.1 疾病分类模型设计与实验 |
5.3.2 门诊药房人流量预测模型设计与实验 |
5.4 本章小结 |
第六章 基于关联规则的住院信息挖掘 |
6.1 研究意义 |
6.2 Apriori关联规则挖掘算法 |
6.2.1 Apriori算法的基本原理 |
6.2.2 Apriori算法的执行过程 |
6.3 住院信息数据处理 |
6.3.1 住院信息数据的提取 |
6.3.2 数据预处理 |
6.4 住院信息数据挖掘过程 |
6.4.1 数据挖掘过程 |
6.4.2 挖掘结果分析 |
6.4.3 结果分析 |
6.5 本章小结 |
第七章 结论与展望 |
7.1 论文结论 |
7.2 工作展望 |
参考文献 |
攻读学位期间所取得的相关科研成果 |
致谢 |
(10)基于数据挖掘的在线学习行为分析(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究目的和研究意义 |
1.3 研究内容与组织结构 |
第二章 国内外研究现状和相关概念 |
2.1 数据挖掘在教育数据中应用 |
2.1.1 教育数据挖掘 |
2.1.2 基于教育数据挖掘的相关研究 |
2.2 学习者在线学习行为分析 |
2.2.1 在线学习行为分析 |
2.2.2 在线学习行为分析的相关研究 |
2.3 隐马尔可夫模型 |
2.3.1 隐马尔可夫模型的概念 |
2.3.2 隐马尔可夫模型在教育中应用 |
第三章 数据介绍与预处理 |
3.1 数据来源——ALEKS |
3.2 数据详情 |
3.3 数据预处理 |
3.3.1 数据清理和数据分布 |
3.3.2 重编码和描述性统计 |
3.3.3 数据转换 |
第四章 基于TL-HMM的学生行为建模 |
4.1 两层隐马尔可夫模型 |
4.1.1 两层隐马尔可夫模型的概念 |
4.1.2 两层隐马尔可夫模型的含义 |
4.2 不同学业表现学生的学习行为分析 |
4.2.1 低学业表现的学生行为建模 |
4.2.2 高学业表现的学生行为建模 |
4.2.3 小节 |
4.3 学生在完成不同题目的学习行为分析 |
4.3.1 低学业表现学生在完成不同题目的行为建模 |
4.3.2 高学业表现学生在完成不同题目的行为建模 |
4.3.3 小节 |
4.4 模型预测效果评估 |
4.4.1 数据预处理与特征提取 |
4.4.2 成绩预测 |
4.5 结果与讨论 |
第五章 研究结论与不足 |
5.1 研究结论 |
5.2 研究不足与展望 |
参考文献 |
攻读硕士期间发表的论文 |
致谢 |
四、预测性模型中的一种数据挖掘算法(论文参考文献)
- [1]基于数据挖掘的电力客户投诉预测模型研究与应用[D]. 刘占玉. 西安石油大学, 2021(09)
- [2]基于数据挖掘的入侵检测方法的研究[D]. 张芷有. 南京邮电大学, 2020(02)
- [3]基于集成学习的烟草异常数据挖掘研究与应用[J]. 李天举,谢志峰,张侃弘,陶亦筠,范杰,汤臻. 计算机技术与发展, 2020(11)
- [4]面向智能教学系统的学习者建模研究[D]. 郭章. 桂林电子科技大学, 2020(02)
- [5]基于大数据的学生行为画像研究与分析[D]. 常岚. 兰州理工大学, 2020(12)
- [6]基于乙肝患者生化信息的肝纤维化无创预测模型构建及其可视化[D]. 王武生. 中国医科大学, 2020(01)
- [7]面向差分隐私保护的聚类算法研究[D]. 胡闯. 南京邮电大学, 2019(02)
- [8]基于关联规则的船舶制造实动工时影响因素分析[D]. 彭鹏. 江苏科技大学, 2019(04)
- [9]基于卷积神经网络和Apriori算法的医疗数据挖掘研究[D]. 李霁雨. 河北工业大学, 2019(06)
- [10]基于数据挖掘的在线学习行为分析[D]. 王国怡. 华中师范大学, 2019(06)