机器学习算法之贝叶斯算法介绍(一)
*图片来源于网络
近些年来很多化学化工类文献会在其里面提到贝叶斯算法(或贝叶斯优化算法),让人有种感觉,这个贝叶斯算法是很高级非常有用,而又带有一些神秘感。
随便上网一搜索,会出现大量文章介绍贝叶斯定理、贝叶斯算法,条件概率、先验概率、后验概率、朴素贝叶斯、高斯贝叶斯等等名词,让非这个专业的人感觉到头大。例如在搜索引擎里面输入“贝叶斯定理”会查到关于贝叶斯定理的历史来源,计算公式介绍等。
贝叶斯算法
比如百度百科中关于“贝叶斯公式”的介绍:贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761年) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(A|B)=P(B|A)*P(A)/P(B)
*图片来源于网络it.sohu.com/a/577883879_99977650
本文为了非专业背景的读者了解“贝叶斯算法”原理,采用轻松的方式为您介绍贝叶斯算法的思路逻辑。
在开始前,我们先来看看平时下结论的步骤:
为了方便理解,举一个不严谨的例子:
住在南方海边城市的人在夏季,天气闷热而且感觉到胸闷,会做出大概率海上会有台风的判断。
这里的夏季天气闷热胸闷是证据(Evidence,E),台风是输出(Outcome,Y),根据这个证据得出这个台风的判断的概率,使用数学表达为P(Y|E)。当然这个输出也可以为疾病(Y2,使用Y2区分台风),毕竟有胸闷现象,但判断者为什么选择是台风的判断而不是身体疾病的判断?
P(Y)即先验概率 P(Y|E)为后验概率
因为判断者其中一个理由是认为自己身体很棒有病的概率很低,也就是P(Y2)概率比出现台风的概率P(Y)小多了(注,这里的P(Y)即先验概率,P(Y|E)为后验概率)。
历史经验 P(E|Y)概率
再进一步分析,为什么判断者根据这个证据做出台风判断,是因为他在南方海边城市住有“历史经验”,我们看看他是如何得到这个历史经验的。
小时候,第一次发现有台风很好奇,第二次发现有台风,好像都是在夏季及其闷热而且胸闷。渐渐地他发现,在夏天有台风前感觉非常闷热和胸闷的概率很高,也就是P(E|Y)概率很高,而且他所住的城市出现台风的概率比较高P(Y)。另外他身体健康出现胸闷的机会不大,即P(Y2)比较小。在他脑海中做出P(Y|E)=P(E|Y)*P(Y)/P(E)计算,因而有了出现这个证据做出有台风的判断。
比如给出一个水果的特征为“长”、“甜”、“黄色”,电脑如何通过已有的数据来“学习”,并预测出现这三个特征的水果是什么。
首先电脑具有以下数据:
*该数据引用自网络参考资料:朴素贝叶斯算法是如何工作的?
电脑是根据比较在出现“长”、“甜”、“黄色”这三个特征下为香蕉、橙子或其它水果的概率大小做出判断的。即比较概率P(香蕉|长甜黄色)、P(橙子|长甜黄色)、P(其它|长甜黄色),哪个概率大就预测为哪一种水果。
第一步:我们先计算出证据概率P(E)即P(长甜黄色),我们需要知道这些特征(长、甜、黄色)在给定样本中出现的频率。由于这些特征是相互独立的,我们可以分别计算每个特征的边缘概率,然后将它们相乘得到联合概率P(E)。
第二步,P(香蕉)、P(橙子)、P(其它)的先验概率分别为P(香蕉)=500/1000=0.5、P(橙子)=300/1000=0.3、P(其它)=200/1000=0.2。
第三步,计算P(长|香蕉)=400/500=0.8、P(甜|香蕉)=350/500=0.7、P(黄色|香蕉)=450/500=0.9。这样P(香蕉|长甜黄色)= P(长|香蕉)* P(甜|香蕉)* P(黄色|香蕉)* P(香蕉)/ P(长甜黄色)=0.969。
然后再分别计算出:
P(橙子|长甜黄色)=0,
P(其它|长甜黄色)=0.072。
因而电脑根据特征为“长”、“甜”、“黄色”预测该水果为香蕉。
参考内容:How Naive Bayes Algorithm Works? (with example and full code) | ML+ (machinelearningplus.com)
下篇预告
下一篇我们即将进入贝叶斯优化算法的原理介绍。
推荐阅读
关于机器学习的那点事儿-PCA算法大讨论
机器学习与连续流连载系列丨机器学习:人工智能的驱动力
【名家案例】连续流工艺优化中的机器学习和人工智能
机器学习与连续流连载系列丨使用康宁反应器集成在线光谱,通过半监督机器学习识别化学反应式计量和动力学模型
欢迎关注康宁AFR公众号
全部评论(0条)
推荐阅读
-
- 机器学习算法之贝叶斯算法介绍(一)
- 贝叶斯算法是很高级非常有用,而又带有一些神秘感
-
- 精准农业 | 机载高光谱成像系统结合XGBoost机器学习算法助力水稻产量估算
- 关键词:高光谱成像技术;无人机;XGBoost;遥感检测;水稻产量分类
-
- 中国药典专栏(一):四参数回归计算法分析模板
- 中国药典专栏(一):四参数回归计算法分析模板
-
- 新增Turbiscan算法—非稀释粒度分布
- 介绍粒度分布(PSD)是乳液和悬浮液等液体分散体的关键参数。粒度分布在样品的最终用途性能(如稳定性和保质期、
-
- 高速摄像机小百科 | 基于自适应色温估计算法的自动白平衡
- 高速摄像机图像处理的重要功能-自动白平衡
-
- 大型高低温循环交变试验箱温湿度控制系统的 PID 控制算法详解
- 本文详细解释了大型高低温循环交变试验箱温湿度控制系统的 PID 控制算法。介绍了 PID 基本原理,包括比例控制依据误差产生作用但可能有过冲问题、积分控制消除稳态误差但参数不当可能致不稳定
-
- 微生物计数的自动化进程-图像法+软件算法的展现
- 微生物是个体难以用肉眼观察的一切微小生物之统称,包括细菌、病毒、真菌、和少数藻类等。它个体微小、种类繁多、与人类关系密切。涵盖了有益跟有害的众多种类,广泛涉及食品、医药、工农业、环保等诸多领域。
-
- 机器学习辅助高细胞密度生物打印硬度预测
- 内容简介本研究论文聚焦机器学习辅助高细胞密度生物打印硬度预测。细胞负载水凝胶的生物打印是组织工程中一个迅速发
-
- 机器学习辅助高细胞密度生物打印硬度预测
- 内容简介本研究论文聚焦机器学习辅助高细胞密度生物打印硬度预测。细胞负载水凝胶的生物打印是组织工程中一个迅速发
-
- 一种基于稀疏光流算法的DIC时序裂纹检测方法
- 千眼狼科研团队自研一种基于稀疏光流和匈牙利算法的裂纹检测方法,具有高精度、高效率、灵活适应等特点。
-
- PID温度控制原理详解:从算法实现到参数整定技巧
- 在工业生产和科研实验中,时刻需要进行温度控制。PID 控制作为一种经典且广泛应用的控制策略,在多种温控设备中发挥着作用,为实现高精度温度控制提供了有力支持。
①本文由仪器网入驻的作者或注册的会员撰写并发布,观点仅代表作者本人,不代表仪器网立场。若内容侵犯到您的合法权益,请及时告诉,我们立即通知作者,并马上删除。
②凡本网注明"来源:仪器网"的所有作品,版权均属于仪器网,转载时须经本网同意,并请注明仪器网(www.yiqi.com)。
③本网转载并注明来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
④若本站内容侵犯到您的合法权益,请及时告诉,我们马上修改或删除。邮箱:hezou_yiqi
参与评论
登录后参与评论