天天说机器学习，到底什么时候才该用它？

天天说机器学习，到底什么时候才该用它？
2020/7/12 7:00:00 科学大院

     本文转载自公众号“读芯术”(ID：AI_Discovery)

     “机器学习”是当下的热门概念，不过，机器学习是否能解决所有的问题？何时才该使用它呢？先来看一个例子：

     想象一下，你刚刚从一个临床试验中得到了一个数据集(为了帮你更好地理解，笔者整理了一些数据供你查看)，假设这些数据反映了治疗日(输入“特征”)与某个病人在某种奇迹疗法60天的疗程中应接受的正确剂量(毫克)(输出“预测”)之间的关系。

     ＃数据:

     (1,28) (2,17) (3,92) (4,41) (5,9) (6,87) (7,54) (8,3) (9,78) (10,67) (11,1) (12,67) (13,78) (14,3) (15,55) (16,86) (17,8) (18,42) (19,92) (20,17) (21,29) (22,94)(23,28) (24,18) (25,93) (26,40) (27,9) (28,87) (29,53) (30,3) (31,79)(32,66) (33,1) (34,68) (35,77) (36,3) (37,56) (38,86) (39,8) (40,43) (41,92) (42,16) (43,30) (44,94)(45,27) (46,19) (47,93) (48,39) (49,10) (50,88) (51,53) (52,4) (53,80) (54,65) (55,1) (56,69) (57,77) (58,3) (59,57) (60,86) ...

     你正在治疗一个病人，今天是第二天。你会建议用什么剂量？

     答案是“17mg”，这是一个很简单的问题。那第四天呢？没错，是41mg。现在，你将如何开发一个软件以输出1-5天的正确剂量？你会尝试使用机器学习吗？

     换句话说，可以尝试在这些数据中找到模型并将其转换为从输入到输出的方法(“模型”)吗？答案是否定的。可以让软件完全按照你的方式去做：在表中查找答案。这样一来，将获得60天内所有时间100%正确的答案，不需要模型，也不需要机器学习。

     什么样的情况需要机器学习呢？

     现在，假设今天是第61天，剂量的正确答案该是多少？

     我们从未见过第61天的数据，所以无法在此处查找答案。机器学习可以帮上忙吗？要看情况。如果没有将输入与输出连接起来的模型，那就算了。在那种情况下，没有什么能帮上忙。

     如果那是你认为的机器学习，赶紧打住吧，魔法是不存在的。

     但是，如果有这样一个真实存在的模型，那么可以尝试将其应用到第61天，预测或猜测正确的答案，也许机器学习可以帮上忙。

     问题在于我们的数据还不足以形成这种模型。如果这样去构建模型，那就太草率了。60天之后，模型结果也必须是接近的。如果第61天的情况完全不同，无法证明模型的有效性怎么办呢？如果第61天所有患者都已完全治愈，或全部死亡，或者正在服用与之相克的药物，那么这种模型会对你不利。

     不稳定宇宙

     如果你的数据对于探索未来没有帮助，或许是因为疫情改变了所有的规则，过往的信息有多好就都不重要了。如果生活在宇宙的一个不稳定的角落，那将很难证实已知的遍历性和平稳性假设，这些假设大致可以理解为“规则没有改变。”

     图源：unsplash

     这不是在说外行眼中的那种不稳定性。当规则是时间的预测函数时，处理平缓的不稳定性就是时间序列分析领域的内容。

     由于系统的规则根本上是不同的，无法从一个阶段预测到下一个阶段，所以谈到这种剧烈的不稳定性时，我们束手无策。如果过往的数据突然无法用于预测不稳定的未来，就不能用过去直观地预测未来。

     但如果有一种模型，并且这种模型适用于新情况，那么恭喜你，可以开始了。可以在旧数据中寻找模型，根据它制定一个方法，然后使用它成功获得第61天及以后的数据!找到模型并投入使用就是机器学习的全部内容。

     何时使用机器学习

     在应用机器学习和人工智能时，无需重新思考记忆中见过的示例，只需查找就可以了!人工智能能做的不仅仅是重复旧的答案，它能在新例子上取得成功。

     你要做的是构建能够成功总结概括的解决方案，要么中止项目。换句话说，如果解决方案无法处理从未见过的新案例，那么就说明它不好。并不是说那些打破稳定宇宙所有规则的全新案例，而是与以往主题稍有偏差的例子。

     图源：unsplash

     我们不像鹦鹉学舌，而是要在这里概括新情况，这就是机器学习的力量和美妙之处。如果你未看到61天前输入值的精确组合，那么正确的输出值是什么？也许可以将旧的模型转变成可以做出合理猜测的方案。

     例如，你利用成千上万张动物照片训练一个识别猫/非猫的分类器，你可以要求其辨别一张全新的照片中是否包含猫，但是让它告诉你一幅画是否是立体主义风格的显然太难为人了。

     换种不老套介绍，机器学习是一种自动化重复决策的途径，涉及从算法上找到数据模型并使用这些模型来制定能够正确处理全新数据的方案。

     机器学习并非无所不能，但也别把它想的太简单了，找到合适的时机再用它，你会得到满意的效果。

     版权说明：未经授权严禁任何形式的媒体转载和摘编，并且严禁转载至微信以外的平台!

     文章转载自公众号“读芯术”，转载时有微量修改，仅代表作者观点，不代表科学大院立场

     大院热门文章top榜

     点击文章标题，可直接阅读哦~

     1. 徒步横穿南极大陆第一人丨科学人

     2. 马斯克是如何给NASA省钱的？

     3. 神仙打架？光学未来？这根链子什么来头？

     4. 2020又发大火？亚马孙：从地球之肺到地球之伤

     5. 达·芬奇和宋代画家告诉你，除了诗和远方，世上还有散射现象

     6. Tony老师，我明明染的蓝黑，怎么就绿了？？

     7. 曾经让地球焕发生机的它们，未来能在火星成功拓荒吗？

     8. 地球是……漂浮在宇宙中的大“椰子”？

     9. 魔兽世界里的古生物原型研究(一)

     10. 当小行星来袭，除了让地球流浪，我们还能怎么做？

     科学大院是中科院官方科普微平台，由中科院科学传播局主办、中国科普博览团队运营，致力于最新科研成果的深度解读、社会热点事件的科学发声。

     转载授权、合作、投稿事宜请联系cas@cnic.cn

     我知道你在看我

    http://weixin.100md.com
返回科学大院返回首页返回百拇医药