医疗数据挖掘的基本过程

医疗数据库中的信息内容异常丰富, 可能含有病人的医学影像、有关病理参数、化验与测量结果、血液数据、诊断记录以及个人健康数据等( 如年龄、性别、病史、血型、入出院时间)等。针对医疗数据库的这些特点,描述如下医疗数据挖掘的基本过程:
(1)理解应用领域、识别数据挖掘的目标。理解医学领域问题的范围和识别医疗数据挖掘过程的目标就是要明确数据挖掘的医学对象和要得到的结果。
(2)产生目标数据库,为了得到最终的结果,需要生成一个完整的记录病人医学诊断信息的数据库, 各个诊断系统根据不同的目标来组织其数据库, 其中应包含充足的各类病例或一定比率的正病例和反病例作为数据挖掘的训练例和测试例, 以便最终能够得到令人满意的正确结果。
(3)清理与预处理数据。其目的是填充数据中的空缺值,消除数据中的噪声数据,纠正数据中的不一致数据。
(4)约简与投影数据。其目的是发现依赖于目标的有用特征值来代表数据,包括使用维数降低或变换的方法来减少考虑的有效变量数或发现数据的不变代表, 也就是用最少数目的变量更好地代表数据。
(5)匹配目标与特殊的数据挖掘算法。其目的是决定何种数据模型可能适合搜索数据中的模式,使用何种数据挖掘方法能与挖掘过程的目标相匹配。模型选择通常 基于要挖掘数据的类型,数据挖掘方法的选择依赖于需要什么形式的最终结果,通常是发现或预测。
(6)提取数据模式。使用智能的方法从目标数据中提取数据模式。对医疗数据库进行数据挖掘的主要目的是预测和分类疾病。分类和预测是二种数据分析形式,可以 用于提取描述重要数据类的模型或预测未来的数据趋势。
(7)解释和评估挖掘到的模式。大多数的数据挖掘算法都会挖掘出许多模式。用户应该根据自己的需要识别真正有用的模式, 并使用可视化和知识表示技术提供这些有用模式。
(8)使用所发现的有用模式。利用发现的有用模式简化医生的诊断过程,提高诊断效率,训练缺乏经验的新医生等。
(9)通过分析与决策系统,为宏观决策提供及时准确真实的数据