习题1.1
做这道题要弄青版本空间和假设空间的概念
我的理解是假设空间就是所有属性值的可能组合到一起,这道题就是 3 * 3 * 3 + 1 = 28种
假设空间书上给的定义是:可能有多个假设与训练集一致,即存在着一个与训练集一致的“家设计和”,我们称之为“版本空间”(version space)
所有我们先求出假设空间,再次说明,有 3 * 3 * 3 + 1 = 28种,分别是:
- (色泽=青绿) Λ(根蒂=蜷缩)Λ(敲声=浊响)
- (色泽=青绿) Λ(根蒂=蜷缩)Λ(敲声=沉闷)
- (色泽=青绿) Λ(根蒂=蜷缩)Λ(敲声=*)
- (色泽=青绿) Λ(根蒂=稍蜷)Λ(敲声=浊响)
- (色泽=青绿) Λ(根蒂=稍蜷)Λ(敲声=沉闷)
- (色泽=青绿) Λ(根蒂=稍蜷)Λ(敲声=*)
- (色泽=青绿) Λ(根蒂=*)Λ(敲声=浊响)
- (色泽=青绿) Λ(根蒂=*)Λ(敲声=沉闷)
- (色泽=青绿) Λ(根蒂=*)Λ(敲声=*)
- (色泽=乌黑) Λ(根蒂=蜷缩)Λ(敲声=浊响)
- (色泽=乌黑) Λ(根蒂=蜷缩)Λ(敲声=沉闷)
- (色泽=乌黑) Λ(根蒂=蜷缩)Λ(敲声=*)
- (色泽=乌黑) Λ(根蒂=稍蜷)Λ(敲声=浊响)
- (色泽=乌黑) Λ(根蒂=稍蜷)Λ(敲声=沉闷)
- (色泽=乌黑) Λ(根蒂=稍蜷)Λ(敲声=*)
- (色泽=乌黑) Λ(根蒂=*)Λ(敲声=浊响)
- (色泽=乌黑) Λ(根蒂=*)Λ(敲声=沉闷)
- (色泽=乌黑) Λ(根蒂=*)Λ(敲声=*)
- (色泽=*) Λ(根蒂=蜷缩)Λ(敲声=浊响)
- (色泽=*) Λ(根蒂=蜷缩)Λ(敲声=沉闷)
- (色泽=*) Λ(根蒂=蜷缩)Λ(敲声=*)
- (色泽=*) Λ(根蒂=稍蜷)Λ(敲声=浊响)
- (色泽=*) Λ(根蒂=稍蜷)Λ(敲声=沉闷)
- (色泽=*) Λ(根蒂=稍蜷)Λ(敲声=*)
- (色泽=*) Λ(根蒂=*)Λ(敲声=浊响)
- (色泽=*) Λ(根蒂=*)Λ(敲声=沉闷)
- (色泽=*) Λ(根蒂=*)Λ(敲声=*)
- Φ
然后我们选出符合训练集 (色泽=青绿) Λ(根蒂=蜷缩)Λ(敲声=浊响) (色泽=乌黑) Λ(根蒂=稍蜷)Λ(敲声=沉闷)
一般情况下版本空间是正例的泛化,但由于数据集中只有1个正例,所以在版本空间中依然包含了这个样本的假设,选出了如下符合数据集
1. (色泽=青绿) Λ(根蒂=蜷缩)Λ(敲声=浊响)
3. (色泽=青绿) Λ(根蒂=蜷缩)Λ(敲声=*)
7. (色泽=青绿) Λ(根蒂=*)Λ(敲声=浊响)
9. (色泽=青绿) Λ(根蒂=*)Λ(敲声=*)
19. (色泽=*) Λ(根蒂=蜷缩)Λ(敲声=浊响)
21.(色泽=*) Λ(根蒂=蜷缩)Λ(敲声=*)
25.(色泽=*) Λ(根蒂=*)Λ(敲声=浊响)
共7个
习题1.2
根据表1.1和假设空间的含义我们可以得出,空间规模大小为3 * 4 * 4 + 1 = 49
所以k最大取49,所以总的数量就有∑C(49)(i) (就是排列组合里的C)
因为最大取49,所以取48, 47都可以,所以要求和
结果为2的49次方,求和计算方法如下
注:我没有考虑像(色泽=*,根蒂=*,敲声=浊响)∨(色泽=*,根蒂=*,敲声=清脆)∨(色泽=*,根蒂=*,敲声=沉闷)与(色泽=乌黑,根蒂=*,敲声=*)∨(色泽=青绿,根蒂=*,敲声=*)是同一种假设,它们都表示(色泽=*,根蒂=*,敲声=*),这种多余情况。
习题1.3
去燥,若存在两个样例属性取值都相同,标记却不同,则只保留标记为正例的样例(或者只保留反例的样例)