集成学习
集成学习:构建并结合多个学习器来完成学习任务(多分类器系统)
结构:先产生一组“个体学习器”(individual learner),再用某种策略将它们结合起来
同质(homogeneous)
“决策树集成”中全是决策树,“神经网络集成”中全是神经网络
基学习器(base learner) —> 基学习算法(base learning algorithm)
异质(heterogenous)
个体学习器由不同学习算法组成:组件学习器(component learner)
研究核心:如何产生并结合“好而不同”的个体学习器
分类:
个体学习器间存在强依赖关系、必须串行生成的序列化方法
Boosting
个体学习器间不存在强依赖关系、可同时生成的并行化方法
Bagging和“随机森林”(Random Forest)
1 Boosting将弱学习器提升为强学习器的算法
代表算法:AdaBoost算法
2 Bagging自助采样法(bootstrap sampling)
过程:给定m个样本的数据集,随机取一个再放回,重复m次,形成采样集;总共T个采样集,再基于采样集训 ...
降维与度量学习
懒惰学习(lazy learning)
在训练阶段把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理
急切学习(eager learning)
再训练阶段对样本进行学习处理的方法
降维(dimension reduction)
通过某种数学变换将原始高维属性空间转变为一个低维“子空间”
在这个子空间中样本密度大幅提高,距离计算也变得更为容易
多维缩放(Multiple Dimensional Scaling, MDS)
主成分分析(Principle Component Analysis, PCA)
核主成分分析(Kernelized PCA, KPCA)
等度量映射(Isometric Mapping)
队列(链式)
教材:严版数据结构
代码如下:
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173#include<stdio.h>#include<stdlib.h>#include<iostream> ...
队列(循环)
教材:严版数据结构
代码如下:
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130#include<stdio.h>#include<stdlib.h>#include<iostream>using namespace std; #define TRUE 1#define FALSE 0#define OK 1#define ERROR 0#define OVERFLOW -2#define MAXQSIZE 100typedef int S ...
计算学习理论
https://books.google.com.hk/books?id=n79Zh2JzBhYC&pg=RA1-PA930&lpg=RA1-PA930&dq=PAC%E5%AD%A6%E4%B9%A0&source=bl&ots=bfMpxn5sUv&sig=ACfU3U2S6oXxodelVkXqKmwUxsX6EynaoA&hl=en&sa=X&ved=2ahUKEwic2IP7nsXqAhUSPXAKHQnGBo4Q6AEwBnoECA8QAQ#v=onepage&q=PAC%E5%AD%A6%E4%B9%A0&f=false
1 基础知识 采用数学方法,研究学习算法的计算复杂性和所需信息量的大小,分析算法所需的时间和空间资源,判定学习对象的可学习性等所形成的理论。
1.1 历史研究1967年,E. M. Gold,形式化语言研究 提出 极限辨识理论
什么是正确的辨识(学习)的形式定义
D. Angluin 探讨新的学习对象,提出 模式语言学习
对学习对象的限制,获取某 ...
线索二叉树(建立、遍历)(前、中、后序)
代码如下:
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200 ...