机器学习深度学习面试知识点汇总

做家丨Oldpan泉源丨oldpan博客,编纂丨极市平台弁言

近来这段工夫正临秋招,这篇文章是老潘在那会找劳动历程中整顿的一些首要学识点,体例较量杂碎,部份搜聚于网络,浅显整顿下发出来,合适口试前袭击,固然也合适强固根底学识。其它推举众人一册叫做《百面机械研习》的新书,年8月份出书的,此中包罗了良多机械研习、深度研习口试历程中会碰到的题目,较量合适须要预备口试的机械研习、深度研习方面的算法工程师,固然也一样合适强固根底~有意间必然要须要看的册本:

程序员的数学系列,合适重温学识,回想一些根底的线性代数、几率论。深度研习花书,归纳类书,有根底学识的讲授,较量周全。统计研习办法,归纳类书,篇幅不长,都是中央。PatternRecognitionandMachineLearning,头绪明晰,用贝叶斯的方法来讲授机械研习。机械研习西瓜书,合适当讲义,体例较广然则不深。百翻不烂的百面机械研习罕见的学识题L1正则能够使多数权值较大,大都权值为0,获得稀少的权值;L2正则会使权值都趋近于0但非零,获得光滑的权值;在AdaBoost算法中,被错分的模范的权重革新比例的公式雷同;Boosting和Bagging都是组合多个分类器投票的办法,但Boosting是依照单个分类器的确实率决议其权重,Bagging是可浅显地配置统统分类器权重雷同;EM算法不能保证找到周全最优值;SVR中核函数宽度小欠拟合,宽度大轻易过拟合PCA和LDA都是典范的降维算法。PCA是无监视的,也即是练习模范不须要标签;LDA是有监视的,也即是练习模范须要标签。PCA是去除去原始数据中冗余的维度,而LDA是寻求一个维度,使得原始数据在该维度上投影后不同类其余数据尽大概分散开来。

PCA是一种正交投影,它的头脑是使得原始数据在投影子空间的各个维度的方差最大。假使咱们要将N维的数据投影到M维的空间上(MN),依照PCA,咱们首先求出这N维数据的协方差矩阵,尔后求出其前M个最大的特性值所对应的特性向量,那末这M个特性向量即为所求的投影空间的基。LDA投影后类内方差最小,类间方差最大。以下图所示有两种投影方法,左侧的投影后血色数据和蓝色数据再有叠加部份,右侧的投影后血色数据和蓝色数据则恰巧被隔开。LDA的投影即相同右侧的投影方法,投影后使得不同类其余数据尽大概隔开,而雷同类其余数据则尽大概紧凑地散布。

PCA和LDA参考链接:PCA和LDA的比较KNNK附近

对于K附近算法的学识有良多,譬如算法施行的环节、运用畛域以及提防事变,不过确信良多人对K附近算法的操纵提防事变不是很明了。在这篇文章中咱们针对这个题目举办回答,带众人来好好相识一下k附近算法的提防事变以及K附近算法的长处与瑕玷。

K附近算法的提防事变

K附近算法的操纵提防事变详细即是操纵间隔做为度量时,要保证统统特性在数值上是一个数目级上,免得间隔的祈望被数目级大的特性所主宰。在数据准则化这件事上,还要提防一点,练习数据集和测试数据集必然要操纵统一准则的准则化。此中的缘由总的来讲就有两点体例,第一即是准则化本来能够视为算法的一部份,既然数据集都减去了一个数,尔后除以一个数,这两个数对于统统的数据来讲,就要等量齐观。第二即是练习数据集本来很少,在推断新模范的功夫,新模范就更少得不幸,倘使新模范就一个数据,它的均值即是它自身,准则差是0,这根基就不正当。

K附近算法的长处是甚么呢?

K附近算法的长处详细显示在四方面。第一就即是k附近算法是一种在线手艺,新数据能够直接介入数据集而无须举办从头练习,第二即是k附近算法理论浅显,轻易实行。第三即是正确性高,对反常值和噪声有较高的忍耐度。第四即是k附近算法天生就援手多分类,差别与感知机、逻辑回归、SVM。

K附近算法的瑕玷是甚么呢?

K附近算法的瑕玷,根底的k附近算法每推断一个“点”的分类城市从头举办一次周全运算,对于模范容量大的数据集祈望量较量大。并且K附近算法轻易致使维度灾殃,在高维空间中祈望间隔的功夫,就会变得特别远;模范不均衡时,推断误差较量大,k值巨细的抉择得仰赖阅历大概穿插考证获得。k的抉择能够操纵穿插考证,也能够操纵网格搜罗。k的值越大,模子的误差越大,对噪声数据越不敏锐,当k的值很大的功夫,大概形成模子欠拟合。k的值越小,模子的方差就会越大,当k的值很小的功夫,就会形成模子的过拟合。

二维高斯核函数

倘使让你写一个高斯朦胧的函数,你该怎样写呢?

`defgaussian_2d_kernel(kernel_size=3,sigma=0):kernel=np.zeros([kernel_size,kernel_size])center=kernel_size//2ifsigma==0:sigma=((kernel_size-1)*0.5-1)*0.3+0.8s=2*(sigma**2)sum_val=0foriinrange(0,kernel_size):forjinrange(0,kernel_size):x=i-centery=j-centerkernel[i,j]=np.exp(-(x**2+y**2)/s)sum_val+=kernel[i,j]#/(np.pi*s)sum_val=1/sum_valreturnkernel*sum_val`练习采样办法穿插考证留一法自主法(bootstrap):有放回的抽样办法,大概会抽到反复的模范Kmean和GMM旨趣、差别、运用途景

kmeans的含蓄性?

能够看这边


转载请注明:http://www.180woai.com/afhgx/1109.html


冀ICP备2021022604号-10

当前时间: