人工智能机器学习技术练习(习题卷5)_第1页
人工智能机器学习技术练习(习题卷5)_第2页
人工智能机器学习技术练习(习题卷5)_第3页
人工智能机器学习技术练习(习题卷5)_第4页
人工智能机器学习技术练习(习题卷5)_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷5)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共155题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.分类的类别标签列是()A)类别数值B)类别的不同C)具有次序、大小的意义[单选题]2.分箱用于处理()A)连续型数据B)离散型数据C)连续型和离散型数据即可[单选题]3.分类模型评估指标中的召回率如何计算()A)(TP+TN)⁄(P+N)B)TP⁄(TP+FN)C)TP⁄(TP+FP)[单选题]4.对于神经网络的说法,下面正确的是:A)增加神经网络层数,可能会增加测试数据集的分类错误率B)减少神经网络层数,总是能减小测试数据集的分类错误率C)增加神经网络层数,总是能减小训练数据集的分类错误率[单选题]5.下列哪个不是RDD的缓存方法()。A)persist()B)Cache()C)Memory()[单选题]6.下面是交叉验证的几种方法:1/Bootstrap2/留一法交叉验证3/5折交叉验证4/重复使用两次5折交叉验证请对上面四种方法的执行时间进行排序,样本数量为1000。A)1>2>3>4B)2>4>3>1C)4>1>2>3D)2>4>3>1[单选题]7.给定词汇表如下:{"Bob","ok","like","football","car"}。则下面句子?Botlikesfootball"的词袋模型表示为:A)[11100]B)[10110]C)[10010]D)[01101][单选题]8.下面这张图是一个简单的线性回归模型,图中标注了每个样本点预测值与真实值的残差。计算SSE为多少?A)3.02B)0.75C)1.01D)0.604[单选题]9.下列关于支持向量机优化性问题的形式,说法正确的是()。A)它是一个凸二次规划问题B)它是一个凸一次规划问题C)它是一个凹二次规划问题D)它是一个凹一次规划问题[单选题]10.当不知道数据所带的标签时,可以使用()技术促使带同类标签的数据与带其他标签的数据相分离。A)分类B)聚类C)关联分析D)隐马尔可夫链[单选题]11.下面哪个不是Python合法的标识符()。A)int32B)40XLC)selfD)__name__[单选题]12.双边滤波能够较好的保留图像的(__)。A)边缘信息B)色彩信息C)亮度信息D)高频信息[单选题]13.关于HDFS安全模式说法正确的是?()A)在安全模式下只能写不能读B)在安全模式下只能读不能写C)在安全模式下读写都不允许D)在安全模式下读写都可以[单选题]14.float表示的数据类型是:A)整数型B)字符型C)布尔型D)浮点型[单选题]15.对于下图,最好的主成分选择是多少?:这里写图片描述A)7B)30C)35D)Can?tSay[单选题]16.OpenCV使用()语言实现。A)JavaB)C/C++C)PythonD)JavaScript[单选题]17.下列不是SVM核函数的是:A)多项式核函数B)logistic核函数C)径向基核函数D)Sigmoid核函数[单选题]18.下面是三个散点图(A,B,C,从左到右)和和手绘的逻辑回归决策边界。alt="">上图中哪一个显示了决策边界过度拟合训练数据?A)AB)BC)CD)这些都没有[单选题]19.KNN算法是基于()A)概率空间B)颜色空间C)距离空间D)线性空间[单选题]20.以下对Value相关描述不正确的是()。A)Value是指应用价值高B)Value是指我们淹没在知识海洋,却忍受着知识的饥渴C)如何从海量数据中洞见出有价值的数据是数据科学的重要课题之一D)大数据中,数据价值与数据量之间不一定存在线性关系[单选题]21.()是利用样本的实际资料计算统计量的取值,并引来以检验事先对总体某些数量特征的假设是否可信作为决策取舍依据的一种统计分析方法。A)假设检验B)逻辑分析C)方差分析D)回归分析[单选题]22.在机器学习中,学得的模型适用于新样本的能力称为()A)分析能力B)泛化能力C)训练能力D)验证能力[单选题]23.哪些文本分析技术可被用于名词短语检测、动词短语检测、主语检测和宾语检测?A)词性标注(PartofSpeechTagging)B)SkipGram和N-Gram提取C)连续性词袋(BagofWords)D)依存句法分析(DependencyParsing)和成分句法分析(ConstituencyParsing)[单选题]24.近似推断不含有?A)采样B)变分推断C)确定性近似完成近似推断D)分类[单选题]25.关于k折交叉验证,下列说法正确的是?A)k值并不是越大越好,k值过大,会降低运算速度B)选择更大的k值,会让偏差更小,因为k值越大,训练集越接近整个训练样本C)选择合适的k值,能减小验方差D)以上说法都正确[单选题]26.下列关于过拟合现象的描述中,哪个是正确的()A)训练误差小,测试误差大B)训练误差小,测试误差小C)模型的泛化能力高D)其余选项都不对[单选题]27.从加工程度看,数据产品可以包含的选项有(__);1.内容,2.情感,3.服务,4.应用,5.决策,6.智慧。A)1234B)1356C)1345D)3456[单选题]28.下列关于数据转换,正确的是()A)json内的取值只能有统一格式B)pdf文件在不同平台上打开显示不同C)可以通过python将csv文件转换成Excel格式D)excel存储数据的量无限制[单选题]29.在CNN网络中,图A经过核为3x3,步长为2的卷积层,ReLU激活函数层,BN层,以及一个步长为2,核为2*2的池化层后,再经过一个3*3的的卷积层,步长为1,此时的感受野是()A)10B)11C)12D)13[单选题]30.对OpenCV中绘制线段的line()方法中描述不正确的是()。A)line()方法中的img参数表示画布B)line()方法中的pt1参数表示线段的起点坐标C)line()方法中的pt2参数表示线段的终点坐标D)line()方法中的color参数表示画布的颜色[单选题]31.下面不属于数据科学中特有的管理方法有(__)。A)关系数据库B)NewSQLC)NoSQLD)关系云[单选题]32.关于数据重塑的说法中,下列选项描述错误的是()。A)数据重塑可以将DataFrame转换为SeriesB)stack()方法可以将列索引转换为行索引C)对一个DataFrame使用stack()方法后返回的一定是一个SeriesD)unstack()方法可以将行索引转换为列索引[单选题]33.LDA的思想是找到最能区分两类别之间的线,下图中哪个是好的投影?alt="">A)LD1B)LD2C)两者D)都不是[单选题]34.随机森林是()分类方法中最具代表性的一个。A)串行B)并联C)串联D)并行[单选题]35.下面的交叉验证方法:I.有放回的Bootstrap方法Ii.留一个测试样本的交叉验证Iii.5折交叉验证Iv.重复两次的5折教程验证当样本是1000时,下面执行时间的顺序,正确的是:A)i>ii>iii>ivB)ii>iv>iii>iC)iv>i>ii>iiiD)ii>iii>iv>i[单选题]36.下面是三个散点图(A,B,C,从左到右)和和手绘的逻辑回归决策边界。alt="">假设上述决策边界是针对不同的正则化(regularization)值生成的。那么其中哪一个显示最大正则化?A)AB)BC)CD)都具有相同的正则化[单选题]37.关于SMO神经网络描述错误的是A)一种竞争学习型的无监督神经网络;B)将高维输入数据映射到低维空间,保持输入数据在高维空间的拓扑结构;C)SMO寻优目标为每个输出神经元找到合适的权重;D)输出层神经元以矩阵方式排列在二维空间;[单选题]38.一个分布式应用程序协调服务,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等的工具有()A)FlumeB)ZookeeperC)StormD)Sparkstreaming[单选题]39.一个文本邮件可以被归为【垃圾邮件】和【非垃圾邮件】两类,因此判断文本邮件是否为垃圾邮件,属于()问题A)分类B)回归C)聚类D)以上都不是[单选题]40.观察如下数据集:删除A,b,c,d哪个点对拟合回归线的影响最大?A)aB)bC)cD)d[单选题]41.F1参数的大小反映了模型的(__)。A)准确度B)误差C)稳定性D)偏差[单选题]42.()的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。A)贝叶斯判定准则B)贝叶斯决策论C)朴素贝叶斯分类器D)半朴素贝叶斯分类器[单选题]43.在其它条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题()A)增加训练集数量B)减少神经网络隐藏层节点数C)删除稀疏的特征D)SVM算法中使用高斯核/RBF核代替[单选题]44.下面关于数据粒度的描述不正确的是:A)粒度是指数据仓库小数据单元的详细程度和级别;B)数据越详细,粒度就越小,级别也就越高;C)数据综合度越高,粒度也就越大,级别也就越高;D)粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.[单选题]45.(__)主要面向自然科学,尤其是地理、物理、化学、医学等领域。A)信息可视化B)科学可视化C)可视分析学D)数据可视化[单选题]46.()是以样本统计量作为未知总体参数的估计量,并通过对样本单位的实际观察取得样本数据,计算样本统计量的取值作为被估计参数的估计值。A)参数估计B)逻辑分析C)方差分析D)回归分析[单选题]47.以下哪条语句定义了一个Python字典()。A){1,2,3}B)[1,2,3]C)(1,2,3)D){}[单选题]48.根据_______,目前的集成学习方法大致可分为两大类,即个体学习器间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法。A)个体学习器的数量B)个体学习器的生成方式C)个体学习器的的类型D)个体学习器的的强弱[单选题]49.使用梯度下降法训练回归模型时,会由于各特征尺寸相差较大而造成算法收敛较慢。应该将特征尺寸进行缩放至接近或相同尺寸。可采用sklearn中的类或函数是:A)StanderScalerB)fit_transformC)accuracy_scoreD)LabelEcoder[单选题]50.混合高斯聚类中,运用了以下哪种过程()A)EM算法B)集合运算C)密度可达D)样本与集合运算[单选题]51.()是表现数据分布对称性的指标。A)斜率B)偏斜度C)偏度D)偏离度[单选题]52.下面对属性进行离散化的方法为()A)preprocessing.scale()B)pd.qcut()C)pd.shapeD)pgroupby()[单选题]53.假设已经使用python第三方库sklearn创建线性模型实例linear_model,则linear_model.coef中,属性coef的作用是()A)sigmoid函数B)激活函数C)模型的参数D)以上都不是[单选题]54.设在工业检测中工件的图像受到零均值不相关噪声的影响。如果工件采集装置每秒可采集25幅图,要采用图像平均方法将噪声的方差减少为单幅图像的1/10,那么工件需保持多长时间固定在采集装置前?A)1sB)4sC)10sD)25s[单选题]55.在留出法、交叉验证法和自助法三种评估方法中,()更适用于数据集较小、难以划分训练集和测试集的情况。A)留出法B)交叉验证法C)自助法D)留一法[单选题]56.下列关于缺失值检测的说法中,正确的是()。A)null()和notnull()可以对缺失值进行处理B)dropna()方法既可以删除观测记录,也可以删除特征C)fillna()方法中用来替换缺失值的值只能是DataFrame对象D)Pandas库中的interpolate模块包含了多种插值方法[单选题]57.归结原理的特点是A)发明新的概念和关系B)发现更多的规则C)缓解过拟合的风险D)将复杂的逻辑规则与背景知识联系起来化繁为简[单选题]58.代码selectsubstr('abcdef',2,3)的结果是哪一个:A)bcB)bcdC)cdeD)其他结果都不对[单选题]59.caffe中基本的计算单元为()A)blobB)layerC)netD)Solver[单选题]60.(__)就是把已知物体的模板与图像中所有未知物体进行比较,如果某一未知物体与该模板匹配,则该物体被检测出来,并被认为是与模板相同的物体。A)统计法B)句法识别法C)神经网络法D)模板匹配法[单选题]61.以下对大数据?涌现?描述不正确的是()。A)安全涌现是大数据涌现现象B)小数据可能没价值,但是小数据组成的大数据却很有价值,这叫做价值涌现C)小数据可能质量没问题,但是大数据质量会出现问题这叫质量涌现D)小数据可能不涉及隐私,但是大数据可能严重威胁个人隐私,这叫隐私涌现[单选题]62.在支持向量机中,软间隔支持向量机的目标函数比硬间隔支持向量机多了一个(__)。A)偏置项bB)系数C)松弛变量D)两种情况的目标函数相同[单选题]63.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。A)统计方法B)邻近度C)密度D)聚类技术[单选题]64.下面关于参数估计相关描述不正确的有(__)。A)参数估计是根据样本的统计量来估计总体的参数B)相关分析是参数估计C)点估计是参数估计D)利用样本均值估计总体均值是参数估计[单选题]65.2.当训练集很多时,一种更为强大的结合策略是使用(),即通过另一个学习器来进行结合。A)学习法B)平均法C)投票法D)加权投票法[单选题]66.如果LASSO模型中的惩罚项变大,下列说法正确的是()A)部分回归系数会变为0B)部分回归系数会趋近于0,但不会取值为0C)A和B的表述都正确D)以上说法都不正确[单选题]67.KL散度是根据什么构造的可分性判据()A)最小损失准则B)后验概率C)类概率密度D)几何距离[单选题]68.下面符合特征选择标准的是()A)越少越好B)越多越好C)选择能够反映不同事物差异的特征D)以上均不对[单选题]69.Python不支持的数据类型有()。A)charB)intC)floatD)list[单选题]70.下面不属于创建新属性的相关方法的是:A)特征提取B)特征修改C)映射数据到新的空间D)特征构造[单选题]71.()试图学得一个属性的线性组合来进行预测的函数。A)决策树B)贝叶斯分类器C)神经网络D)线性模型[单选题]72.从句子中删除?and?、?is?、?a?、?an?、?the?这样的词的过程被称为?A)词干提取(Stemming)B)词形还原(Lemmatization)C)停用词(StopWords)D)以上所有[单选题]73.对不具备泛化能力的规则转变为更一般的规则的最基础的技术为A)最大一般泛化B)最小一般泛化C)最大一般特化D)最小一般特化[单选题]74.下面不属于人工神经网络的是()A)卷积神经网络B)循环神经网络C)网络森林D)深度信念网络[单选题]75.下列关于支持向量的说法,正确的是()。A)到分类超平面的距离最近的且满足一定条件的几个训练样本点是支持向量B)训练集中的所有样本点都是支持向量C)每一类样本集中都分别只有一个支持向量D)支持向量的个数越多越好[单选题]76.下面关于贝叶斯分类器描述错误的是()A)以贝叶斯定理为基础B)是基于后验概率,推导出先验概率C)可以解决有监督学习的问题D)可以用极大似然估计法解贝叶斯分类器[单选题]77.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()A)2x+y=4B)x+2y=5C)x+2y=3D)以上都不对[单选题]78.聚类算法属于(__)。A)半监督学习B)有监督学习C)无监督学习D)一种分类方法[单选题]79.采用模板[-11]主要检测___方向的边缘。A)水平B)45°C)垂直D)135°[单选题]80.(__)假设聚类结构能通过一组原型刻画,在显示聚类任务中极为常用。A)原型聚类B)密度聚类C)层次聚类D)AGNES[单选题]81.有关推荐算系统的应用背景说法正确的是()A)帮忙用户找出不需要的信息B)查找用户喜欢的商品C)一种销售的方法D)分析用户的兴趣预测用户的需求[单选题]82.下面关于奇异值分解(SVD)的描述中错误的是()。A)奇异值分解就是把一个线性变换分解成两个线性变换B)奇异值往往对应着矩阵中隐含的重要信息,且重要性和奇异值大小正相关C)SVD是对PCA的改进,其计算成本更低,相同之处是两者的目标都是为了降维D)奇异值不仅可以应用在数据压缩上,还可以对图像去噪[单选题]83.神经网络是由()演化而来A)符号主义B)认知主义C)联结主义D)行为主义[单选题]84.变量的不确定性越大,相对应信息熵的变化是()。A)熵变小B)熵变大C)不变D)以上答案都不正确[单选题]85.下列两个变量之间的关系中,那一个是线性关系A)学生的性别与他(她)的数学成绩B)人的工作环境与他的身体健康状况C)儿子的身高与父亲的身高D)正方形的边长与周长[单选题]86.(__)是交叉验证法的一种特例。A)自助法B)留一法C)交叉验证法D)错误率分析[单选题]87.假如我们使用非线性可分的SVM目标函数作为最优化对象,我们怎么保证模型线性可分:A)设C=1B)设C=0C)设C=无穷大D)以上都不对[单选题]88.遗忘门的作用是()。A)保留重要信息B)去除不重要信息C)信息增加D)输出[单选题]89.以下内容符合物体识别任务的是()。A)不能对图像进行压缩或剪裁B)遵守误差最小准则和最佳近似准则C)可以不指定分类的类别数量D)事先给定样本的分布特征[单选题]90.(__)主要为数据科学和大数据产业链提供大数据分析类的技术支持。A)分析工具B)基础设施C)数据科学平台D)机器学习[单选题]91.假如我们使用Lasso回归来拟合数据集,该数据集输入特征有100个(X1,X2,...,X100)。现在,我们把其中一个特征值扩大10倍(例如是特征X1),然后用相同的正则化参数对Lasso回归进行修正。那么,下列说法正确的是?A)特征X1很可能被排除在模型之外B)特征X1很可能还包含在模型之中C)无法确定特征X1是否被舍弃D)以上说法都不对[单选题]92.分析逻辑回归表现的一个良好的方法是AIC,它与线性回归中的R平方相似。有关AIC,以下哪项是正确的?A)具有最小AIC值的模型更好B)具有最大AIC值的模型更好C)视情况而定D)以上都不是[单选题]93.下列的数组统计计算中,用于计算数组中最大值的方法是()。A)maxB)maximumC)minD)maximal[单选题]94.采用主成分分析法映射到低维空间,将最小的d-d′个特征向量舍弃,产生的影响是()。A)使样本采样密度增大B)丢失最优解C)增大噪声D)使样本采样密度减小[单选题]95.下面符合数据产品链的有(__):1.数据,2.元数据,3.数据对象,4.辅助服务,5.集成应用,6.软件系统,7.增值服务,8.基础设施,9.硬件系统A)23657B)234C)135D)238497[单选题]96.属于监督学习的机器学习算法是()A)贝叶斯分类器B)主成分分析C)K-MeansD)高斯混合聚类[单选题]97.SVM的效率依赖于A)核函数的选择B)核参数C)软间隔参数D)以上所有[单选题]98.特征工程不包括()。A)特征构建B)特征合并C)特征选择D)特征提取[单选题]99.关于异常值的说法,下列选项中描述错误的是()。A)异常值是指样本中明显偏离其余观测值的个别值B)可以使用3σ原则检测异常值C)可以使用Pandas中的箱线图检测异常值D)异常值可以使用其它的值来替换[单选题]100.以下关于PMF(概率质量函数),PDF(概率密度函数),CDF(累积分布函数)描述错误的是()A)PDF描述的是连续型随机变量在特定取值区间的概率B)CDF是PDF在特定区间上的积分C)PMF描述的是离散型随机变量在特定取值点的概率D)有一个分布的CDF函数H(x),则H(a)等于P(X<=a)[单选题]101.机器学习训练时,Mini-Batch的大小优选为2个的幂,如256或512。它背后的原因是什么?A)Mini-Batch为偶数的时候,梯度下降算法训练的更快B)Mini-Batch设为2的幂,是为了符合CPU、GPU的内存要求,利于并行化处理C)不使用偶数时,损失函数是不稳定的D)以上说法都不对[单选题]102.下面关于ZooKeeper客户端使用命令,错误的是()。A)创建节点:create/nodeB)列出节点:cat/nodeC)获取节点数据:get/nodeD)删除节点:delete/node[单选题]103.关于层次聚类算法:①不断重复直到达到预设的聚类簇数;②不断合并距离最近的聚类簇;③对初始聚类簇和相应的距离矩阵初始化;④对合并得到的聚类簇进行更新。正确的执行顺序为()。A)①②③④B)①③②④C)③②④①D)③④①②[单选题]104.规则学习中ILP的全称是A)归纳逻辑程序设计B)内部逻辑程序设计C)信息泄露防护D)引入层次程序设计[单选题]105.下列误差和错误中,哪一项是由于训练样本的错误而导致?A)泛化误差B)偏差C)方差D)噪声[单选题]106.正则化的回归分析,可以避免()A)线性化B)过拟合C)欠拟合D)连续值逼近[单选题]107.关于Python变量的使用,说法错误的是()。A)变量不必事先声明B)变量无需先创建和赋值即可直接使用C)变量无须指定类型D)可以使用del释放资源[单选题]108.现在在hadoop集群当中的配置文件中有这么两个配置,请问假如集群当中有一个节点宕机,主节点namenode需要多长时间才能感知到?<name>erval</name><value>3</value></property><name>erval</name><value>2000</value></property>A)26秒B)34秒C)30秒D)20秒[单选题]109.如下代码中plt的含义是()importmatplotlib.pyplotaspltA)别名B)类名C)函数名D)变量名[单选题]110.OpenCV中的CV指的是()A)开B)开源C)计算机D)计算机视觉[单选题]111.下图显示了三个逻辑回归模型的AUC-ROC曲线。不同的颜色表示不同超参数值的曲线。以下哪个AUC-ROC会给出最佳果?style="width:295px;"class="fr-ficfr-filfr-dibcursor-hover">A)黄色B)粉红色C)黑色D)都相同[单选题]112.只有非零值才重要的二元属性被称作:A)计数属性B)离散属性C)非对称的二元属性D)对称属性[单选题]113.下列关于ndarray对象索引的描述错误的是()。A)ndarray对象中的元素可以通过索引和切片来访问和修改B)花式索引是将整数数组或列表进行索引,然后将数组或列表中的每个元素作为下标进行取值C)布尔索引是将一个布尔数组做为数组索引,返回的数据是布尔数组中True对应位置的值D)ndarray对象的多维数组索引和切片的使用方式与列表的使用方式完全相同[单选题]114.在HSV色彩空间中的H表示色调,则其取值范围在()。A)[0,255]B)[0,256]C)[0,180]D)[0,181][单选题]115.在IBM提出的企业管理范畴中,企业数据不包含(__)。A)元数据B)主数据C)关系数据D)业务数据[单选题]116.在有关数据仓库测试,下列说法不正确的是:A)在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.B)当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.C)系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.D)在测试之前没必要制定详细的测试计划.[单选题]117.在Numpy中向量转成矩阵使用()。A)arrange()B)reval()C)reshape()D)random()[单选题]118.Softmax算法中温度趋近于0时Softmax将趋于A)仅探索B)仅利用C)全探索D)全利用[单选题]119.决策树模型中应如何妥善处理连续型属性A)直接忽略B)利用固定阈值进行离散化C)根据信息增益选择阈值进行离散化D)随机选择数据标签发生变化的位置进行离散化[单选题]120.增加以下哪些超参数可能导致随机森林模型过拟合数据(1).决策树的数量;(2).决策树的深度;(3).学习率。A)(1)B)(2)C)(3)D)(2)、(3)[单选题]121.给定的数据集包括?胡佛塔?和其他一些塔的图像。现在要使用PCA(特征脸)和最近邻方法来构建一个分类器,可以预测新图像是否显示?胡佛塔?。该图给出了输入的训练图像样本alt="">为了从?特征脸?算法获得合理的性能,这些图像将需要什么预处理步骤?A)1B)2C)1和2D)都不是[单选题]122.(__)是指为最小化总体风险,只需在每个样本上选择能使特定条件风险最小的类别标记。A)支持向量机B)间隔最大化C)线性分类器D)贝叶斯判定准则[单选题]123.N-gram是一种简单有效的统计语言模型,通常n采用1-3之间的值,它们分别称为unigram、bigram和trigram。现有给定训练语料合计三个文档如下:D1:JohnreadMobyDickD2:Maryreadadifferentbook,D3:ShereadabookbyCher利用bigram求出句子?Johnreadabook?的概率大约是()A)1B)0.06C)0.09D)0.0008[单选题]124.中心极限定理是噪声抑制的中的统计原理,其内容是:均值分布总会收敛于一个()。A)正态分布B)泊松分布C)多项式分布D)均值分布[单选题]125.以下关于卷积神经网络,说法正确的是()A)卷积神经网络只能有一个卷积核B)卷积神经网络可以有多个卷积核,但是必须同大小C)卷积神经网络可以有多个卷积核,可以不同大小D)卷积神经网络不能使用在文本这种序列数据中[单选题]126.CART决策树使用?基尼指数?来选择划分属性时,使划分后基尼指数()的属性为最优划分属性。A)最大B)最小C)随机选择D)按序选择[单选题]127.机器学习算法在学习过程中对某种类型假设的偏好称为()。A)训练偏好B)归纳偏好C)分析偏好D)假设偏好[单选题]128.下面哪项不是常用的自然语言处理技术:()A)词条化B)词性标注C)句法分析D)交叉验证[单选题]129.默认的存储级别()。A)MEMORY_ONLYB)MEMORY_ONLY_SERC)MEMORY_AND_DISKD)MEMORY_AND_DISK_SER[单选题]130.线性判别分析是一种经典的(__)学习方法。A)线性B)非线性C)聚类D)降维[单选题]131.下列关于异方差(Heteroskedasticity)说法正确的是?A)线性回归具有不同的误差项B)线性回归具有相同的误差项C)线性回归误差项为零D)以上说法都不对[单选题]132.正是由于BP神经网络的强大的表示能力,它经常遭遇(__),其训练误差持续降低,但测试误差却可能上升。A)欠拟合B)误差过大C)误差过小D)过拟合[单选题]133.以下对k-means聚类算法解释正确的是()A)能自动识别类的个数,随即挑选初始点为中心点计算B)能自动识别类的个数,不是随即挑选初始点为中心点计算C)不能自动识别类的个数,随即挑选初始点为中心点计算D)不能自动识别类的个数,不是随即挑选初始点为中心点计算[单选题]134.()不是卷积神经网络的损失函数。A)sigmoidB)L1范数C)L2范数D)MSE[单选题]135.在概率图模型中,(__)模型是结构最简单的动态贝叶斯网,主要用于时序数据建模。A)马尔可夫随机场B)隐马尔可夫模型C)条件随机场D)逆误差传播[单选题]136.以下不属于影响聚类算法结果的主要因素有()A)已知类别的样本质量B)分类准则C)特征选取D)模式相似性测度[单选题]137.SVM(支持向量机)与LR(逻辑回归)的数学本质上的区别是什么?A)损失函数B)是否有核技巧C)是否支持多分类D)其余选项皆错[单选题]138.(__)不属于离中趋势分析。A)极差B)平均差C)误差D)标准差[单选题]139.关于欠拟合(under-fitting),正确的是()。A)训练误差较大,测试误差较小B)训练误差较小,测试误差较大C)训练误差较大,测试误差较大D)训练误差较小,测试误差较小[单选题]140.关于过拟合的说法,正确的是(A)指模型学习不足B)会使得模型泛化能力高C)会强化欠拟合D)可以通过交叉验证改善[单选题]141.下面不属于数据科学主要研究内容的有(__)。A)基础理论B)数据管理C)数据分析D)数据商务[单选题]142.下面关于分析学习描述不正确的是(__)。A)分析学习是相对归纳学习的一种提法B)分析学习使用先验知识来减小待搜索假设空间的复杂度C)分析学习的优点是可以从稀疏数据中学习D)分析学习通过统计推理来论证[单选题]143.在高斯混合分布中,其隐变量的含义是:A)表示高斯分布的方差B)表示高斯分布的均值C)表示数据分布的概率D)表示数据从某个高斯分布中产生[单选题]144.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?A)根据内容检索B)建模描述C)预测建模D)寻找模式和规则[单选题]145.()不属于聚类性能度量外部指标。A)Jaccard系数B)FM系数C)Rand指数D)DB指数[单选题]146.在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()(假设precision=TP/(TP+FP),recall=TP/(TP+FN)。)A)Accuracy:(TP+TN)/allB)F-value:2recallprecision/(recall+precision)C)G-mean:sqrt(precision*recall)D)AUC:ROC曲线下面积[单选题]147.二分类任务中,有三个分类器h1,h2,h3,三个测试样本x1,x2,x3。假设1表示分类结果正确,0表示错误,h1在x1,x2,x3的结果分别(1,1,0),h2,h3分别为(0,1,1),(1,0,1),按投票法集成三个分类器,下列说法正确的是()(注:0,1不是类别标签,而是模型预测结果是正确还是错误的意思)A)集成提高了性能B)集成没有效果C)集成降低了性能D)集成效果不能确定[单选题]148.Pandas中转为日期格式的方法是()。A)datetime()B)to_datetime()C)to_time()D)date()[单选题]149.线性模型有很好的(__)。A)可描述性B)分类结果C)可解释性D)聚类结果[单选题]150.n!后面有多少个0,6!=1*2*3*4*5*6=720.720后面有1个0,n=10000,求n!。A)2498B)2499C)2450D)2451[单选题]151.可用作数据挖掘分析中的关联规则算法有()。A)机器学习、对数回归、关联模式B)K均值法、SOM机器学习C)Apriori算法、FP-Tree算法D)RBF机器学习、K均值法、机器学习[单选题]152.使用{}定义的数据类型是()。A)字典B)集合C)列表D)字典或集合[单选题]153.有如下数据集,分别使用1-最近邻,3-最近邻,对数据点x=5.0分类,则:class="fr-ficfr-dibcursor-hover"A)最近邻:+;3-最近邻:-B)最近邻:+;3-最近邻:+C)最近邻:-;3-最近邻:-D)最近邻:-;3-最近邻:+[单选题]154.剪枝是决策树学习算法对付(__)的主要手段。A)欠拟合B)过拟合C)样本数过多D)特征数过多[单选题]155.支持向量机模型,选择RBF函数作为kernel后,对gamma(函数自带参数)画散点图,如果忘记在图上标记gamma值,以下哪一个选项可以解释下图的gamma值(图1,2,3从左向右,gamma值分别为g1、g2、g3)?A)g1>g2>g3B)g1=g2=g3C)g1<g2<g3D)g1>=g2>=g3E)g1<=g2<=g3第2部分:多项选择题,共49题,每题至少两个正确答案,多选或少选均不得分。[多选题]156.支持向量机是一类模型的统称,通常包括A)线性非可分向量机B)非线性支持向量机C)线性支持向量机D)线性可分支持向量机[多选题]157.数据脱敏操作必须满足().A)单向性B)无残留C)易于实现D)不对称加密[多选题]158.下面那些函数属于常用的激活函数。()A)SigmoidB)TanhC)MeanD)Relu[多选题]159.随机森林有哪些特点___A)简单B)容易实现C)计算开销小D)起始性能相对较差[多选题]160.下列关于子集搜索方法的描述正确的是A)前向搜索是从单特征子集开始,每次尝试逐渐增加相关特征B)后向搜索是从完整的特征集合开始,每次尝试去掉一个无关特征C)双向搜索是每轮逐渐增加相关特征、同时减少无关特征D)子集搜索方法的策略都是贪心的[多选题]161.关于Zookeeper选举机制,说法正确的有()A)优先检查ZXID,ZXID比较大的服务器优先作为LeaderB)如果ZXID相同,那么就比较myid,myid较大的服务器作为Leader服务器C)集群的每个服务器收到投票后,首先判断该投票的有效性,如检查是否是本轮投票,是否来自LOOKING状态的服务器D)每次投票后,服务器都会统计投票信息,判断是否已经有过半机器接受到相同的投票信息[多选题]162.下列关于Ridge回归的说法,正确的是()。A)若λ=0,则等价于一般的线性回归B)若λ=0,则不等价于一般的线性回归C)若λ=+∞,则得到的权重系数很小,接近于零D)若λ=+∞,则得到的权重系数很大,接近与无穷大[多选题]163.信息熵(InformationEntropy)来度量随机变量的不确定性。在使用一个特征切分数据集后,可用来量化分类不确定性降低的程度的具体指标有?A)信息增益B)信息熵汇总值C)信息增益比D)信息熵累计值[多选题]164.以下哪些机器学习算法可以不对特征做归一化处理()A)随机森林B)逻辑回归C)SVMD)决策树[多选题]165.四种类型的数据节点ZnodeA)PERSISTENT-持久节点B)EPHEMERAL-临时节点C)PERSISTENT_SEQUENTIAL-持久顺序节点D)EPHEMERAL_SEQUENTIAL-临时顺序节点[多选题]166.让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能的有哪些?A)图半监督学习B)半监督SVMC)半监督聚类D)直推学习[多选题]167.(__)由两个簇的最近样本决定,(__)由两个簇的最远样本决定,(__)由两个簇的所有样本共同决定。A)样本距离B)最小距离C)最大距离D)平均距离[多选题]168.最近邻分类中测度度量,经常采用范数距离,以下属于范数距离的是()A)AB)BC)CD)D[多选题]169.决策树常用的特征分裂方法()A)信息增益B)基尼指数C)距离计算D)频率计算[多选题]170.循环神经网络主要被应用于哪些场景。()A)语音识别B)语音建模C)机器翻译D)图像识别[多选题]171.()是LSTM有的模块。A)遗忘门B)输出门C)池化门D)信息增加门[多选题]172.k-means的一般过程是()A)从数据集D中以某种规则选择k个样本或者k个在值域范围内的点作为初始簇的中心B)计算簇中心之外的每个样本和每个簇中心的距离,将样本归属于最近的的簇C)计算簇内均值,将均值作为簇的中心D)直到簇中心的变化小于一定的阈值或者即便簇中心变动,但是簇内样本不变动[多选题]173.数据科学项目的基本流程涉及发活动包括(__)和数据的管理与获取、结果的可视化与文档化、模式/模型的验证和优化。A)模式/模型的应用和维护B)项目目标定义C)项目成本控制D)模式/模型的洞见[多选题]174.机器学习包含下列哪几种训练学习方法?A)监督学习B)混合学习C)半监督学习D)无监督学习[多选题]175.(__)是常用的图像识别方法。A)统计法B)句法识别法C)神经网络法D)模板匹配法[多选题]176.下面算法中不属于图像锐化处理的是()。A)低通滤波B)加权平均法C)高通滤波D)中值滤波[多选题]177.假如使用一个较复杂的回归模型来拟合样本数据,使用岭回归,调试正则化参数λ,来降低模型复杂度。若λ较大时,关于偏差()和方差(variance),下列说法正确的是(C)A)若λ较大时,偏差减小,方差减小B)若λ较大时,偏差减小,方差增大C)若λ较大时,偏差增大,方差减小D)若λ较大时,偏差增大,方差增大[多选题]178.让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能的有哪些?A)监督学习B)半监督SVMC)半监督聚类D)直推学习[多选题]179.()可以帮助解决训练集在特征空间中线性不可分的问题。A)硬间隔B)软间隔C)核函数D)拉格朗日乘子法[多选题]180.(__)是基于字符串匹配的分词方法。A)正向最大匹配法B)逆向最大匹配法C)最少切分D)隐马尔科夫模型[多选题]181.Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于(__)、(__)、(__)规则。A)逻辑关联B)布尔关联C)单维D)单层[多选题]182.数据治理的基本活动主要包含(__)和改进。A)计划B)执行C)记录D)检查[多选题]183.特征选择在子集生成与搜索方面引入了人工智能搜索技术和子集评价方法。其中人工智能搜索技术有()。A)分支界限法B)浮动搜索法C)信息熵D)AIC[多选题]184.两种代表性的精确推断方法为A)变量消去B)信念传播C)近似推断D)近似推测[多选题]185.从理论上讲数据能力评价方法有(__)。A)评价理论B)评价结果C)评价过程D)评价质量[多选题]186.下面关于L1范式正则化描述正确的是(__)。A)压缩感知问题可以通过L1范数最小化问题求解B)L1范数正则化有助于降低过拟合风险C)采用L1范数时平方误差项等值线与正则化项等值线的交点常出现在坐标轴上D)L1范数正则化比L2范数正则化更有易于获得稀疏解[多选题]187.下列属于实现朴素贝叶斯使用方式的为A)若对预测速度要求较高,可采用朴素贝叶斯估计所有涉及Giallo;B)若任务数据更替频繁,结合懒惰学习采用;C)若数据不断增加,则可在估计值基础上,对新增样本的属性所涉及概率估计;D)属性相关事件上采用;[多选题]188.使用多元线性回归模型做房价预测,可以考虑以下哪些因素?A)地理位置B)交通情况C)人流量密集程度D)历史价格[多选题]189.以下哪些产品属于数据产品A)数据报表平台B)DMPC)搜索与精准化产品D)风控产品[多选题]190.机器学习算法按学习方式分类可分为A)有监督学习B)半监督学习C)无监督学习D)强化学习[多选题]191.线性模型的基本形式有()。A)线性回归B)对数几率回归(二分类问题)C)线性判别分析(Fisher判别分析)D)多分类学习[多选题]192.下列关于嵌入式选择描述正确的是(__)。A)嵌入式选择是将特征选择过程与学习器训练过程融为一体B)嵌入式选择在学习器训练过程中自动地进行了特征选择C)对于嵌入式选择,特征选择过程与学习器训练过程在同一个优化过程中完成D)嵌入式特征选择方法直接针对给定学习器进行优化[多选题]193.下列关于聚类法方法描述正确的是(__)。A)k均值算法属于原型聚类B)学习向量化算法试图找到一组原型向量来刻画聚类结构C)高斯混合聚类采用概念模型来表达聚类原型D)学习向量化算法属于层次聚类[多选题]194.Analytics1.0的主要特点有().A)分析活动滞后于数据的生成。B)重视结构化数据的分析。C)以对历史数据的理解为主要目的。D)注重描述性分析。[多选题]195.从方法体系看,数据可视化方法可以分为三个不同的层次(__)。A)领域方法B)基础方法C)方法论D)智能方法[多选题]196.下列关于密度聚类说法,错误的是()。A)DBSCAN是一种著名的密度聚类算法B)密度聚类从样本数量的角度来考察样本之间的可连接性C)密度聚类基于不可连接样本不断扩展聚类簇,以获得最终的聚类结果D)密度直达关系通常满足对称性[多选题]197.贝叶斯网的推断描述正确的为A)通过已知变量观测值来推测待查询变量的过程;B)已知变量观测值称为证据;C)需借助近似推断若网络结点较多时;D)吉布斯采样可完成贝叶斯网的推断;[多选题]198.下列关于BP网络说法正确的是(__)。A)标准BP算法每次仅针对一个训练样例更新连接权和阈值B)BP神经网络经常遭遇过拟合C)早停策略可用来缓解BP网络的过拟合问题D)晚停策略可用来缓解BP网络的欠拟合问题[多选题]199.感知机中,(__)接收外界输入信号后传递给(__)。A)输入层B)输出层C)第一层D)第二层[多选题]200.下列哪些分析需要机器学习()。A)预测移动运营商用户未来使用的网络流量B)比较不同移动运营商用户对漫游业务的使用量C)寻找移动运营商用户对某类套餐使用的潜在客户D)统计移动运营商的用户在某段时间对短信的使用数量[多选题]201.以下属于仿生算法的是()A)蚁群算法B)遗传算法C)人工神经网络D)归并排序算法[多选题]202.在用随机梯度算法训练回归模型前,要把各特征缩放到相同尺寸。把特征缩放到相同尺寸的常用方法有:A)向量化B)正则化C)归一化D)标准化[多选题]203.机器学习建模需要的高质量数据的特点是()A)准确B)完整C)一致D)时效E)可信[多选题]204.假定某同学使用NaiveBayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是:A)这个被重复的特征在模型中的决定作用会被加强B)模型效果相比无重复特征的情况下精确度会降低C)如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样。D)当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题E)NB可以用来做最小二乘回归F)以上说法都不正确第3部分:判断题,共33题,请判断题目是否正确。[判断题]205.‌若参数C(costparameter)被设为无穷,只要最佳分类超平面存在,它就能将所有数据全部正确分类A)正确B)错误[判断题]206.EM算法用于训练样本完整的情况下进行估计A)正确;B)错误;[判断题]207.Lasso回归是对线性回归的优化,在线性回归的基础上,对损失函数增加了一个L1正则项,目的是降低方差,提高模型泛化能力。A)正确B)错误[判断题]208.面对大规模数据集时,模型训练更容易发生过拟合现象。A)正确B)错误[判断题]209.Seaborn是Python中基于Matplotlib的数据可视化工具,它提供了很多高层封装的函数。A)正确B)错误[判断题]210.在初始数据量足够时,自助法比交叉验证法更为常用。A)正确B)错误[判断题]211.集成学习中不同的多样性增强机制不可同时使用A)正确B)错误[判断题]212.特征空间越大,过拟合的可能性越大。A)正确B)错误[判断题]213.?过拟合是有监督学习的挑战,而不是无监督学习?,以上说法是否正确A)正确B)错误[判断题]214.单次使用留出法得到的结果往往稳定可靠。__A)正确B)错误[判断题]215.ndarray对象的数据类型可以通过type()方法进行转换。A)正确B)错误[判断题]216.岭回归是对线性回归的优化,在线性回归的基础上,对损失函数增加了一个L2正则项,目的是降低方差,提高模型泛化能力。A)正确B)错误[判断题]217.2.Bagging被誉为?代表集成学习技术水平的方法?A)正确B)错误[判断题]218.回归预测的目标函数是离散值,分类预测的目标函数是连续值。A)正确B)错误[判断题]219.具有多层索引的DataFrame对象经过stack()重塑后,返回的是一个Series对象。A)正确B)错误[判断题]220.监督学习的学习数据既有特征(feature),也有标签(label)。A)正确B)错误[判断题]221.k-means算法是一种典型的基于距离的聚类算法,通过计算不同样本间的距离来判断他们的相近关系的,相近的就会放到同一个类别A)正确B)错误[判断题]222.在操作DataFrame对象时,可以通过指定索引名的方式获取数据。A)正确B)错误[判断题]223.机器学习是人工智能里面一个非常重要的技术,深度学习是机器学习里面的一种方法。A)正确B)错误[判断题]224.决策树通过预剪枝和后剪枝提升模型的泛化能力。()A)正确B)错误[判断题]225.在机器学习算法中,没有最好的算法,只有?更适合?解决当前任务的算法A)正确B)错误[判断题]226.循环神经网络所使用的训练法则叫做时序反向传播,简称BPTTA)正确B)错误[判断题]227.聚类属于有监督式学习A)正确B)错误[判断题]228.训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响,例如在分类任务中至少要保持样本的类别比例相似。A)正确B)错误[判断题]229.sort()方法可以对任何轴上的数据进行排序A)正确B)错误[判断题]230.Logistic回归和Softmax回归都只能处理二元分类问题A)正确B)错误[判断题]231.在各类机器学习算法中,过拟合和欠拟合都是可以彻底避免的。A)正确B)错误[判断题]232.信息熵是度量样本集合纯度最常用的一种指标。信息熵的值越大,说明样本集合的纯度越高。A)正确B)错误[判断题]233.Bagging只适用于二分类任务A)正确B)错误[判断题]234.Series对象可以具有多层索引结构。A)正确B)错误[判断题]235.Tensorflow是等下最流行的深度学习框架之一A)正确B)错误[判断题]236.Relief可以处理多分类问题A)正确B)错误[判断题]237.基尼指数越小,数据集的纯度越高。__A)正确B)错误第4部分:问答题,共23题,请在空白处填写正确答案。[问答题]238.一般的多层感知器包含哪三种类型层次的神经元(按顺序填写)。[问答题]239.将原始空间中的向量作为输入向量,并返回特征空间(转换后的数据空间,可能是高维)中向量的点积的函数称为[问答题]240.如果两个变量相关,它们()线性关系。A)一定是B)不一定是[问答题]241.PCA方法满足的两个重要性质是:[问答题]242.?对于PCA处理后的特征,其朴素贝叶斯特征相互独立的假设一定成立,因为所有主成分都是正交的,所以不相关?。这句话是否正确?A)TrueB)False[问答题]243.假设要使用机器学习算法预测明天的最高气温有多少度,这是一个()任务[问答题]244.简述什么是k-flod交叉验证:?[问答题]245.请简述没有免费午餐定理(NFL)[问答题]246.有N个样本,一般用于训练,一般用于测试。若增大N值,则训练误差和测试误差之间的差距会如何变化?A)增大B)减小[问答题]247._____是决策树学习算法对付?过拟合?的主要手段。[问答题]248.K-means算法中一些确定初始质心向量的办法(3种)[问答题]249.试析随机森林为何比决策树Bagging集成的训练速度更快。[问答题]250.数据降维方法一般分为哪些种类[问答题]251.数据可视化的内涵是什么?[问答题]252.一般的,一棵决策树包含一个______,若干个内部结点和若干个_______。[问答题]253.聚类结果()高且()低。[问答题]254.Scipy中的()模块包含大量用于科学计算的常数。[问答题]255.若训练过程的目标是预测连续值,此类学习任务称为()。[问答题]256.sklearn包中的preprocessing主要用于()[问答题]257.PCA是一种很好的技术,因为它很容易理解并通常用于数据降维。获得特征值λ1≥λ2≥≥λN并画图。看看f(M)(贡献率)如何随着M而增加,并且在M=D处获得最大值1,给定两图:alt="">上述哪个图表显示PCA的性能更好?其中M是主要分量,D是特征的总数。A)左图B)右图[问答题]258.对3个32×32的特征图进行卷积层操作,卷积核10个5×5,Stride是1,pad为2,输出特征图的尺度是多少?卷积层的参数是多少?写出公式和结果。[问答题]259.聚类将数据集中的样本划分为()的子集。[问答题]260.为什么要有放回的抽样?1.答案:B解析:2.答案:A解析:3.答案:B解析:召回率的定义为正确预测为正占全部正样本的比例。4.答案:A解析:深度神经网络的成功,已经证明,增加神经网络层数,可以增加模型范化能力,即,训练数据集和测试数据集都表现得更好.但是,在这篇文献中,作者提到,更多的层数,也不一定能保证有更好的表现.所以,不能绝对地说层数多的好坏,只能选A5.答案:C解析:6.答案:D解析:本题考查的是k折交叉验证和Bootstrap的基本概念。Bootstrap是统计学的一个工具,思想就是从已有数据集D中模拟出其他类似的样本Dt。Bootstrap的做法是,假设有N笔资料,先从中选出一个样本,再放回去,再选择一个样本,再放回去,共重复N次。这样我们就得到了一个新的N笔资料,这个新的Dt中可能包含原D里的重复样本点,也可能没有原D里的某些样本,Dt与D类似但又不完全相同。值得一提的是,抽取-放回的操作不一定非要是N,次数可以任意设定。例如原始样本有10000个,我们可以抽取-放回3000次,得到包含3000个样本的Dt也是完全可以的。因此,使用bootstrap只相当于有1个模型需要训练,所需时间最少。留一法(Leave-One-Out)交叉验证每次选取N-1个样本作为训练集,另外一个样本作为验证集,重复N次。因此,留一法相当于有N个模型需要训练,所需的时间最长。5折交叉验证把N个样本分成5份,其中4份作为训练集,另外1份作为验证集,重复5次。因此,5折交叉验证相当于有5个模型需要训练。2次重复的5折交叉验证相当于有10个模型需要训练。7.答案:B解析:8.答案:A解析:SSE是平方误差之和(SumofSquaredError),SSE=(-0.2)^2+(0.4)^2+(-0.8)^2+(1.3)^2+(-0.7)^2=3.029.答案:A解析:支持向量机优化性问题的一个凸二次规划问题。10.答案:B解析:11.答案:B解析:12.答案:A解析:13.答案:B解析:14.答案:D解析:15.答案:B解析:主成分选择使variance越大越好,在这个前提下,主成分越少越好。16.答案:B解析:17.答案:B解析:18.答案:C解析:由于在图3中,决策边界不平滑,表明其过度拟合数据。19.答案:C解析:20.答案:A解析:21.答案:A解析:假设检验又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。22.答案:B解析:23.答案:D解析:24.答案:D解析:25.答案:D解析:机器学习中,在样本量不充足的情况下,为了充分利用数据集对算法效果进行测试,将数据集随机分为k个包,每次将其中一个包作为测试集,剩下k-1个包作为训练集进行训练。K折交叉验证的的k值不能太大,也不能太小。k值过大,会降低运算速度。若k与样本数量N相同,则是留一法(Leave-One-Out)。k值较大,训练集越接近整个训练样本,有利于减小模型偏差(bias)。一般可以将k作为超参数调试,根据表现选择合适的k值。K折交叉验证能够有效提高模型的学习能力,类似于增加了训练样本数量,使得学习的模型更加稳健,鲁棒性更强。选择合适的k值能够有效避免过拟合。26.答案:A解析:27.答案:B解析:28.答案:C解析:29.答案:D解析:30.答案:D解析:31.答案:A解析:32.答案:C解析:当一个DataFrame具有层次索引时,使用stack()方法会返回一个DataFrame对象。33.答案:A解析:34.答案:D解析:35.答案:B解析:Boostrap方法是传统地随机抽样,验证一次的验证方法,只需要训练1次模型,所以时间最少。留一个测试样本的交叉验证,需要n次训练过程(n是样本个数),这里,要训练1000个模型。5折交叉验证需要训练5个模型。重复2次的5折交叉验证,需要训练10个模型。36.答案:A解析:因为正则化意味着更多的罚值和图A所示的较简单的决策界限。37.答案:C解析:38.答案:B解析:39.答案:A解析:40.答案:D解析:线性回归对数据中的离群点比较敏感。虽然c点也是离群点,但它接近与回归线,残差较小。因此,d点对拟合回归线的影响最大。41.答案:C解析:42.答案:D解析:43.答案:D解析:机器学习中发生过拟合的主要原因有:1使用过于复杂的模型;2数据噪声较大;3训练数据少。由此对应的降低过拟合的方法有:1简化模型假设,或者使用惩罚项限制模型复杂度;2进行数据清洗,减少噪声;3收集更多训练数据。本题中,A对应于增加训练数据,B为简化模型假设,C为数据清洗。D选项中,高斯核的使用增加了模型复杂度,容易引起过拟合。选择合适的核函数以及软边缘参数C就是训练SVM的重要因素。一般来讲,核函数越复杂,模型越偏向于过拟合;C越大模型越偏向于过拟合,反之则拟合不足。44.答案:C解析:45.答案:B解析:46.答案:A解析:参数估计是统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。47.答案:D解析:48.答案:B解析:49.答案:A解析:50.答案:A解析:51.答案:B解析:偏斜度是对统计数据分布偏斜方向及程度的度量。在偏态分布中,当偏斜度为正值时,分布正偏,即众数位于算术平均数的左侧;当偏斜度为负值时,分布负偏,即众数位于算术平均数的右侧。52.答案:B解析:53.答案:C解析:54.答案:B解析:55.答案:C解析:56.答案:B解析:57.答案:D解析:58.答案:B解析:59.答案:B解析:60.答案:D解析:61.答案:C解析:62.答案:C解析:63.答案:A解析:64.答案:B解析:65.答案:A解析:66.答案:A解析:67.答案:C解析:68.答案:C解析:69.答案:A解析:70.答案:B解析:71.答案:D解析:72.答案:C解析:73.答案:B解析:74.答案:C解析:75.答案:A解析:在支持向量机中,距离超平面最近的且满足一定条件的几,个训练样本点被称为支持向量。一般情况下,支持向量的个数等于训练样本数目,并不是越多越好。76.答案:B解析:77.答案:C解析:78.答案:C解析:79.答案:C解析:80.答案:A解析:81.答案:D解析:82.答案:A解析:83.答案:C解析:84.答案:B解析:信息熵(informationentropy)是度量样本集合纯度最常用的一种指标,信息熵越大,变量的不确定性越大。85.答案:D解析:86.答案:B解析:87.答案:C解析:C无穷大保证了所有的线性不可分都是可以忍受的.常数C决定了松弛变量之和的影响程度,如果越大,影响越严重,那么在优化的时候会更多的注重所有点到分界面的距离,88.答案:B解析:89.答案:B解析:90.答案:A解析:91.答案:B解析:92.答案:A解析:AIC信息准则即Akaikeinformationcriterion,是衡量统计模型拟合优良性的一种标准,由于它为日本统计学家赤池弘次创立和发展的,因此又称赤池信息量准则。考虑到AIC=2k-2In(L),所以一般而言,当模型复杂度提高(k增大)时,似然函数L也会增大,从而使AIC变小,但是k过大时,似然函数增速减缓,导致AIC增大,模型过于复杂容易造成过拟合现象。目标是选取AIC最小的模型,AIC不仅要提高模型拟合度(极大似然),而且引入了惩罚项,使模型参数尽可能少,有助于降低过拟合的可能性。综上,我们一般选择逻辑回归中最少的AIC作为最佳模型。93.答案:A解析:94.答案:A解析:低维空间与原始高维空间必有不同,因为对应于最小的d-d'个特征值的特征向量被舍弃了,这是降维导致的结果。但舍弃这部分信息往往是必要的:一方面舍弃这部分信息之后能使样本的采样密度增大,这正是降维的重要动机;另一方面,当数据受到噪声影响时,最小的特征值所对应的特征向量往往与噪声有关。将它们舍弃能在一定程度上起到去噪的效果。95.答案:A解析:96.答案:A解析:97.答案:D解析:SVM的效率依赖于以上三个基本要求,它能够提高效率,降低误差和过拟合98.答案:B解析:99.答案:A解析:异常数据并不一定是数据错误,所以会根据实际情况下选择删除或保留。100.答案:A解析:101.答案:B解析:102.答案:B解析:103.答案:C解析:层次聚类算法的过程是对初始聚类簇和相应的距离矩阵初始化;不断合并距离最近的聚类簇;对合并得到的聚类簇进行更新;不断重复直到达到预设的聚类簇数。104.答案:A解析:105.答案:D解析:106.答案:B解析:107.答案:B解析:108.答案:B解析:109.答案:A解析:110.答案:D解析:111.答案:A解析:112.答案:C解析:113.答案:D解析:例如想要获取二维数组中的某个数,需要使用?arr[x,y]?形式来获取114.答案:C解析:115.答案:D解析:116.答案:D解析:117.答案:C解析:118.答案:B解析:119.答案:C解析:120.答案:B解析:121.答案:C解析:122.答案:D解析:123.答案:B解析:124.答案:A解析:125.答案:C解析:126.答案:B解析:127.答案:B解析:128.答案:D解析:129.答案:A解析:130.答案:A解析:131.答案:A解析:异方差性是相对于同方差(Homoskedasticity)而言的。所谓同方差,是为了保证回归参数估计量具有良好的统计性质,经典线性回归模型的一个重要假定:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。通常来说,奇异值的出现会导致异方差性增大。132.答案:D解析:133.答案:C解析:134.答案:A解析:135.答案:B解析:136.答案:A解析:137.答案:A解析:LR的损失函数从最大似然的角度理解;SVM损失函数的原始形式则是从最大化分类间隔的角度出发。138.答案:C解析:139.答案:C解析:欠拟合是指对训练样本的一般性质尚未学好,因此训练误差和测试误差均较大140.答案:D解析:141.答案:D解析:142.答案:D解析:143.答案:D解析:首选依赖GMM的某个高斯分量的系数概率(因为系数取值在0~1之间,因此可以看做是一个概率取值)选择到这个高斯分量,然后根据这个被选择的高斯分量生成观测数据。然后隐变量就是某个高斯分量是否被选中:选

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论