大数据分析师高级试题附有答案_第1页
大数据分析师高级试题附有答案_第2页
大数据分析师高级试题附有答案_第3页
大数据分析师高级试题附有答案_第4页
大数据分析师高级试题附有答案_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析师(高级)试题[复制](A卷)

姓名:______

分数:_______一、选择题(每题1分,共80分)1、按下()键能终止当前运行的命令[单选题]*A.Ctrl-C(正确答案)B.Ctrl-FC.Ctrl-BD.Ctrl-D2、ls命令有很多的参数,显示所有文件,包括隐藏文件的参数是()[单选题]*A.-a(正确答案)B.-lC.–rD.–help3、若要将鼠标从VM中释放出来,可按()键来实现[单选题]*A.Ctrl+Alt(正确答案)B.Ctrl+Alt+DelC.Ctrl+Alt+EnterD.Ctrl+Enter4、除非特别指定,cp假定要拷贝的文件在下面哪个目录下()[单选题]*A.用户目录(正确答案)B.home目录C.root目录D.当前目录5、用"rm-i",系统会提示什么来让你确认()[单选题]*A.命令行的每个选项(正确答案)B.是否真的删除C.是否有写的权限D.文件的位置6、几位学生的某门课成绩分别是67分、78分、88分、89分、96分,则“成绩”是()[单选题]*A.品质标志(正确答案)B.数量标志C.标志值D.数量指标7、抽样调查与重点调查的主要区别是()[单选题]*A.作用不同(正确答案)B.组织方式不同C.灵活程度不同D.选取调查单位的方法不同8、先对总体中的个体按主要标志加以分类,再以随机原则从各类中抽取一定的单位进行调查,这种抽样调查形式属于()[单选题]*A.简单随机抽样(正确答案)B.等距抽样C.整群抽样D.类型抽样9、统计指标按所反映的数量特征不同可以分为数量指标和质量指标两种。其中数量指标的表现形式是()[单选题]*A.绝对数(正确答案)B.相对数C.平均数D.小数10、HDfS中的block默认保存几份?()[单选题]*A.1份(正确答案)B.2份C.3份D.不确定11、对某市全部商业企业职工的生活状况进行调查,调查对象是()[单选题]*A.该市全部商业企业(正确答案)B.该市全部商业企业的职工C.该市每一个商业企业D.该市商业企业的每一名职工12、在抽样推断中,可计算和控制的误差是()[单选题]*A.登记误差(正确答案)B.系统性误差(偏差)C.抽样实际误差D.抽样平均误差13、下面偏度系数的值表明数据分布形态是右偏的是()[单选题]*A.1.429(正确答案)B.0C.-3.412D.-114、()可以刻画离中趋势。[单选题]*A.均值(正确答案)B.全距C.众数D.中位数15、正态分布有两个参数δ与μ,(),分布越集中,正态曲线的形状越“扁平”。[单选题]*A.μ越大(正确答案)B.μ越小C.δ越大D.δ越小16、HBase依赖()提供强大的计算能力[单选题]*A.Zookeeper(正确答案)B.ChubbyC.RPCD.MapReduce17、HFile数据格式中的Data字段用于()[单选题]*A.存储实际的KeyValue数据(正确答案)B.存储数据的起点C.指定字段的长度D.存储数据块的起点18、HFile数据格式中的Magic字段用于()[单选题]*A.存储随机数,防止数据损坏(正确答案)B.存储数据的起点C.存储数据块的起点D.指定字段的长度19、默认情况下,YARN支持下面哪个调度器。()[单选题]*A.Fairscheduler(正确答案)B.CapacityschedulerC.FIFO调度器D.DRT调度器20、HBase虚拟分布式模式需要()个节点?[单选题]*A.1(正确答案)B.2C.3D.最少3个21、HBase分布式模式最好需要()个节点?[单选题]*A.1(正确答案)B.2C.3D.最少22、SQL语句中的条件用以下哪一项来表达()[单选题]*A.THEN(正确答案)B.WHILEC.WHERED.IF23、下面哪项工作场景不是MapReduce计算框架擅长处理的?()[单选题]*A.分析web日志记录,分析用户的行为(正确答案)B.实时分析微博热词C.分析气象数据,找出有历史记录以来每年的最高气温D.购物篮分析,分析用户购买商品的关联度24、在Hadoop客户端提交数据到HDFS上时,数据文件会被分片(split),最佳的分片策略是()[单选题]*A.等于两个HDFS的block块大小(正确答案)B.等于一个HDFS的block块大小C.等于操作系统的文件块大小D.大小无所谓25、SELECT语句的完整语法较复杂,但至少包括的部分是()[单选题]*A.仅SELECT(正确答案)B.SELECT,FROMC.SELECT,GROUPD.SELECT,INTO26、子表中一个列族下的所有数据统一存放在一个物理文件中,该物理文件对应于HRegion中的一个()[单选题]*A.StoreFile(正确答案)B.HFileC.StoreD.MemStore27、向数据表中更新一条记录用以下哪一项()[单选题]*A.CREATE(正确答案)B.INSERTC.SAVED.UPDATE28、关于Tableau,以下说法错误的是():[单选题]*A.Tableau支持多种格式数据,包括平面文件(比如Execl,txt文本),或者是数据库(jdbc,odbc均可)(正确答案)B.支持多表关联C.使用Tableau分析数据,比传统的数据库查询快10到100倍D.Tableau不能查询Hadoop29、HDFS的NameNode负责管理文件系统的命名空间,将所有的文件和文件夹的元数据保存在一个文件系统树中,这些信息也会在硬盘上保存成以下文件:()[单选题]*A.日志(正确答案)B.命名空间镜像C.两者都是D.两者都不是30、客户端在HDFS上进行文件写入时,namenode根据文件大小和配置情况,返回部分datanode信息,然后()负责将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块。[单选题]*A.Namenode(正确答案)B.DatanodeC.SecondarynamenodeD.客户端31、HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是128M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是()[单选题]*A.一次写入,少次读取(正确答案)B.多次写入,少次读取C.一次写入,多次读取D.多次写入,多次读取32、组合多条SQL查询语句形成组合查询的操作符是()[单选题]*A.SELECT(正确答案)B.ALLC.LINKD.UNION33、HBase是面向()的数据库。[单选题]*A.行(正确答案)B.列C.网络D.内存34、linux中,哪个目录存放用户密码信息()[单选题]*A./boot(正确答案)B./etcC./varD./dev35、考虑如下场景:在M/R系统中,-HDFS块的大小是128MB-输入数据格式是FileInputFormat-我们有2个文件,大小分别为64Mb和200Mb问:Hadoop框架将启动几个mapper进程进行处理?()[单选题]*A.2个(正确答案)B.3个C.4个D.5个36、在大数据的单位中,PB称为”拍字节”,其中1PB指的是:()[单选题]*A.1024KB(正确答案)B.1024MBC.1024GBD.1024TB37、hdfs-site.xml中哪个主要属性决定数据存储的路径?()[单选题]*A..dir(正确答案)B.dfs.data.dirC.fs.checkpoint.dirD.dfs.url38、以下哪项用于左连接()[单选题]*A.JOIN(正确答案)B.RIGHTJOINC.LEFTJOIND.INNERJOIN39、SQL是一种()语言。[单选题]*A.函数型(正确答案)B.高级算法C.关系数据库D.人工智能40、一张表的主键个数为()[单选题]*A.至多3个(正确答案)B.没有限制C.至多1个D.至多2个41、在Hadoopv2YARN中,负责管理一个单独节点内资源的服务是()[单选题]*A.NodeManager(正确答案)B.ResourceManagerC.NameNodeD.DataNode42、向数据表中插入一条记录用以下哪一项()[单选题]*A.CREATE(正确答案)B.INSERTC.SAVED.UPDATE43、Hadoopfs中的-get和-put命令操作对象是:()[单选题]*A.文件(正确答案)B.目录C.两者都是D.两者都不是44、创建一个数据库表用以下哪一项()[单选题]*A.UPDATE(正确答案)B.CREATEC.UPDATEDD.ALTER45、HDFS是一个分布式文件系统,它允许用户使用shell命令操作文件系统。其中读取/user/hduser/file1.txt文件并打印到屏幕上的命令是:()[单选题]*A.hdfsdfs-ls/user/hduser/file1.txt(正确答案)B.hdfsdfs-mkdir/user/hduser/file1.txtC.hdfsdfs-cat/user/hduser/file1.txtD.hdfsdfs-put/user/hduser/file1.txt46、LSM更能保证哪种操作的性能?()[单选题]*A.读(正确答案)B.写C.随机读D.合并47、HDFS文件系统有一个/作为根目录。运行如下哪个命令来列出在HDFS中新创建的目录的内容:()[单选题]*A.hdfsdfs-lstest(正确答案)B.hdfsdfs-mkdirtestC.hdfsdfs-cattestD.hdfsdfs-puttest48、运行如下的命令,将本地readme.txt文件拷贝到test目录中:()[单选题]*A.hdfsdfs-cattest/readme.txt(正确答案)B.hdfsdfs-puttest/readme.txtC.hdfsdfs-rm-Rtest/readme.txtD.hdfsdfs-copyFromLocalreadme.txttest49、关于MapReduce计算框架,以下说法正确的是:()[单选题]*A.MapReduce是一个离线的批处理计算框架(正确答案)B.MapReduce是一个实时的流处理计算框架C.MapReduce是一个内存计算框架D.以上说法都正确50、在MapReduce的Shuffle阶段,每个Reducer使用HTTP协议来从Mapper节点获取自己的partition。默认每个Reducer使用几个线程来获取Maper节点数据?()[单选题]*A.3个(正确答案)B.4个C.5个D.6个51、HadoopMapReduce应用程序可以运行在YARN上,使用一个()来协调每个job以及一系列资源容器(resourcecontainer)来运行Map和Reduce任务。[单选题]*A.NodeManager(正确答案)B.ResourceManagerC.JobTrackerD.ApplicationMaster52、以下哪个命令可以终止一个用户的所有进程()[单选题]*A.skillall(正确答案)B.skillC.killD.killall53、在基本K均值算法里,当邻近度函数采用()的时候,合适的质心是簇中各点的中位数[单选题]*A.曼哈顿距离(正确答案)B.平方欧几里德距离C.余弦距离D.Bregman散度54、关于SecondaryNameNode哪项是正确的?()[单选题]*A.它是NameNode的热备(正确答案)B.它对内存没有要求C.它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间D.SecondaryNameNode应与NameNode部署到一个节点55、以HDFS上master:9000/graphdata.txt中的数据创建图graphhdfs,其中graphdata.txt文本格式:121256132156。现将graphhdfs中每个节点的属性值变为原值的3倍,并查看其中的10个顶点,则以下选项正确的是()[单选题]*A.valtemp=graphhdfs.mapVertices((x1,x2)=>x2.toInt*3).vertices.take(10)(正确答案)B.valtemp=graphhdfs.mapEdges((x1,x2)=>x2.toInt*3).vertices.take(10)C.valtemp=graphhdfs.mapVertices(x=>x._2.toInt*3).vertices.take(10)D.valtemp=graphhdfs.map(x=>x._1.toInt*3).vertices.take(10)56、Mahout中实现的ALS-WR算法计算()后,就可以进行推荐了[单选题]*A.评分矩阵(userXitem)A(正确答案)B.用户特征矩阵UC.物品特征矩阵MD.U与M’的乘积A_k矩阵57、HBase依赖()提供消息通信机制[单选题]*A.Zookeeper(正确答案)B.ChubbyC.RPCD.Socket58、Client端上传文件的时候下列哪项正确()[单选题]*A.数据经过NameNode传递给DataNode(正确答案)B.Client端将文件切分为Block,依次上传C.Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作D.以上都不对59、下面与Zookeeper类似的框架是()[单选题]*A.Protobuf(正确答案)B.JavaC.KafkaD.Chubby60、下面与HDFS类似的框架是()[单选题]*A.NTFS(正确答案)B.FAT32C.GFSD.EXT361、在Hbase中删除表t1的命令是()[单选题]*A.droptablet1(正确答案)B.truncatet1C.drop‘t1’D.truncatetablet162、使用Pig的优势在于()[单选题]*A.Pig可以使用一个类SQL的语言,降低了学习成本(正确答案)B.Pig的语言编辑器可以把类SQL语言转换为一系列经过优化处理的MapReduce运算C.目前Pig主要由开源社区维护D.Pig是一种数据流语言63、Spark中的task分别是以()方式维护的[单选题]*A.进程(正确答案)B.线程C.流水线D.以上都不是64、MapReduce中的task是以()方式维护的[单选题]*A.进程(正确答案)B.线程C.流水线D.以上都不是65、配置Standalone模式下的Spark集群,Worker节点需要在conf文件夹下的哪个文件中指明()[单选题]*A.regionserver(正确答案)B.spark-env.shC.spark-defaults.confD.slaves66、valrdd=sc.parallelize(List(("Tom",2),("Lee",5),("Lee",6),(“Tom”,7)))rdd.reduceByKey((x,y)=>x+y).collect上述代码的执行结果为()[单选题]*A.Array((1,2),(3,10))(正确答案)B.Array((9,“Tom”),(11,“Lee”))C.Array((“Tom”,9),(“Lee”,11))D.Array((“Tom”,2,7),(“Lee”,5,6))67、valrdd=sc.parallelize(1to10).filter(_%2==0)rdd.collect上述代码的执行结果为()[单选题]*A.Array(1,2,3,4,5,6,7,8,9,10)(正确答案)B.Array(1,3,5,7,9)C.Array(2,4,6,8,10)D.Array(1,10)68、基于密集向量(1.0,0.0,3.0)创建一个LabledPoint,设其标识值为1.0,以下正确的选项为()[单选题]*A.valpos=LabeledPoint(1.0,Vectors.dense(1.0,0.0,3.0))(正确答案)B.valpos=LabeledPoint(1.0,(1.0,0.0,3.0))C.valpos=LabeledPoint(Vectors.dense(1.0,0.0,3.0),1.0)D.valpos=LabeledPoint((1.0,0.0,3.0),1.0)69、MLlib中创建稀疏矩阵((0.0,2.0),(3.0,0.0),(0.0,6.0))的语句是()[单选题]*A.valdm:Matrix=Matrices.dense(3,2,Array(0.0,3.0,0.0,2.0,0.0,6.0))(正确答案)B.valdm:Matrix=Matrices.sparse(3,2,Array(0.0,2.0,3.0,0.0,0.0,6.0))C.valsm:Matrix=Matrices.sparse(3,2,Array(0,1,2),Array(1,0,1),Array(2,3,6))D.valsm:Matrix=Matrices.dense(3,2,Array(0,1,2),Array(1,0,1),Array(2,3,6))70、MLlib提供的分布式矩阵中,不包含行、列索引信息的矩阵类型是()[单选题]*A.RowMatrix(正确答案)B.IndexedRowMatrixC.MatrixD.CoordinateMatrix71、Spark支持的分布式部署方式中哪个是错误的()[单选题]*A.standalone(正确答案)B.sparkonmesosC.sparkonYARND.Sparkonlocal72、下列哪个操作能够实现“基于窗口将DStream[(K,V)]中的值V按键K使用聚合函数func聚合得到新的DStream”()[单选题]*A.count(正确答案)B.reduceByKeyAndWidowC.countByValueD.reduceByKey73、在SparkStreaming中批处理时间间隔是指()[单选题]*A.系统将获取到的数据流封装成一个RDD的时间间隔(正确答案)B.系统对数据流进行统计分析的时间间隔C.系统对数据流

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论