书签 分享 收藏 举报 版权申诉 / 36
上传文档赚钱

类型《大数据技术实战案例教程》实验指导书-实验1部署全分布模式Hadoop集群.docx

  • 上传人(卖家):momomo
  • 文档编号:7677682
  • 上传时间:2024-07-08
  • 格式:DOCX
  • 页数:36
  • 大小:1.91MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《《大数据技术实战案例教程》实验指导书-实验1部署全分布模式Hadoop集群.docx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    大数据技术实战案例教程 数据 技术 实战 案例 教程 课件 实验 指导书 部署 分布 模式 Hadoop 集群
    资源描述:

    1、大数据技术实战案例教程实验指导书 实验1部署全分布模式Hadoop集群实验1 部署全分布模式Hadoop集群1.1 实验目的1. 熟练掌握Linux基本命令。2. 掌握静态IP地址的配置、主机名和域名映射的修改。3. 掌握Linux环境下Java的安装、环境变量的配置、Java基本命令的使用。4. 理解为何需要配置SSH免密登录,掌握Linux环境下SSH的安装、免密登录的配置。5. 熟练掌握在Linux环境下部署全分布模式Hadoop集群。1.2 实验环境本实验所需的软硬件环境包括PC、VMware Workstation Pro、CentOS安装包、Oracle JDK安装包、Hadoop

    2、安装包。1.3 实验内容1. 规划部署。2. 准备机器。3. 准备软件环境:配置静态IP;修改主机名;编辑域名映射;安装和配置Java;安装和配置SSH免密登录。4. 获取和安装Hadoop。5. 配置全分布模式Hadoop集群。6. 关闭防火墙。7. 格式化文件系统。8. 启动和验证Hadoop。9. 关闭Hadoop。1.4 实验原理1.4.1 Linux基本命令Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议,它支持32位和64位硬件。Linux继承了

    3、Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。Linux操作系统诞生于1991年10月5日。Linux存在着许多不同的版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。严格来讲,Linux这个词本身只表示Linux内核,但实际上人们已经习惯用Linux来形容整个基于Linux内核且使用GNU工程各种工具和数据库的操作系统。此处将介绍实验中涉及到的一些Linux操作系统的基本命令。1)查看当前目录pwd命令用于显示当前目录,效果如下所示。xuluhuilocalhost $

    4、 pwd/home/xuluhui2)切换目录cd命令用来切换目录,效果如下所示。xuluhuilocalhost $ cd /usr/localxuluhuilocalhost local$ pwd/usr/local3)罗列文件ls命令用于查看文件与目录,效果如下所示。xuluhuilocalhost $ lsDesktop Documents Downloads Music Pictures Public Templates Videos4)创建目录mkdir命令用于创建目录,效果如下所示。xuluhuilocalhost $ mkdir TestDataxuluhuilocalhost

    5、 $ lsDesktop Downloads Pictures Templates VideosDocuments Music Public TestData5)拷贝文件或目录cp命令用于拷贝文件,若拷贝的对象为目录,则需要使用-r参数,效果如下所示。xuluhuilocalhost $ cp -r TestData TestData2xuluhuilocalhost $ lsDesktop Downloads Pictures Templates TestData2Documents Music Public TestData Videos6)移动或重命名文件或目录mv命令用于移动文件,在实

    6、际使用中,也常用于重命名文件或目录,效果如下所示。xuluhuilocalhost $ mv TestData2 TestDataxlhxuluhuilocalhost $ lsDesktop Downloads Pictures Templates TestDataxlhDocuments Music Public TestData Videos7)删除文件或目录rm命令用于删除文件,若删除的对象为目录,则需要使用-r参数,效果如下所示。xuluhuilocalhost $ rm -rf TestDataxlhxuluhuilocalhost $ lsDesktop Downloads Pi

    7、ctures Templates VideosDocuments Music Public TestData8)查看进程ps命令用于显示当前运行中进程的相关信息,效果如下所示。xuluhuilocalhost $ ps PID TTY TIME CMD 69780 pts/0 00:00:00 bash 71680 pts/0 00:00:00 ps9)压缩与解压文件tar命令用于文件压缩与解压,参数中的c表示压缩,x表示解压缩,效果如下所示。rootlocalhost local# tar -zxvf /home/xuluhui/Downloads/hadoop-2.9.2.tar.gz10

    8、)查看文件内容cat命令用于查看文件内容,效果如下所示。xuluhuilocalhost # cat /usr/local/hadoop-2.9.2/etc/hadoop/core-site.xml11)查看机器IP配置ip address命令用于查看机器IP配置,效果如下所示。xuluhuilocalhost $ ip address1: lo: mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000 link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00 inet 127

    9、.0.0.1/8 scope host lo valid_lft forever preferred_lft forever inet6 :1/128 scope host valid_lft forever preferred_lft forever2: ens33: mtu 1500 qdisc pfifo_fast state UP group default qlen 1000 link/ether 00:0c:29:6d:5d:c9 brd ff:ff:ff:ff:ff:ff inet 192.168.18.128/24 brd 192.168.18.255 scope global

    10、 noprefixroute dynamic ens33 valid_lft 1795sec preferred_lft 1795sec inet6 fe80:6bb8:6e80:d029:10f2/64 scope link noprefixroute valid_lft forever preferred_lft forever3: virbr0: mtu 1500 qdisc noqueue state DOWN group default qlen 1000 link/ether 52:54:00:0b:74:1b brd ff:ff:ff:ff:ff:ff inet 192.168.

    11、122.1/24 brd 192.168.122.255 scope global virbr0 valid_lft forever preferred_lft forever4: virbr0-nic: mtu 1500 qdisc pfifo_fast master virbr0 state DOWN group default qlen 1000 link/ether 52:54:00:0b:74:1b brd ff:ff:ff:ff:ff:ffifconfig命令也可用于查看机器IP配置,效果如下所示。xuluhuilocalhost $ ifconfigens33: flags=41

    12、63 mtu 1500 inet 192.168.18.128 netmask 255.255.255.0 broadcast 192.168.18.255 inet6 fe80:6bb8:6e80:d029:10f2 prefixlen 64 scopeid 0x20 ether 00:0c:29:6d:5d:c9 txqueuelen 1000 (Ethernet) RX packets 11319 bytes 732632 (715.4 KiB) RX errors 0 dropped 0 overruns 0 frame 0 TX packets 492 bytes 51674 (50

    13、.4 KiB) TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0lo: flags=73 mtu 65536 inet 127.0.0.1 netmask 255.0.0.0 inet6 :1 prefixlen 128 scopeid 0x10 loop txqueuelen 1000 (Local Loopback) RX packets 2228 bytes 193268 (188.7 KiB) RX errors 0 dropped 0 overruns 0 frame 0 TX packets 2228 bytes 193

    14、268 (188.7 KiB) TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0virbr0: flags=4099 mtu 1500 inet 192.168.122.1 netmask 255.255.255.0 broadcast 192.168.122.255 ether 52:54:00:0b:74:1b txqueuelen 1000 (Ethernet) RX packets 0 bytes 0 (0.0 B) RX errors 0 dropped 0 overruns 0 frame 0 TX packets 0

    15、bytes 0 (0.0 B) TX errors 0 dropped 0 overruns 0 carrier 0 collisions 01.4.2 vim编辑器vim是一个类似于vi的著名的功能强大、高度可定制的文本编辑器,在vi的基础上改进和增加了很多特性,vim是vi的加强版,比vi更容易使用,vi的命令几乎全部都可以在vim上使用。vi/vim共分为三种工作模式:命令模式(Command mode)、输入模式(Insert mode)和末行模式(Last line mode)。用户刚刚启动vi/vim,便进入了命令模式,此状态下敲击键盘动作会被vim识别为命令,而非输入字符,命令模

    16、式下是常用的几个命令包括:“i”切换到输入模式,以输入字符;“x”删除当前光标所在处的字符;“:”切换到末行模式,以在最底端一行输入命令。在命令模式下按下“i”就进入了输入模式,在输入模式中,可以使用若干按键完成相应任务,例如字符按键以及Shift组合,输入字符;Insert按键切换光标为输入/替换模式,光标将变成竖线/下划线;ESC按键退出输入模式,切换到命令模式等。在命令模式下按下“:”(英文冒号)就进入末行模式,末行模式下可以输入单个或多个字符的命令,可用的命令非常多,例“q”可以退出程序,“w”用于保存文件等,按ESC键可随时退出末行模式。vi/vim三种工作模式的转换如图1-1所示。

    17、命令模式输入模式末行模式输入i,a,oESC键:ESC键vi/vim 文件名进入:wq保存退出图1-1 vi/vim三种工作模式vim是实验中用到最多的文件编辑命令。在命令行输入“vim 文件名”后,默认进入“命令模式”,不可编辑文档,需按“i”键,方可编辑文档,编辑结束后,需按“ESC”键,先退回命令模式,再按“:”进入末行模式,接着输入“wq”方可保存退出。1.4.3 Java基本命令在安装和配置Java后,可以使用Java命令来编译、运行或者打包Java程序。1)查看Java版本rootlocalhost # java -versionjava version 1.8.0_191Java

    18、(TM) SE Runtime Environment (build 1.8.0_191-b12)Java HotSpot(TM) 64-Bit Server VM (build 25.191-b12, mixed mode)2)查看当前所有Java进程jps(Java Virtual Machine Process Status Tool)是Java提供的一个显示当前所有Java进程pid的命令,适合在linux/unix平台上简单察看当前Java进程的一些简单情况,如下所示。rootlocalhost $ jps11973 Jps3)编译Java程序rootlocalhost # java

    19、c HelloWorld.java4)运行Java程序rootlocalhost # java HelloWorldWelcome to Java.5)打包Java程序rootlocalhost # jar -cvf HelloWorld.jar HelloWorld.classadded manifestadding: HelloWorld.class(in = 430) (out= 295)(deflated 31%)由于打包时并没有指定manifest文件,因此该jar包无法直接运行,如下所示。rootlocalhost # java -jar HelloWorld.jarno main

    20、 manifest attribute, in HelloWorld.jar6)打包携带manifest文件的Java程序manifest.mf文件用于描述整个Java项目,最常用的功能是指定项目的入口类,新建文件“manifest.mf”,文件内容输入“Main-Class: HelloWorld”。rootlocalhost # vim manifest.mf打包时,加入-m参数,并指定manifest文件名。rootlocalhost # jar -cvfm HelloWorld.jar manifest.mf HelloWorld.classadded manifestadding:

    21、HelloWorld.class(in = 430) (out= 295)(deflated 31%)7)运行jar包可使用“java”命令直接运行jar包。rootlocalhost # java -jar HelloWorld.jarWelcome to Java.1.4.4 SSH安全通信协议对于远程管理其它机器,一般使用远程桌面或者telnet。Linux安装时自带了telnet,但是telnet的缺点是通信不加密,存在不安全因素,只适合内网访问。为解决这个问题,推出了安全通信协议即SSH(Secure Shell),通过SSH可以安全地进行网络数据传输,这得益于SSH采用的是非对称加

    22、密体系,传输内容使用RSA或者DSA加密,可以避免网络窃听。非对称加密的工作流程包括以下几个步骤:服务端接受到远程客户端登陆请求,将自己的公钥发送给客户端;客户端利用这个公钥对数据进行加密;客户端将加密的信息发送给服务端;服务端利用自己的私钥进行解密,验证其合法性;验证结果返回客户端响应。不过需要注意的是,Hadoop并不是通过SSH协议进行数据传输的,而是Hadoop控制脚本需要依赖SSH来执行针对整个集群的操作。Hadoop在启动和停止HDFS、YARN的时候,需要主节点上的进程通过SSH协议启动或停止从节点上的各种守护进程。也就是说如果不配置SSH免密登录对Hadoop的使用没有任何影响

    23、,只需在启动和停止Hadoop时输入每个从节点的用户名和密码即可。试想,若管理成百上千个节点组成的Hadoop集群,连接每个从节点时都输入密码将是一项繁杂的工作。因此,配置Hadoop主节点到各个从节点的SSH免密登录是有需要的。1.4.5 HadoopHadoop是Apache开源组织提供的一个分布式存储和计算的软件框架,它具有高可用、弹性可扩展的特点,非常适合处理海量数据。Hadoop由Apache Lucence创始人道格卡丁创建,Lucence是一个应用广泛的文本搜索系统库。Hadoop起源于开源的网络搜索引擎Apache Nutch,它本身是Lucence项目的一部分。第一代Hado

    24、op(即Hadoop 1.0)的核心由分布式文件系统HDFS和分布式计算框架MapReduce组成,为了克服Hadoop1.0中HDFS和MapReduce的架构设计和应用性能方面的各种问题,提出了第二代Hadoop(即Hadoop 2.0),Hadoop 2.0的核心包括分布式文件系统HDFS、统一资源管理和调度框架YARN和分布式计算框架MapReduce。HDFS是谷歌文件系统GFS的开源实现,是面向普通硬件环境的分布式文件系统,适用于大数据场景的数据存储,提供了高可靠、高扩展、高吞吐率的数据存储服务。MapReduce是谷歌MapReduce的开源实现,是一种简化的分布式应用程序开发的

    25、编程模型,允许开发人员在不了解分布式系统底层细节和缺少并行应用开发经验的情况下,能快速轻松地编写出分布式并行程序,将其运行于计算机集群上,完成对大规模数据集的存储和计算。YARN是将MapReduce 1.0中JobTracker的资源管理功能单独剥离出来而形成,它是一个纯粹的资源管理和调度框架,并解决了Hadoop 1.0中只能运行MapReduce框架的限制,可在YARN上运行各种不同类型计算框架包括MapReduce、Spark、Storm等。1. Hadoop版本Hadoop的发行版本有两类,一类是由社区维护的免费开源的Apache Hadoop,另一类是一些商业公司如Cloudera

    26、、Hortonworks、MapR等推出的Hadoop商业版。截止到目前,Apache Hadoop版本分为三代,分别称为Hadoop 1.0、Hadoop 2.0、Hadoop 3.0。Hadoop商业版主要是提供对各项服务的支持,高级功能要收取一定费用,这对一些研发能力不太强的企业来说是非常有利的,公司只要出一定的费用就能使用到一些高级功能,每个发行版都有自己的特点,目前使用最多的是Cloudera Distribution Hadoop(CDH)和Hortonworks Data Platform(HDP)。请读者注意,若无特别强调,本书均是围绕Apache Hadoop 2.0展开描述

    27、和实验的。2. Hadoop运行环境对于大部分Java开源产品而言,在部署与运行之前,总是需要搭建一个合适的环境,通常包括操作系统和Java环境两方面。同样,Hadoop部署与运行所需要的系统环境,同样包括操作系统和Java环境,另外还需要SSH。1)操作系统Hadoop运行平台支持以下两种:(1)Windows:Hadoop支持Windows,但由于Windows操作系统本身不太适合作为服务器操作系统,所以编者不介绍Windows下安装和配置Hadoop,读者可自行参考网址https:/wiki.apache.org/hadoop/Hadoop2OnWindows。(2)GNU/Linux:

    28、Hadoop的最佳运行环境无疑是开源操作系统Linux,Linux的发行版本众多,常见的有CentOS、Ubuntu、Red Hat、Debian、Fedora、SUSE、openSUSE等。本书采用的操作系统为Linux发行版CentOS 7。2)Java环境Hadoop使用Java语言编写,因此它的运行环境需要Java环境的支持。Hadoop 3.x需要Java 8,Hadoop 2.7及以后版本需要Java 7或Java 8,Hadoop 2.6及早期版本需要Java 6。本书采用的Java为Oracle JDK 1.8。3)SSHHadoop集群若想运行,其运行平台Linux必须安装S

    29、SH,且sshd服务必须运行,只有这样,才能使用Hadoop脚本管理远程Hadoop守护进程。本书选用的CentOS 7自带有SSH。3. Hadoop运行模式Hadoop运行模式有以下三种:(1)单机模式(Local/Standalone Mode):只在一台计算机上运行,不需任何配置,在这种模式下,Hadoop所有的守护进程都变成了一个Java进程,存储采用本地文件系统,没有采用分布式文件系统HDFS。(2)伪分布模式(Pseudo-Distributed Mode):只在一台计算机上运行,在这种模式下,Hadoop所有守护进程都运行在一个节点上,在一个节点上模拟了一个具有Hadoop完整

    30、功能的微型集群,存储采用分布式文件系统HDFS,但是HDFS的名称节点和数据节点都位于同一台计算机上。(3)全分布模式(Fully-Distributed Mode):在多台计算机上运行,在这种模式下,Hadoop的守护进程运行在多个节点上,形成一个真正意义上的集群,存储采用分布式文件系统HDFS,且HDFS的名称节点和数据节点位于不同计算机上。三种运行模式各有优缺点。单机模式配置最简单,但它与用户交互的方式不同于全分布模式;对于节点数目受限的初学者可以采用伪分布模式,虽然只有一个节点支撑整个Hadoop集群,但是Hadoop在伪分布模式下的操作方式与在全分布模式下的操作几乎完全相同;全分布模

    31、式是使用Hadoop的最佳方式,真实Hadoop集群的运行均采用该模式,但它需要最多的配置工作和架构所需要的机器集群。4. Hadoop 2.0生态系统经过十几年的发展,目前,Hadoop已经成长为一个庞大的体系。狭义上来说,Hadoop是一个适合大数据的分布式存储和分布式计算的平台,Hadoop 2.0主要由三部分构成:分布式文件系统HDFS、统一资源管理和调度框架YARN、分布式计算框架MapReduce;但广义上来讲,Hadoop是指以Hadoop为基础的生态系统,是一个庞大体系,Hadoop仅是其中最基础、最重要的部分,生态系统中每个子系统只负责解决某一特定问题。Hadoop 2.0生

    32、态系统如图1-2所示。HiveMapReduceSparkImpalaZooKeeperKafkaFlumeYARNHDFSCommonPigMahoutSqoopHBaseAmbariSpark SQL图1-2 Hadoop 2.0生态系统5. Hadoop体系架构Hadoop集群采用主从架构(Master/Slave),NameNode与ResourceManager为Master,DataNode与NodeManager为Slaves,守护进程NameNode和DataNode负责完成HDFS的工作,守护进程ResourceManager和NodeManager则负责完成YARN的工作。

    33、Hadoop 2.0集群架构图如图1-3所示。NameNodeResourceManagerDataNodeNodeManagerDataNodeNodeManagerDataNodeNodeManager图1-3 Hadoop 2.0集群架构6. Hadoop配置文件Hadoop配置文件很多,配置文件位于$HADOOP_HOME/etc/hadoop,关键的几个配置文件如表1-1所示,伪分布模式和全分布模式下的Hadoop集群所需修改的配置文件有差异。表1-1 Hadoop主要配置文件文件名称格式描述hadoop-env.shBash脚本记录运行Hadoop要用的环境变量yarn-env.s

    34、hBash脚本记录运行YARN要用的环境变量(覆盖hadoop-env.sh中设置的变量)mapred-env.shBash脚本记录运行MapReduce要用的环境变量覆盖hadoop-env.sh中设置的变量)core-site.xmlHadoop配置XMLHadoop Core的配置项,包括HDFS、MapReduce和YARN常用的I/O设置等hdfs-site.xmlHadoop配置XMLHDFS守护进程的配置项,包括NameNode、SecondaryNameNode、DataNode等yarn-site.xmlHadoop配置XMLYARN守护进程的配置项,包括ResourceMa

    35、nager、NodeManager等mapred-site.xmlHadoop配置XMLMapReduce守护进程的配置项,包括JobHistoryServerslaves纯文本运行DataNode和NodeManager的从节点机器列表,每行1个主机名读者可以在Hadoop共享文档目录下找到一个导航文件$HADOOP_HOME/share/doc/Hadoop/index.html,除了左下角有4个默认配置文件的超级链接,如图1-4所示,还有Hadoop的学习教程,值得读者细读。图1-4 Hadoop共享文档中导航文件界面1.5 实验步骤1.5.1 规划部署1. Hadoop集群部署规划全分

    36、布模式下部署Hadoop集群时,最低需要两台机器,一个主节点和一个从节点。本书拟将Hadoop集群运行在Linux上,将使用三台安装有Linux操作系统的机器,主机名分别为master、slave1、slave2,其中master作为主节点,slave1和slave2作为从节点。具体Hadoop集群部署规划表如表1-2所示。表1-2 全分布模式Hadoop集群部署规划表主机名IP地址运行服务软硬件配置master(主节点)192.168.18.130NameNodeSecondaryNameNodeResourceManagerJobHistoryServer内存:4GCPU:1个2核硬盘:4

    37、0G操作系统:CentOS 7.6.1810Java:Oracle JDK 8u191Hadoop:Hadoop 2.9.2slave1(从节点1)192.168.18.131DataNodeNodeManager内存:1GCPU:1个1核硬盘:20G操作系统:CentOS 7.6.1810Java:Oracle JDK 8u191Hadoop:Hadoop 2.9.2slave2(从节点2)192.168.18.132DataNodeNodeManager内存:1GCPU:1个1核硬盘:20G操作系统:CentOS 7.6.1810Java:Oracle JDK 8u191Hadoop:Ha

    38、doop 2.9.22. 软件选择1)虚拟机工具鉴于多数用户使用的是Windows操作系统,作为Hadoop初学者,建议在Windows操作系统上安装虚拟机工具,并在其上创建Linux虚拟机。编者采用的虚拟机工具为VMware Workstation Pro,读者也可采用其他虚拟机工具例如Oracle VirtualBox等。2)Linux操作系统编者采用的Linux操作系统为免费的CentOS(Community Enterprise Operating System,社区企业操作系统),CentOS是Red Hat Enterprise Linux依照开放源代码规定释出的源代码所编译而成,

    39、读者也可以使用其他Linux操作系统例如Ubuntu、Red Hat、Debian、Fedora、SUSE、openSUSE等。3)JavaHadoop使用Java语言编写,因此它的运行环境需要Java环境的支持。由于Hadoop 2.7及以后版本需要Java 7或Java 8,而本书采用Hadoop 2.9.2版本,因此采用的Java为Oracle JDK 1.8。4)SSH由于Hadoop控制脚本需要依赖SSH来管理远程Hadoop守护进程,因此Hadoop集群的运行平台Linux必须安装SSH,且sshd服务必须运行。本书选用的CentOS 7自带有SSH。5)HadoopHadoop起

    40、源于2002年的Apache项目Nutch,2004年道格卡丁开发了现在HDFS和MapReduce的最初版本,2006年Apache Hadoop项目正式启动,以支持MapReduce和HDFS的独立发展。Apache Hadoop的版本经历了1.0、2.0、3.0,目前最新稳定版本是2022年5月17日发布的Hadoop 3.3.3,编者采用的是2018年11月19日发布的稳定版Hadoop 2.9.2。本节部署Hadoop集群所使用的各种软件的名称、版本、发布日期及下载地址如表1-3所示。表1-3 本节部署Hadoop集群使用的软件名称、版本、发布日期及下载地址软件名称软件版本发布日期下

    41、载地址VMware Workstation ProVMware Workstation 12.5.7 Pro for Windows2017年6月22日CentOSCentOS 7.6.18102018年11月26日https:/www.centos.org/download/JavaOracle JDK 8u1912018年10月16日HadoopHadoop 2.9.22018年11月19日http:/hadoop.apache.org/releases.html1.5.2 准备机器编者使用VMware Workstation Pro共安装了3台CentOS虚拟机,分别为hadoop2.9

    42、.2-master、hadoop2.9.2-slave1和hadoop2.9.2-slave2,其中hadoop2.9.2-master的内存为4096MB,CPU为1个2核,hadoop2.9.2-slave1和hadoop2.9.2-slave2的内存均为1024MB,CPU为1个1核。关于如何使用VMware Workstation安装CentOS虚拟机,可参见配套教学资源“使用VMware Workstation安装CentOS虚拟机过程详解”。1.5.3 准备软件环境3台CentOS虚拟机的软件环境准备过程相同,下文以Hadoop集群主节点的虚拟机hadoop2.9.2-master

    43、为例讲述,作为从节点的虚拟机hadoop2.9.2-slave1和hadoop2.9.2-slave2的软件环境准备不再赘述。1. 配置静态IP机器不同,CentOS版本不同,网卡配置文件不尽相同。编者使用的CentOS 7.6.1810对应的网卡配置文件为/etc/sysconfig/network-scripts/ifcfg-ens33,读者可自行查看个人CentOS的网卡配置文件。(1)切换到root用户,使用命令“vim /etc/sysconfig/network-scripts/ifcfg-ens33”修改网卡配置文件,为该机器设置静态IP地址。网卡ifcfg-ens33配置文件较

    44、之原始内容,变动的内容如下所示。BOOTPROTO=staticONBOOT=yesIPADDR=192.168.18.130NETMASK=255.255.255.0GATEWAY=192.168.18.2DNS1=192.168.18.2(2)使用“reboot”命令重启机器或者“systemctl restart network.service”命令重启网络方可使得配置生效。如图1-5所示,使用命令“ip address”或者简写“ip addr”查看到当前机器的IP地址已设置为静态IP“192.168.18.130”。图1-5 使用命令“ip addr”查看机器IP地址同理,将虚拟机hadoop2.9.2-slave1和hadoop2.9.2-slave2的IP地址依次设置为静态IP“192.168.18.131”、“192.168.18.132”。2. 修改主机名切换到root用户,通过修改配置文件/etc/hostname,可以修改Linux主机名,该配置文件中原始内容为:localhost.localdomain按照部署规划,主节点的主机名为“master”,将配置文件/etc/hostname中原始内容替换为:master使用“reboot”命令重启机器方可使得配置生效,使用命令“h

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:《大数据技术实战案例教程》实验指导书-实验1部署全分布模式Hadoop集群.docx
    链接地址:https://www.163wenku.com/p-7677682.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库