您所在的位置:首页 > 课程体系

高级大数据架构分析师

 

 高级大数据架构分析师课程介绍

 

课程目标:

        本课程是面向想从事于数据分析、数据处理领域的工程师,给予大数据平台对数据进行处理和预处理,利用python数据的处理能力和python高效率的模块对数据进行处理,学习本课程可以学习到大数据平台hadoop的工作原理,HDFS的存储机制,mapreduce的计算框架等知识,同时能获取python对数据的处理方法和计算方法能力,提高对数据的驾驭能力。

课程适用人群:

数据分析师,对数据感兴趣的人群,数据预处理工程师,爬虫工程师、从事数据业务的人群

授课方式:

面授,理论讲解、现场试验
 
高级大数据架构分析师课程大纲

Linux系统管理

了解并使用基本命令工具

在shell下正确的命令语法

使用输入、输出、重定向

使用grep和正则表达式来分析文本

使用SSH和VNC的远程操控系统

用户登录及切换用户

使用tar、star、gzip、bzip2进行归档、压缩及解压

创建和编辑文本文件

创建,删除,复制,移动文件和目录

创建硬和软链接

查看,设置和修改权限

使用系统帮助

操作系统运行

正常开机,启动,关闭linux系统

使用不同模式启动系统

系统引导菜单

查看系统CPU、内存信息,调整进程优先级、杀死进程

查找并解析系统日志

访问虚拟机控制台

启动和停止虚拟机

启动,停止,并检查网络状态

系统间安全传输文件

配置本地存储

在MBR和GPT磁盘上查看、创建、删除分区

创建和删除物理卷,指定物理卷到卷组,创造删除逻辑卷

创建和配置加密分区,并配置解密文件系统

使用UUID配置文件系统

添加新的分区、逻辑卷、swap

创建和配置文件系统

使用VFAT、EXT4、XFS文件系统

挂载、卸载、使用加密文件系统

挂载、卸载CIFS和NFS网络文件系统

配置加密文件系统和网络文件系统的自启动

扩展未加密逻辑卷

创建和配置SGID

创建和管理访问控制列表

诊断文件权限问题

部署,配置,维护系统

配置静态或动态网络和主机名解析

使用计划任务at和cron

启动和停止服务并配置服务,开机时自动启动

按预定效果配置系统自启动

自动化安装RHEL

配置guests用户

使用guests用户安装RHEL

配置系统在开机启动虚拟机

配置系统使用时间服务

使用远程库或本地库进行软件更新

升级内核

修改系统引导程序

管理用户和组

创建,删除,修改本地用户帐户

修改密码,调整本地用户帐户的密码使用期限

创建,删除,修改本地组和组成员资格

配置系统使用一个现有的LDAP目录服务的用户和组信息

配置系统使用一个现有的认证服务的用户和组信息

安全管理

使用 system-config-firewall 或 iptables配置防火墙

为SSH配置公钥认证  

修改selinux模式

列出并确认SELinux文件和进程的上下文

恢复默认文件上下文

使用boolean修改系统SELinux设置

诊断和解决常规SELinux规则

 

Web前端部分

Html:

头标记的作用和使用

常用标签,标题和字体标签图像标签

列表标签设计

超链接标签设计

表格标记的设计

表单标记的设计

分桢框架的设计及应用

表单的应用

表格的应用

Div+css:

学习附加外部样式表,链接方式和导入方式

新建样式,类、标签,新建样式表文件

详解使用DIV+CSS 

布局和Web页面和网站布局的方法和流程

利用Dreamweaver 实现网站布局,总揽全局熟悉W3C标准熟悉不同浏览器(IE/Firefox)之间的差异,写出的代码能够有很好的兼容性

页面的属性、边距、链接、标题;设置等段落样式

设置段落的列表样式

建立链接的多种设置方法

链接四种状态的颜色与下划线设置

详细介绍DIV+CSS与TABLE之间的结合使用方法。通过对经典站点的详尽解析,了解不同类型网络媒体的设计需求和内部逻辑关系

学习网站拓扑的设计规则,从而能够针对不同的设计主题,完成任何类型网络媒体整体结构设计,得心应手

 

JavaScript 开发

JavaScript:

实现 包括: script标签 位置与外部的 JavaScript等

语句 包括:.innerHTML,.write()

注释

变量及数据类型 包括:动态类型,数组,布尔,JSON

函数 包括:2种函数定义方式与1种假对象定义方式(js无法真正实现面象对像所以为假对象

运算符 包括:算术运算符,数学运算符,比较运算符,逻辑运算符,条件运算符(三目运算符)

语法 包括:if...else,for,while,switch,try...catch

对象 包括:数字,字符串,日期,数组,逻辑,算数,正则表达式

window 包括:screen,location,history,navigator,popupalert,timing,cookies

DOM编程:

Document 对象

节点树

选取并读取节点

文档遍历以及增加节点

删除节点

元 素样式编辑

Window 对象

定时器

BOM 模型

事件

location 对象

history 对象

screen 对象

HTML DOM 编程

Jquery:

JQuery 概述

JQuery 选择器

JQuery HTML 操作

JQuery 事件

JQuery 特效

JQuery 常用 Plug-in

JQuery 扩展

京东首页交互实现

ajax:

Ajax简介,Ajax工作原理

Ajax开发框架,Ajax web应用模式

创建对象XMLHttpRequest() Date()对象 Open()方法

Ajax在开发中的应用 

Ajax 用户注册例子演示 节省用户操作,时间,提高用户体验

使用Ajax 传输获取数据 使用ajax获取某一文本文件的内容

AJAX交互式案例详解

 

python部分

Python开发Python程序开发基础指南:

Python环境安装Linux/Windows/MacOS

如何优雅的运行python代码

Python开发工具及运行环境

可视化ipython编程及数据呈现

数据类型及数据类型操作:

整形数和浮点数操作

字符串定义,应用场景及Bytes操作

元组和列表操作

字典与顺序字典、映射数据类型及转换

集合与frozenset

python代码组织与代码发布:

Python经典语句及应用经典

Python 库介绍及使用

Python模块创建及应用案例

大型程序程序模块组织及包封装

熟用import语句,加速二次开发及程序整合的进程

Python代码发布及开源贡献

面向对象编程及函数设计:

系统内置函数介绍、熟用系统内置函数

解决代码冗余及代码复用问题

函数定义及抽象设计

函数参数设计与参数详解

LEGB规则应用

函数闭包操作

函数高级特性及函数经典设计

面向对象编程:

让思想更加抽象,逻辑与数据分离

面向对象思想

python 类别与类型区分

class定义与抽象逻辑编写

类与方法设计,分割功能与程序模块化

满足业务能力的函数变形—装饰器

经典类与新式类的区分

异常捕获:

程序运行规则

异常捕获及处理方式

编写异常事件及警告

文件访问及数据处理:

访问不同类型文件

创建、读取、更新和删除文件使用正则表达式

Microsoft word、Excel和CSV数据操作及数据渲染

创建、删除目录,排列及文件搜索

python与echarts实现数据美颜可视化显示,让数据更加惊艳

访问数据库:

Python MySQL API操作

数据库增、删、改、查及批量操作

专注程序、抽象编写数据库驱动程序使用对象关系映射SQLAlchemy


Python操作NoSQL数据库

Python程序编程进阶:

多线程编程、多进程编程与队列应用

Python网络编程

Python GUI编程思路及PyQT图形化编程

Python获取互联网数据及WEB表单自动填充

Python XML与HTML处理

Python爬虫:

互联网资源获取

数据整理与清洗

表单自动化填写

Beautifulsoup实践

Python阶段实战:

利用模块快速组织应用编程

Python工具编程实践

 

django部分

djangodjango介绍及互联网应用

django入门讲解,django和Python安装,环境测试

数据库配置及开发服务器的设定

视图及URL的配置

正则表达式及URL

django如何处理请求

动态URL 的配置及调试

模板基础知识

使用模板系统及创建模板对象

模板渲染

模板标签及过滤器

模板加载

django模型

MVC及MTV开发模式

数据库设计及开发

DJango站点管理

后台管理

表单

从Request对象中获取数据

提交数据信息(GET 和POST)

表单验证(结合JAVAscript)

高级视图及URL的配置

使用多个视图前缀

高级模板知识

数据模型高级部分

通用视图

django部署

配置文件参数调试

实现404模板

APACHE与django

同一个APACHE运行多个django实例

django输出非html内容

生成CSV文件

生成pdf文件

会话、用户和注册

Cookies

Django session框架

Django缓存机制

内存缓冲、数据库缓冲

中间件

django国际化

django 安全

防止SQL注入

跨站点脚本(XSS)

防止伪造夸站点请求,回话劫持/伪造/邮件头注入/目录遍历

 

大数据分析部分

HADOOP技术体系培训数据平台的演进及趋势

大数据平台的必要性和数据发展趋势

Hadoop生态系统及周边软件开发与使用

Hadoop数据平台主要组件及架构

关于 Apache Hadoop

为什么是Hadoop?

Hadoop 的核心部件

基础概念

HDFS

HDFS 特性

读,写文件

NameNode内存的考虑

HDFS 安全性简介

使用 Namenode Web 用户界面

使用Hadoop 文件 Shell

YARN 和MapReduce

什么是 MapReduce?

MapReduce基本概念

YARN 集群的架构

资源分配

故障恢复

使用 YARN Web 用户界面

MapReduce 版本 1

为你的Hadoop 集群做计划

通用计划的考虑

选择正确的硬件

对网络的考虑

配置节点

为集群管理做计划

Hadoop 安装和初始配置

部署的类型

安装Hadoop

具体化Hadoop的配置

执行 HDFS 的初始配置

执行YARN 和 MapReduce 的初始配置

Hadoop 日志系统

安装配置Hive, Impala和 Pig

Hive

Impala

Pig

Hadoop 客户端

什么是Hadoop 客户端?

安装配置Hadoop 客户端

安装配置 Hue

Hue 授权和认证 集群的

Cloudera 管理器

Cloudera 管理器的动机

Cloudera 管理器的特性

快速版和企业版

Cloudera 管理器拓扑

安装Cloudera 管理器

用Cloudera 管理器安装hadoop

用Cloudera 管理器执行基本的管理任务

集群的高级配置

高级配置参数

配置Hadoop 端口

显性地添加或移除主机

配置HDFS 的机架认知

配置HDFS 高可用性

管理, 计划工作任务

管理正在运行的工作

计划Hadoop 工作

配置 FairScheduler

Impala 的查询计划

集群的维护

检查HDFS 状态

在不同集群间拷贝数据

添加和挪去集群的节点

重新平衡

集群的监控和故障诊断

通用系统监控

监控Hadoop 集群

常见的Hadoop Clusters

数据采集与ETL培训数据导入HDFS

用Flume将数据从外部源导入

用Sqoop将数据从关系数据库导入

REST 接口

输入数据的最佳实践

关系型数据迁移到大数平台

大数据安全培训Hadoop的安全方案

Hadoop的安全性的重要

Hadoop的安全系统的概念

Kerberos是什么,它如何工作

用Kerberos来守卫Hadoop集群

HBase(nosql数据库

HBase发展历史

HBase技术特点

HBase逻辑视图

表存储结构

Row key

Time Stamp

HBase物理存储

HTable

Store

HFile

HLog

HBase系统结构

逻辑部署物理部署

Zookeeper

Hbase关键流程/算法

读写流程

Region分配

Master上线/Master下线

HBase API

HBase实例

ETL工具PIG

什么是 Pig?

Pig的特性

Pig使用案例

和Pig交互

Pig Latin 语法

数据装载

简单数据类型

Field 定义

数据输出

表结构视图

数据过滤和排序

常用功能

实验: 用Pig 执行ETL流程

存储格式

复杂/Nested嵌套的数据类型

处理复杂数据的内置功能

迭代成群数据

storm实时数据处理ØStorm实时分析平台的源起,Storm分布式集群实施

Storm概念详解和工作原理,topology、spout、bolt的细节和API讲解

Grouping策略,并行度,消息的可靠处理机制分布式RPC:Storm的DRPC介绍

Storm高级原语Trident

Storm与Java以外的开发语言整合

Storm on Yarn,与hadoop数据分析平台整合

Storm实时数据分析应用案例