大数据全流程
[一] 环境搭建Docker本节只是使本机具有可以操作的基础环境,非竞赛需要掌握的内容。
CentOS 安装Docker
Docker要求CentOS 系统的内核版本高于 3.10
可以通过 uname -r 查看内核版本
确保yum包更新到最新
sudo yum update
安装需要的软件包
(yum-util 提供yum-config-manager功能,另两个是devicemapper驱动依赖)
1yum install -y yum-utils device-mapper-persistent-data lvm2
使用官方安装脚本自动安装
安装命令如下
1curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun
启动 Docker 并设置开机自启
12systemctl start dockersystemctl enable docker
Docker 镜像加速国内从 DockerHub 拉取镜像有时会遇到困难,此时可以配置镜像加速器。Docker 官方和国内很多云服务商都提供了国内 ...
简单了解一下PHP
教程参考:
PHP_哔哩哔哩_bilibili
环境搭建PHP简介什么是PHP?
PHP是一种服务器端的HTML 脚本/编程语言,是一种简单的,面向对象的,解释型的,健壮的,安全的,性能非常之高的,独立于架构的,可移植的,动态的脚本语言。——《黑马程序员》
PHP 是一种创建动态交互性站点的强有力的服务器端脚本语言。 ——《菜鸟教程》
PHP(PHP: Hypertext Preprocessor)即“超文本预处理器“,是在服务器端执行的脚本语言,尤其适用于Web开发并可嵌入HTML中。——《百度百科》
PHP,超文本预处理器,底层使用C语言。
平台支持(windows,Linux,UNIX)
数据库支持(sqlserver,mysql,Oracle,Access)
脚本语言:解释型语言,按编写顺序执行。是指不需要编译,直接由解释器/虚拟机执行的编程语言
服务器端:意味着你必须将它安装在服务器环境下才能使用
PHP能做什么?
可以快速动态的生成HTML页面
可以返回前端需要的各种数据类型
可以高效安全的处理表单数据
可以提供接口数据,包括:小程序,AP ...
AJAX入门到精通
文档参考:
动力节点最新Ajax教程-快速搞定ajax_哔哩哔哩_bilibili
【尚硅谷】3小时Ajax入门到精通
Ajax - Web 开发者指南 | MDN (mozilla.org)
AJAX 教程 | 菜鸟教程 (runoob.com)
第一章:原生AJAXAJAX简介AJAX = Asynchronous JavaScript and XML(异步的 JavaScript 和 XML)。
AJAX 不是新的编程语言,而是一种使用现有标准的新方法。
AJAX 最大的优点是在不重新加载整个页面的情况下,可以与服务器交换数据并更新部分网页内容。
XML简介XML 可扩展标记语言。
XML 被设计用来传输和存储数据。
XML和HTML类似,不用的是HTML中都是预定义标签,而XML中没有预定义标签,全是自定义标签,用来表示一些数据。
12345678比如说我有一个学生数据: name="孙悟空";age=18;gender="男";用XML表示<student> ...
数据清洗
有一条字串“a,b,c,d”
通过.split(",")指定分隔符转化为数组,转化为.length查看数组长度
这是数据清洗的一个思路,如果要求是丢失数据为大于3,就清洗该数据,那么可以使用原数组长度和新数组长度比较 原来的长度 - 新的长度 > 3 这个数据就不要了
怎么生成新数组 使用.replice("old",""new)
1val newS=s.replace(",,,,,",",").replice(",,,,",",,,").replice(",,,",",,").replice(",,",",")
再用新字符串切割
1newS.splict(",")
12345678910111213141516171819202122232425262728// 初始化sc对象val conf = new SparkConf().se ...
浅学Kafka
zookeeper - 旧版Kafka的参数
bootstrap.server - 新版Kafka的参数
Kafka 命令行操作Kafka的Topic增删改查都用下面这个
1kafka-topics.sh
1)查看当前服务器中的所有 topic
--list
1kafka-topics.sh --bootstrap-server:9092 --list
2)创建topic
--create
1kafka-topics.sh --bootstrap master:9092 --create --replication-factor 3 --partitions 1 --topic first
选项说明:
–topic 定义topic名
–replication-factor 定义副本数
–partitions 定义分区数
3)删除topic
--delete
1kafka-topics.sh --bootstrap master:9092 --delete --topic first
数据抽取
MySQLtoHive数据增量抽取Demo1123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263package top.wsczh.testimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionimport java.util.Propertiesobject MysqlToODSTestDS { def main(args: Array[String]): Unit = { /** * 抽取shtd_store库中user_info的增量数据进入Hive的ods库中表user_info。 * 根据ods.user_info表中operate_time或create_time作为增量字 ...
实时数据采集
封面是在凌晨三点时,第一次使用kafka采集到的maxwell数据
记忆当kafka为sink时
1234a1.sinks.k1.type=org.apache.flume.kafka.KafkaSinka1.sinks.k1.kafka.bootstrap.server=master:9092a1.sinks.k1.kafka.topic=ordera1.sinks.k1.kafka.producer.acks=1
当HDFS为sink时
1234a1.sinks.k2.type=hdfsa1.sinks.k2.hdfs.path=hdfs://master:8020/user/test/flumebackupa1.sinks.k2.hdfs.fileType=DataStreama1.sinks.k2.hdfs.whiteFormat=Text
创建主题
1kafka-topics.sh --bootstrap-server master:9092 --create --partitions 1 --replication-factor 3 --topic order
...
碎碎念
其它的
2023/3/27既要看得见远处的山,更要看得见脚下的路。
关于博客
2023/3/25
误删了某个东西,导致许多东西重新弄了,以后一定要时常备份
博客开启了页面预加载,访问体验更好啦。
简单的shell语法和脚本编写
简单的shell语法和脚本编写浅学一下
认识shell说明:
shell是介于用户和内核之间的一个工具,用户的操作通过shell进行解析,然后传递给内核
shell有两种表现形式:交互式(单步执行),脚本式(文本执行)
我们通常所说的shell编程是脚本式
1.类型:
bash(linux默认),ash,csh,ksh等
环境变量$SHELL 标明了系统使用的shell
/etc/shells 定义了系统可用的shell
2.演示:
hello.sh
1234#! /bin/bashecho "hello world"
添加可执行权限 chmod +x hello.sh
启动方法
在当前目录:./hello.sh
使用bash执行:bash hello.sh # 无需添加可执行权限
3.书写shell
指定shell解释器 #! /bin/bash
注释符号:#
非常严格的使用习惯
a=123 # 不带空格
变量使用形式
123456789#! /bin/bashname="小明" #定义 ...
Typora的用法
Typora的使用模式切换源代码模式 Ctrl + /
文字处理一级标题 - 六级标题
ctrl + (1 -6)
降低标题级别 Ctrl + -
提高标题级别 Ctrl + =
list列表处理降级快捷键 Tab
升级快捷键 Shift + Tab
选中整行 Ctrl + L
加粗 Ctrl + B
引用 Ctrl + Shift + Q
字体倾斜 Ctrl + i
高亮 ==高亮展示== 记得要在偏好设置中的拓展语法中打开才能使用
Ctrl + Shift + L 显示/隐藏侧边栏
下划线 Ctrl + U 这是下划线实例
删除线 Alt + Shift +5 这是删除线实例
无序列表 Ctrl + Shift + ]
无序列表实例
Tab键进入子序列
同样是Tab键
ENTER 返回列表上级
表格
ctrl + T
分割线
三个或以上 - 或者 * 并回车出现分割线
插入本地图片 直接拖入图片
插入网络图片
快捷键 CTRL + sh ...
【转载】Hadoop-3.3.0-Centos7-64bit_编译安装详解
Hadoop3.3.0–Linux编译安装基础环境:Centos 7.7
编译环境软件安装目录
1mkdir -p /export/server
一、Hadoop编译安装(选做)
==可以直接使用课程提供已经编译好的安装包==。
安装编译相关的依赖
123yum install gcc gcc-c++ make autoconf automake libtool curl lzo-devel zlib-devel openssl openssl-devel ncurses-devel snappy snappy-devel bzip2 bzip2-devel lzo lzo-devel lzop libXtst zlib -yyum install -y doxygen cyrus-sasl* saslwrapper-devel*
手动安装cmake
123456789101112131415161718#yum卸载已安装cmake 版本低yum erase cmake#解压tar zxvf CMake-3.19.4.tar.gz#编 ...
在您的cent OS上运行一辆小火车
sl 命令,可以让Linux的桌面上出现一辆小火车
但是使用前需要先安装此命令,安装也很简单
以cent OS 7为例,来看一下安装方法:
一 首先切换到root用户 在命令行窗口输入 su root
二 开始安装正常流程
下载yum源
wget http://mirror.centos.org/centos/7/extras/x86_64/Packages/epel-release-7-11.noarch.rpm
安装yum源
yum install -y epel-release-7-11.noarch.rpm
安装 sl
yum install -y sl
运行
直接输入 sl 便可以运行啦
遇到问题在安装中,你可能会收到提示
另一个应用程序是:PackageKit
只需要
rm -f /var/run/yum.pid












