大数据成长之路

Hadoop

历史之路

HDFS JavaAPI

副本因子的坑

如果通过hdfs shell上传的文件那么他的副本因子是根据 hdfs-site.xml中的配置,
如果是通过Java API方式那么他会使用副本因子为3的配置

项目实践

用户行为日志分析

日志数据内容

访问的系统属性:操作系统、浏览器等等
访问特征:点击的url、从哪个url跳转过的(referer)、页面停留时间等
访问信息:session_id、访问ip

数据处理流程

数据采集 Flume:Web日志写入HDFS中
数据清洗脏数据清理:Spark、Hive、MapReduce
数据处理按照需求进行相应业务的统计和分析
数据处理结果入库结果可以存放到RDBMS、NoSQL等
数据的可视化通过图形化展示的方式展现出来:饼图、柱状图、地图等

Name		Name	Last commit message	Last commit date
Latest commit History 158 Commits
avro		avro
flink-base		flink-base
flink-study		flink-study
flinkonyarn		flinkonyarn
guice-di		guice-di
hadoop-parquet		hadoop-parquet
hadoop-study		hadoop-study
hive		hive
kudu-demo		kudu-demo
project		project
quickstart-scala		quickstart-scala
research-flume		research-flume
research-hbase		research-hbase
research-zookeeper		research-zookeeper
rocksdb-learning		rocksdb-learning
sqltree		sqltree
stateful-function		stateful-function
streaming-kafka		streaming-kafka
study-spark		study-spark
.gitignore		.gitignore
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

大数据成长之路

Hadoop

历史之路

HDFS JavaAPI

副本因子的坑

项目实践

用户行为日志分析

HDFS文档

About

Releases

Packages

Contributors 2

Languages

collabH/reasearch-bigdata

Folders and files

Latest commit

History

Repository files navigation

大数据成长之路

Hadoop

历史之路

HDFS JavaAPI

副本因子的坑

项目实践

用户行为日志分析

HDFS文档

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages