-
字节跳动在 Spark SQL 上的核心优化实践
作者 | 郭俊封图 | BanburyTang字节跳动数据仓库架构团队负责数据仓库领域架构设计,支持字节跳动几乎所有产品线(包含但不限于抖音、今日头条、西瓜视频、火山视频)数据仓库方向的需求,如 Spark SQL / Druid 的二次开发和优化。字节跳动数据仓库架构负责人郭俊从 SparkSQL...
04月23日[解决方案]浏览:24
-
总结面试:SQL常见面试题-1
刚刚走过了金三银四,相信许多小伙伴已经得到了自己心仪的offer,在这里先恭喜大家啦!但可能还有一些小伙伴刚刚开始找工作,作为一名数据分析师,还是想总结一些面试的经验及SQL的笔试面试题给各位小伙伴,希望对大家可以有一些帮助。今天先总结一些常见的...
04月23日[解决方案]浏览:24
-
-
Kafka 的生成者、消费者、broker 的基本概念
kafka是一款基于发布与订阅的消息系统。它一般被称为“分布式提交日志”或者“分布式流平台”。文件系统或者数据库提交日志用来提供所有事物的持久化记录,通过重建这些日志可以重建系统的状态。同样地,kafka的数据是按照一定顺序持久化保存的,可以按需读取。...
04月23日[解决方案]浏览:16
-
四十一、SparkSQL读取parquet数据源(必须要弄懂)
1.Parquet文件介绍Apache Parquet是Hadoop生态圈中一种新型的列式存储格式,它可以兼容Hadoop生态圈中大多数据的计算框架,如Hadoop, Spark,它也被多种查询引擎所支持,例如Hive, Impala等,而且它是跨语言和平台的。Parquet的产生是由Twitter...
04月23日[解决方案]浏览:24
-
-
从零开始学SQL进阶,数据分析师必备SQL取数技巧,建议收藏
上一节给大家讲到SQL取数的一些基本内容,包含SQL简单查询与高级查询,需要复习相关知识的同学可以跳转至上一节,本节给大家讲解SQL的进阶应用,在实际过程中用途比较多的子查询与窗口函数,下面一起学习。...
04月23日[解决方案]浏览:27
-
SQL窗口函数知多少?
我们在日常工作中是否经常会遇到需要排名的情况,比如:每个部门按业绩来排名,每人按绩效排名,对部门销售业绩前N名的进行奖励等。面对这类需求,我们就需要使用sql的高级功能——窗口函数。...
04月23日[解决方案]浏览:23
-
-
聊一聊SQL Server中的Row_Number
排序函数提供了一个非常好的特性,即在SQL中为结果集中的记录分配编号。SQL中的Row_Number是其中一个函数,它允许我们为结果集数据的行分配排名或编号。根据使用的排序函数的类型,将不同的值分配给不同的行。它们主要有以下几种类型:Row_NumberRankDense_RankNTile在本文中...
04月23日[解决方案]浏览:21