Impala实战-读书笔记

Hive底层使用的是Mapreduce引擎,仍然是一个批处理过程,难以满足查询的交互性。
Impala的最大特点是 快速。Impala是高角羚。
从Hive到Impala,不做任何改变,查询速度平均提升了三分之一。

REGEXP操作符
^匹配字符串开头
$匹配结尾
.匹配单个字符
*多个字符
+前面正则表达式的一个或多个实例
?前面正则表达式的0个或多个实例
正则表达式必须整值匹配,不能只匹配其中的某一部分。
抽取一部分,使用内嵌函数 regexp_extract()
where a regexp ‘a.*’

使用DESCRIBE FORMATTED V1, 可以显示原始的CREATE VIEW 语句。

DML:DATA MANIPULATION LANGUAGE.数据操纵语言。

EXPLAIN {SELECT_QUERY| STAS_STMT | INSERT_STMT} 返回一个语句的执行计划,从底层显示Impala如何读取数据,如何在咯节点之间协调工作,传输中间结果,并获得最终结果的过程。

Impala不支持在同一个查询中使用多次聚集函数。

使用SHOW CREATE TABLE 来显示当前表的CREATE TABLE 表定义语句。

concat_ws(string sep,string a,string b…),将各输入参数以制定的分隔符链接在一起。
group_concat(string s[,string sep]) 拼接结果集中的每一行,返回一个字符串。
concat(),concat_ws()用于拼接同一行中的不同列,而group_concat()用于连接欸不同行。

parse_url(string urlsstring,string partToExtract [,string keyToExtract])
该函数返回URL指定的部分,包括‘PROTOCOL’ ‘HOST’ ‘PATH’ ‘REF”AUTORITY’ ‘FILE’ ‘USERINFO’ ‘QUERY’。必须大写,当返回‘QUERY’部分时,可以制定一个键来返回键值对应的值。

SQL语句的迁移:
对于任何子查询,必须使用别名。

发表评论

电子邮件地址不会被公开。 必填项已用*标注