hive left semi join
(左半连接)是 IN/EXISTS 子查询的一种更高效的实现。本质上就是通过join的B表来筛选A,而不引入B表中的数据,同时可以提高效率。
示例
SELECT A.KEY,A.VALUE
FROM A
WHERE A.KEY IN (SELECT B.KEY FROM B )
可以改写为
SLECT A.KEY,A.VALUE
FROM A
LEFT SEMI JOIN B
ON A.KEY=B.KEY
1. 只能在 ON 子句中设置过滤条件
2. 因为 left semi join 是 in(keySet) 的关系,遇到右表重复记录,左表会跳过,而 join 则会一直遍历。这就导致右表有重复值得情况下 left semi join 只产生一条,join 会产生多条,也会导致 left semi join 的性能更高。