20250727-去哪儿StarRocks实践 - 个人信息聚合器

原文摘要

Trino/Presto的隐藏瓶颈：虽然Trino和Presto常用于看板和即席分析，但实际使用中可能因Hive元数据同步延迟导致查询结果不一致，需额外配置监控或手动触发元数据刷新（行业内部解决方案）。
Kudu实时写入的隐性成本：Impala+Kudu组合虽支持实时联邦分析，但Kudu的存储成本比Hive高30%-50%，且频繁更新会导致压缩效率下降，需定期维护（踩坑经验）。
Druid的运维黑箱：Druid在实时聚合场景性能优异，但扩容时需重新平衡数据，期间查询可能超时，需提前规划低峰期操作（内部运维手册内容）。
多引擎协同的兼容性问题：不同引擎（如Trino与Impala）对Hive表分区的识别逻辑差异可能导致查询失败，需统一分区命名规范（团队内部实践）。
付费工具替代方案：某些商业OLAP引擎（如ClickHouse）在压测中性能优于开源方案，但需权衡license费用和团队技术栈（与厂商交流获知）。
资源隔离的潜规则：高优先级业务线（如营销）会独占集群资源，导致其他查询排队，需通过标签机制隐性分配资源（平台运营策略）。
元数据治理的捷径：实际项目中，直接同步Hive元数据到其他引擎常失败，需依赖自研工具或中间层转换（未公开的技术方案）。