新的一年又即将来到,盘点今年的开源进度,感触良多。
KtSQL最早开始于2016年,当时还记得只有一点MySQL分库分表中间件的开发基础,对分布式事务数据库领域只能算是懵懵懂懂。萌生开发一个分布式事务数据库的原因,是因为在大数据系统应用开发过程中,反复感觉到所谓大数据,无非是把数据库从单机或小规模集群往分布式系统发展的过程。既然如此,为什么不直接做一个分布式数据库呢?
说来容易做来难,项目启动的时候,其实有诸多波折。开源项目和商业项目是不同的,商业项目会围绕战略展开,而开源项目则需要自己去思考项目的意义,这其实会导致想法的纷乱。KtSQL开始后,有相当长的一段时间,阅读了许多分布式数据库方向资料,回头想想,真是一段充实的时光。但这时虽然增长了知识,却陷入了各种想法的引诱,导致很长一段时间项目的立意都不清晰;到了真正开始动手的时候,一开始的想法是底层存储基于MySQL实现,充分利用MySQL生态。但是,在分布式事务时,思路卡住了,Google Percolator要在MySQL上实现,诸多限制,这也算是走了弯路,后来才换成HBase。经历过这些挫折磨难,才真正进入到正轨。
一晃眼两年多过去,大数据领域果然出现了NewSQL的潮流,也开始出现了数据中台的概念。引发这个趋势的,不光是自然而然的信息化复杂度增加,还在于除了结果数据外,过程数据也开始被重视起来,而且出现了过程数据与结果数据的融合协同趋势。
从商业领域角度观察,信息化水平的提升,对于克服规模效应带来的效率不足问题,有着颠覆性的价值。中国的经济规模,互联网技术带来跨地域经济协作,都是这一方向的良好温床,而一带一路带来的全球化效应,更是为进一步发展打下良好基础。大势如此,必然会导致一个个的独立个体加入到各种的经济联系体中,而经济联系体天生有需求往规模化发展。
既然规模化是大趋势,那么信息化的复杂度必然不断提升,必然带来更多的信息化系统。这些信息化系统都需要数据库,而且通过数据库来完成信息化系统之间的协同工作,成本远低于现在所谓的微服务系统。
而且,随着机器学习、深度学习、人工智能领域的科研持续发展,数据的应用已经不仅仅局限于结果的保存,过程数据的监控、分析、处理,把数据应用带到了一个新的高度。能不能通过读取计算用户在多个系统之间的操作行为,判断出用户的当前意图,为下一步的用户响应做出恰如其分的应对?这就是下一步KtSQL的发展方向。
KtSQL将迎着未来的方向持续进步,坚持不懈。也必然会在开源的路上奏出强音!