-100亿量化私募数据重大浙江痛点提取算法平台急需统一

为了不断提高量化投资能力,越来越多的大型量化私募机构正在仿效券商和银行惯例,建立自己的量化数据中队。

随着量化投资战略的不断崛起,100亿量化私募基金的数量相应创下了历史新高。

私募股权网的最新数据显示,截至7月末,100亿量化私募机构数量为30家,创下历史新高。

在此之后,量化私募产品投资战略也发生了明显变化。

“自从去年量化的私募商品超额收益大回调以来,普尔阿尔法(pure alpha)战略越来越受到量化的私募机构管理者的关注。因为股价下跌导致的净值下跌可以克服1元人民币的压力,创造高超额收益。”恒生电子(600570)数据运营中心产品运营专家黄琪向记者公开。目前,pure alpha战略私募产品的超额收益来源主要来自两个主要领域。一种是通过算法模型先发现特定股市的错误价格,然后提前布局获得超额收益。二是通过对大量股市波动历史规律的分析,更准确地预测未来走势,获得超过市场平均水平的收益。

在他看来,为了实现pure alpha战略的高超额收益预期,不断增加对数据、算法模型和交易执行的投资,提高了量化投资数据的使用要求。

记者从多方面了解到,为了不断提高量化投资能力,越来越多的大型量化私募机构正在仿效券商和银行惯例,建立自己的量化数据中队。

投资交易运营总监孙秀元指出,为了建立以数据为中心的量化资本管理系统,建立量化数据中央大学,实现商业数据数据数据数据、数据资产和投资智能,将成为未来量化私募基金机构通过数据能力提高投资决策准确性的重要方向。

他直言要做好这项工作并不是一件容易的事。首先,大量量化的私募机构面临量化的研究数据量、多源异构、数据质量下降、自由度下降等痛苦,数据使用效率千差万别。第二,如何通过数据清洗细化分析,进一步改进自己的算法投资模型,也是一个巨大的挑战。

从恒生集院副总裁夏明来看,随着pure alpha等量化选股战略资金容量的增加,对多边选股战略的数据需求日益旺盛。——是股票基本面、市长/市场情绪面、资金流动性、行情流、财务流、评价流等多种数据和财务指标,量化私募机构不仅需要数据完备,还要求实时更新推送和快速清洗精炼(转换为必要的建模要素数据),这在金融数据服务企业提供数据服务的同时也需要规模因素、动量因素和技术。为量化私募机构提供完善的投资数据服务、绩效归因分析和指数服务。

他表示,恒生电子正在努力通过数据质量规则验证系统建立高质量的历史行情数据库。为量化投资机构建立将行情、信息、要素数据汇集在一起的机构金融数据服务,提供与二次加工统一方便的对外服务。进一步满足了对量化研究数据的各种要求。

中泰证券科学技术研究开发部总经理胡波指出,随着限制的严格,定量交易不再单纯关注高频速度,低延时、AI等技术得到了广泛应用。系统开源和云原生也是量化交易投资机构值得深入探索的主要技术赋能方向。这也是量化交易走向规模化的唯一途径。但是,如果想让量化交易走上云原始的道路,就必须从制定统一的行业标准、构建完善的开源生态、使用适当的开发语言等各方面深入发展。

100亿量化私募数据台湾“崎岖之路”

记者多方知道,与传统的投资交易不同,量化交易投资主要是将股市波动的历史规律转化为数据,依靠统计和编程完成数据分析,制定适当的投资战略。此外,在执行之前,还必须通过各种模拟测试,验证投资战略的有效性和绩效是否符合预期。

因此,众多量化战略私募机构的重要工作之一就是全天处理各种金融数据。这导致了三种定量投资数据需求。第一,可以掌握尽可能多的财务数据,包括宏观经济、上市公司财务数据、股票行情数据、上市公司舆论数据等。第二,数据必须准确,这是控制投资战略巡回潮情况的最大基础。第三,能够以足够快的速度获得所有种类的数据,使定量交易投资战略能够快速应对市长/市场变化。

正在开发Pure alpha战略私募产品的100亿量化私募投资董事向记者表示,目前最中意的是行情数据,但这些数据处理得非常麻烦。因为数据量非常大,需要进行繁重的数据校正,所以数据的准确性必须很高。(比尔盖茨,数据,数据,数据,数据,数据,数据,数据。)

“此外,除了让我们头疼外,还有磁盘后的统计分析工作。在优化量化投资算法模型方面发挥着重要作用,但由于数据不全面,冗余建模效果往往不尽人意。”他指出。

为了解决这些问题,他所在的100亿量化私募机构正在尝试建立量化数据中央台,包括底部数据层、元素搜索层、战略开发层、战略跟踪层、产品层等。这将完全恢复每个量化投资模型的构建前过程和投资业绩的好坏。作为他们持续优化pure alpha投资战略的重要依据。

他指出,在量化数据重大建设过程中,另一个棘手的问题是如何构建完善的算法平台,目前除了自己挖掘各种金融数据建立量化交易投资模型外,还将引入外部算法模型供应商独特的投资战略。然而,在实际操作过程中,他们发现大多数算法模型供应商都专注于开发投资算法模型,忽视量化的私募机构数据接口和风控模型的对接,“看不到”许多外部算法投资模型。此外,当他们进入多家外部算法模型服务公司时,他们也会发现缺乏用于管理的集成平台,这将使他们无法建立统一的运营评价系统,无法判断哪一个好,将使自己的量化交易投资战略面临额外的投资风险。(约翰肯尼迪,美国电视剧)

“我们正在努力建立算法管理、算法设计、算法测试过程、算法在线过程、交易风控过程集成的统一算法平台。”他指出。

记者多方面知道,许多大型量化私募机构在量化数据重大建设过程中可能会遇到数据存储问题——。目前大部分结构化数据可以通过数据库存储,但很多非结构化数据(高频海量时间系列数据、研究、舆论等)很难用数据库的方式存储。越来越多的量化私募机构尝试将基于大数据预处理的数据湖技术——首先使用NLP、机器学习等技术清洗和分析非结构化数据,然后通过预处理模块纳入数据库存储,但效果没有达到预期。

科技能力解决方案效果几何

面对量化私募机构旺盛的量化投资数据需求和使用痛点,券商和第三方金融数据服务企业纷纷提供新的技术能力解决方案。

一位经纪人信息技术部负责人对记者进行了调查,认为在数据存储水平上,数据格式在很大程度上决定了数据存储的方式。因此,他们正在尝试对顺序数据进行特别优化的存储方法(例如热式存储或流式存储、基于批处理的特殊存储方法),而对于大量结构化数据,他们则尝试使用高速文件群集或对象存储组技术进行存储。解决量化私募机构量化研究数据存储的诸多问题。

在数据使用级别,数据内容决定了数据的使用方法和逻辑分类。因此,他们在收集海量量化研究数据的同时,建立数据访问层,提供API、DB和各种格式文件接口,为量化私募机构提供大量数据访问服务,大量外部数据收集首先实现业务数据化,然后在自己的量化数据中队进行数据整理细化,实现数据资产化,最终达到智能化量化研究数据的效果。

“在此期间,我们统一了统一算法平台,特别是算法服务商和经纪人的数据使用方式和数据接口,量化私募机构,帮助降低系统复杂性,同时使合规风气控制更加安全。他指出。

黄基告诉记者,目前,众多量化私募机构在量化研究能力和量化投资数据使用过程中面临三大问题。一是数据多元、体量、结构形式分类差别很大,迫切希望能更容易地进行多源数据清洗处理分析。其次,很多数据质量低,更新快,甚至很难发现(即使很难发现或修复),需要整个数据质量验证系统,通过多维比较判断哪些数据是“偏颇的”,快速找到数据恢复路径,尽快提高数据质量。第三,越来越多的量化私募机构抱怨没有办法对数据进行二次加工。尤其是抱怨说,将具有投资决策参考价值的“中间指标”或“共同指标”提前到数据处理过程中,可以为后端研究建模工作节省更多时间。一些大型量化私募机构也希望通过对数据的便捷二次处理和线下计算、实时行情数据的低延迟计算推送,投资团队和交易风控团队能够更快地应对行情变化。

在他看来,为了解决这些数据使用中的问题,金融数据服务提供商需要在定量投资数据服务建设领域做四件事。一是建立历史行情的数据基础,提高数据质量,二是打开历史行情的数据二次处理平台,提供数据处理能力。三是进一步开放服务,包括支持低编码封装的API接口,四是不断优化权限管理,支持量化私募机构根据需要申请数据使用。

黄基直言,目前国内量化研究和量化投资对数据的服务要求不断提高,是因为越来越多的量化私募机构在竞争更高的pure alpha。这些无形的金融数据服务企业应更加完善、放心、性价比高、提供标准化的量化投资数据服务,并确保量化投资领域的数据使用门槛不跟随绩效目标“上升线”。

(作者:陈植编辑:曾芳)

-100亿量化私募数据重大浙江痛点提取算法平台急需统一

Leave a Comment