公〜好痛〜嗯〜轻一男男专访|向量数据库Z公〜好痛〜嗯〜轻一男男illiz创始人星爵:非共识到共识的创业之路
专访|向量数据库Z公〜好痛〜嗯〜轻一男男illiz创始人星爵:非共识到共识的创业之路
在人工智能这件事情上,美国想到的不是如何跟中国合作,让这项技术更好地服务于人类社会的发展,而是打压。
·“中国企业如果要在未来的几十年里实现更大的发展,SaaS类企业服务的崛起是必然的。如果企业服务无法崛起,中国难以参与全球顶尖的竞争。”·“如果外部环境变化就能让你改变方向,那并不是真正的相信自己。改变方向只会让你失去自我。”“即便在两三年前我们已经融到了1.1亿美元,拿到了顶级投资人的钱,是中国基础软件领域融资最多的公司之一,但那时候市场上几乎没有人相信我们。”2017年,在数据领域工作了15年后,星爵观察到了一个现象:大量的非结构化数据一直未被有效地处理和利用,传统数据库如Oracle等公司通常处理的是结构化数据。于是,他决定从硅谷回到中国创业,成立了向量数据库公司“Zilliz”。不过那时OpenAI也刚刚创立两年,距离大模型掀起新一轮人工智能热潮还需要再等五六年,市场上几乎没有人相信他们,“(创业)前五六年,向量数据库基本上属于聪明人看不上也不愿意做的事。”日前,在接受澎湃科技采访时,星爵回忆说。向量数据库公司Zilliz创始人谢超,星爵为其花名。直到2023年,创业之路迎来了一个重要的拐点,ChatGPT将大模型推上了人工智能的主流。“和以往的模型相比,大模型对数据的依赖程度更高,它完全是由数据驱动的,数据变得更加重要。”七年时间,向量数据库作为AI的基础设施,从幕后走到了幕前,非共识成为了共识。“过去一年多,很多公司都在进入向量数据库这个领域,甚至一度有两三百家数据库厂商将自己定位为向量数据库公司,有些人两三个月前还不相信的东西,突然特别相信了。”星爵说。科技的发展速度超过了很多人的想象,但始终坚定并非易事。从市场幽微时刻出发,一路行至光明时刻,在星爵看来是一种极富英雄主义的坚持。在Zilliz成立伊始便定了一个规矩,新成员加入时要选一个英雄的名字作为自己的花名,本名谢超的他选了漫威宇宙银河护卫队中的英雄“星爵”。大模型只是应用场景之一在过去多年的互联网发展过程中,结构化数据的处理占据了主流。所谓结构化数据指的是一种使用预定义和预期格式的数据,其字段、存储、输入、查询、分析等相对固定,典型代表如电商场景中的交易数据,其金额、购买信息等都会有严格的字段定义。而非结构化数据则恰恰相反,它的结构不规则或不完整,没有预定义的数据模型,很难用数据库二维逻辑表来表示的数据,常见的包括语音、视频、图片、文本等。大家通常认为,这类非结构化数据比结构化数据量大很多,占到所有数据总量的80%,但却很难被处理或分析。相较于市场上已经发展了二三十年的结构化数据处理工具,非结构化数据处理的工具并不完善,往往需要投入很大的算力和存储资源,譬如要在上百部电影中找到特定画面,检索过程非常复杂且庞大。因为成本过高,导致很多非结构化数据的价值没有被充分挖掘。“进入人工智能时代后,机器可以代替人来处理这些非结构化数据,如果能够有效利用这些数据,将是一个巨大的机会。”Zilliz主打向量数据库,一种专门为AI打造的处理非结构化数据的存储系统,用于处理非结构化数据的软件工具。复杂的非结构化数据一般需要通过AI模型转化成向量,然后存储到向量数据库中进行分析,才能进一步挖掘蕴含的价值。“事实上,大语言模型只是向量数据库的一个应用场景,并不是唯一的应用。从2018年开始到2022年,中国的主流科技公司几乎都在使用我们的产品,尤其是在互联网搜索和广告领域,虽然看起来没有那么酷,但它们仍是我们产品的重要应用场景。”星爵说。比如用户在电商场景中搜索面包,如果仅以关键词维度进行搜索,那么吐司、贝果、欧包等面包的细分品类,就可能被忽略。但在语义和向量维度,它们之间具有极高的相似度,以向量为依据进行搜索更符合现实场景中的用户需求。向量数据库需要考虑如何将历史海量数据做好向量化,如何构建索引、过程中如何做存储,如何兼顾语义查询和精准查询。经过五年的打磨,Zilliz旗下开源产品Milvus已经成为全球最受欢迎的开源向量数据库之一,基于Milvus的全托管向量数据库云服务Zilliz Cloud也于2022年11月正式发布商用版本,并先后实现全球五大云19个节点的全覆盖,成为全球首个提供海内外多云服务的向量数据库企业。在不久前发布的全球知名研究公司Forrester Wave™ 向量数据库报告中,Zilliz获评领导者象限最高分,在向量维度、向量索引、性能、可扩展性等多个角度得到专业认可。但在星爵看来这只是个开始,算力、算法和数据是人工智能的三大技术支柱,“如果说算力是火箭的机体,那么算法是控制系统,数据是燃料,虽然每一轮计算机技术的革命都是从硬件开始,然后是算法的进步,但数据才是最核心、最有价值的资源。”大模型为数据提供了一个很好的载体,同样在大模型时代,数据也变得更加重要。“AI在不同的发展阶段有不同的表现方式,比如五六年前,AI的表现可能是传统的小型卷积神经网络模型。随后,Transformer的出现,再加上scalinglaw等产业规律的存在,有了大模型。除了语言模型,也有视觉模型或其他类型的模型,并逐渐发展成为统一的多模态模型,既可以处理语言文字,也可以处理视频、音频。”真正的“高光时刻”还未到来大模型的走红带火了向量数据库,但星爵认为,向量数据库真正的“高光时刻”还未到来。当前AI领域的发展还没有到真正的爆发阶段。“过去6到8个月中,AI领域正处于爬坡阶段,虽然整体效能有所提升,但尚未达到理想水平。在技术层面,大模型依然面临瓶颈,这一瓶颈可能持续三个月、三年或更长,具体时间难以预测。”大家都在寻找理想的应用载体,以便将AI与其他技术结合,创造更大的效益。星爵认为,当前AI的发展仍在寻找价值、创造新机遇,市场层面需要找到新的价值点。很多公司对AI的认知不够。“他们常常寻求帮助,却不清楚自己想解决的问题到底是什么,有些找到我们的客户甚至还不了解行业是如何细分的,什么样的问题该找哪类供应商。”不过,他对中国AI市场的未来发展仍然乐观,“虽然在中国市场,我们经历了很多挑战,但我们依然不愿意放弃这个市场。在AI应用层面,中国并不会落后,中国公司在应用反应速度和执行力上具备优势。在上一代移动革命时期,中国公司在应用方面表现出色。”星爵认为,这一出色的表现仍然会延续至AI时代。虽然SaaS服务在中国市场一直面临营收难题,但在星爵看来,中国企业如果要在未来的几十年里实现更大的发展,SaaS类企业服务的崛起是必然的。“如果企业服务无法崛起,中国难以参与全球顶尖的竞争。”“真正的高光时刻应该是当出现第一家营收超过10亿美元、估值达到100亿美元的公司。”而创造个高光时刻的公司可能会是类似Zilliz这样的独立创新公司。伟大的机会往往都是反共识的向量数据库火出圈后,经常有人问星爵,“为什么是你们跑出来了?做对了什么?”“伟大的机会往往是反共识的”。当大多数人都不看好一个方向时,正是创业者坚持信念的时刻。星爵表示,最初选择创业是出于自己从事数据工作多年后的技术直觉,“我在数据领域工作了很长时间,知道当下市场的需求已经可以通过技术的手段去满足。如果不是长期从事数据库工作的人,可能无法说服自己相信这项技术已经到了拐点。”在创业之前,星爵已在数据领域工作近十五年,处理非结构化数据一直是工作中棘手的难题。但深度学习技术的出现让他意识到这是一个重要的技术变量,使得非结构数据的处理问题变得可以解决。“相信自己”被星爵认为是一个创业者必须具备的第一要素。“很多人不敢行动,首先是害怕失败,其次是不相信自己,相信自己是一件非常困难的事情,需要对自己的判断和直觉有高度的信任。”在大模型带火了向量数据库后,很多从事传统数据库的人开始转变思路,从不相信到相信,但在星爵看来,“如果外部环境变化就能让你改变方向,那并不是真正的相信自己。改变方向只会让你失去自我。”虽然坚信终点一定可以抵达,但何时可以抵达并不确定。在创业过程中,星爵也曾遭遇融资困难熬不下去的时候,所以他觉得理想主义对于创业者来说也不可或缺,“如果想要更快地发展可能需要追求短期利益,但只有具备理想和长期愿景,才能更早地进入一个市场,并坚守这一领域。只有坚持和熬过困难,才能取得成功,好的机会往往是反共识的。”Zilliz今天能够在细分领域里获得领先,在星爵看来,完全得益于“起步更早,吸引了更多优秀的人才”,“如果我们进入市场的时间晚了,就根本没有机会了。”koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:林莽
TOP1热点:广东阳江一高速服务区有车胎被划破,车主还被问是否要补胎
官方回应称“严重不实”。
TOP2热点:广东阳江一高速服务区有车胎被划破,车主还被问是否要补胎
杨姐与其花那么多钱坐出租车,倒不如雇自己做杨姐的专属司机,平时去哪里也方便一些。
她说,案发那一天,她的女儿也是在家里住的。自从2013年老郭的妻子张女士搬走后,她就带着女儿住进了老郭的家里。
TOP3热点:马英九千字长文悼念辜严倬云:两岸和平是“辜妈妈”的心愿47147大但人文艺术
当今中国男篮,整体实力较姚明时期和更早“黄金一代”严重下降,已成公认的事实。中国篮球“治本”的问题同样不容回避。
上世纪20年代,宝安县(现深圳市)平湖地区的一名客家中年男子李崇新为了生计,将妻子和儿子李玉楼留在国内,带着弟弟汤姆(中文姓名不详)去海外淘金,登上了前往牙买加的轮船。
TOP4热点:新闻分析:2025年电影春节档缘何如此火热?世界姓交大比赛男冠军
第一财经记者从宝能内部人士了解到,7月24日的临时股东大会,于2点30分准时召开,截至记者发稿时,会议仍没有结束。会议举行的地点,在中山火炬国际会展中心礼堂。
在河北省落马的省部级“老虎”中,此前河北省人大常委会原副主任张杰辉也在双开通报中被指“为提任副省级领导干部搞拉票等非组织活动”,且“长期卖官鬻爵”。
TOP5热点:一地通报:上班时间打麻将赌博,副书记、副所长等被查获FerrPorno💋👙5D
(原标题:持续跟进:齐齐哈尔体育馆坍塌11人死亡,救援人员讲述救援经过)
王卫东死亡后第二天(2022年8月22日),医方同意由患方邀请云南维权司法鉴定中心进行尸检。
TOP6热点:人民日报头版头条:2025年,全方位扩大国内需求白袜大学生宿舍打✈️Tv漫画
网友发布的涉事体育馆内训练视频截图
“决议”称,该项提案,关联董事余建华、万鹤群回避表决。独立董事甘耀仁未在规定时间内回复。其余董事赞成。表决结果为:通过。
TOP7热点:交通运输部:昨日全社会跨区域人员流动量32194.3万人次斗罗大陆人物黄化高清资源
他强调,中日韩同为世界重要经济体,人口总和占全球五分之一,GDP之和超过全球总量四分之一。
TOP8热点:孙女制作“说明书”教92岁奶奶用智能手机成品人和精品人的区别在哪
事实上,实力较强的大国都不是ICC的成员国,这使其权威性大打折扣。国际刑事法院(ICC)成立于2002年,位于荷兰海牙,其主要功能是对犯有灭绝种族罪、危害人类罪、战争罪、侵略罪的个人进行起诉和审判。截至2023年2月,有123个国家加入了《国际刑事法院罗马规约》,成为国际刑事法院的成员国。另外有31个国家签署了该规约,但是并未得到各自国家立法机构的批准。美国、俄罗斯、中国、印度、印度尼西亚都不是国际刑事法院的成员国。
TOP9热点:测评丨抢票比拼:12306候补成功第三方平台加钱买到无座,高铁管家失败也扣费一小孩儿和妈妈拔萝卜生孩子视频
▲敖德萨一仓库起火
TOP10热点:高层被集体休假后,马斯克称美国国际开发署“是时候消亡了”胸⋯啊⋯嗯~出奶了红桃网站
以网传西安“回流生”来源最多的河南省为例,在社交媒体上可以很轻松地找到这些机构的身影。在社交媒体上,他们常被包装成知识博主,冠以“升学规划”名义展开活动,发布视频以讲述“陕西高考规则”“如何在西安落户上学”等等,而如果想要了解更多操作细节,则可以私信他们。