爱游戏-BPO行业整合方案提供者
专业化、科技化、国际化;高标准、广覆盖、全流程
了解更多[导读]北京2024年7月2日 /美通社/ -- AIGC作为当下最火的手艺话题,其营业流程触及到数据的收集、处置、练习、推理和归档五个阶段,每一个阶段都面对着分歧的存储需乞降挑战。跟着数据量的爆炸性增加,特殊是跟着多模态数据的快速增加,对存储系统的扩大性和办事兼容性也提出了新的挑战。 ...
北京2024年7月2日 /美通社/ -- AIGC作为当下最火的手艺话题,其营业流程触及到数据的收集、处置、练习、推理和归档五个阶段,每一个阶段都面对着分歧的存储需乞降挑战。跟着数据量的爆炸性增加,特殊是跟着多模态数据的快速增加,对存储系统的扩大性和办事兼容性也提出了新的挑战。
在2024年数据根本举措措施手艺峰会上,海潮信息散布式存储产物线架构师Lance Sun博士颁发了标题问题为 高效数据编排,加快释放数据潜能 的大旨演讲,具体会商了高效数据编排对解决上述挑战,并释放数据潜能的主要性。
AIGC带来的存储挑战凸显了数据的主要性
起首,Lance Sun博士具体介绍了AIGC对存储提出的需乞降挑战,让我们对AIGC的营业流程和对数据存储的需求有了更深切的熟悉。
第一个是巨量多模态数据的挑战。良多年夜说话模子都采取了来自Common Crawl的数据集,这个组织在曩昔17年已收集了2500亿网页,此刻还在延续搜集更多。IDC猜测,到2025年,全球数据总量将跨越175ZB,这类增加对存储系统的多样性和扩大性带来了挑战。
第二个挑战是对超年夜读写带宽的需求。在练习阶段,checkpoint的治理是要害,杰出的存储机能应在12分钟内完成checkpoint的读写操作,确保不拖慢全部练习进程。同时,因为GPU本钱昂扬,更高的存储机能可以削减显卡的期待时候,削减资本华侈。
第三个挑战是对读写IOPS的更高需求。千亿级文件的快速拜候对IOPS有着极高要求,在某些采取shuffle洗牌策略的练习进程,假如IOPS机能不敷,会致使元数据办事器发生年夜量的通讯梗阻,同时会造成GPU集群期待,影响练习效力,造成资本华侈。
第四个挑战在在数据全生命周期治理。在数据清洗和标注算法日趋成长的今天,数据作为企业的焦点资产,企业需要对数据进行持久保留。在是,若何将数据以较低的本钱平安存储起来,同样成为更主要的课题。
为了申明高质量数据的主要性,Lance Sun博士还提到了ImageNet数据集。作为高质量的数据集,它极年夜地鞭策了深度进修算法的成长。2012年,AlexNet在ImageNet挑战赛上获得成功,这不但验证了深度进修模子处置复杂视觉使命的能力,也激起了后续研究和多种新算法的发生。
因而可知,数据的收集和高质量的数据清洗,对AI的成长相当主要的。曩昔十多年的时候里,说话类模子的数据集范围,模子参数范围,AI芯片计较能力和数据存储需求都产生了显著转变。
AIGC在数据归集面对的挑战与海潮信息的解决之道
在数据存储方面,跟着数据集范围和多样性增添,更加依靠更年夜范围的存储办事器集群。Lance Sun博士介绍称,良多传统行业都堆集了年夜量数据,这些数据需要在分歧的存储系统间进行高效的数据流转以撑持AI和年夜数据阐发,这在现有的存储架构中造成了数据活动的效力问题。
事实上,大都据中间和异构存储情况中数据迁徙面对良多挑战,对此,Lance Sun博士总结了三点:
第一点,数据拜候分离。数据迁徙的进程对用户来讲是不透明的,严重依靠第三方迁徙软件,并且受收集波动和存储机能的影响,轻易致使数据迁徙时候太长,增添操作的不肯定性和复杂性。
第二点,空间和时候本钱的华侈。迁徙进程经常使用纠删或副本机制来提高靠得住性,但这会致使时候和空间本钱年夜幅增添。另外,这一进程还严重依靠在第三方迁徙软件的机能,分歧存储平台的利用容量差别可能致使数据副本迁徙时呈现容量不平衡问题。
第三点,运维复杂性增添。因为分歧存储产物的特征差别,使得存储厂商各自觉展出分歧的运维治理系统,数据的频仍迁徙或长时候迁徙致使数据治理紊乱,致使运维时候和本钱显著增添。
为了应对大都据中间和异构存储情况中数据治理和迁徙挑战,海潮信息存储进行了年夜量工作,基在AS13000构建了一套全局数据治理平台。
在全局数据治理平台的最上层,经由过程一个同一的全局定名空间供给用户视角的完全同一,确保所稀有据都可以经由过程一个同一的进口进行拜候和治理,极年夜地简化了数据操作流程。
第二个层面,系统撑持多种尺度和谈接口,包罗Linux的NFS、对象存储的S3、年夜数据的HDFS、容器化的CSI接口和Windows情况下的SMB和谈。如许的设计使得平台可以或许普遍兼容各类利用和情况,知足分歧场景的需求。
最后一层,AS13000引入了智能数据编排缓和存系统。智能数据编排引擎操纵人工智能算法主动让数据在热、温、冷存储之间的流转,优化数据存储效力。而高效的缓存系统可觉得短时间内频仍利用的极热数据供给快速拜候能力,加快数据的流转。
终究,用户可以基在AS13000的全局数据治理平台实现数据在任何地址,任什么时候间以任何类型可视可管可活动。
Lance Sun博士还指出了市场上一些方案的不足。好比,一些方案在数据收集阶段利用了混闪对象存储,而在练习阶段利用全闪存储手艺。但是,数据在两个存储集群的流转很是低效,数迁徙进程中,常常因为收集波动造成文件断传。
比拟之下,AS13000因为在一套系统内引入了多和谈融会互通手艺,直接省去了数据迁徙的进程,年夜年夜提高了练习数据的预备效力,以确保数据在练习和处江南体育置阶段的高效力和低延迟拜候。
AIGC存储的手艺瞻望
AIGC手艺的影响力日趋扩年夜,各年夜存储厂商对此高度正视,存储系统的立异和演进均将AIGC作为焦点考量。在演讲的最后,Lance Sun博士具体介绍了海潮信息存储在AIGC范畴的将来成长要害标的目的和手艺动向,并暗示海潮存储将延续深度融入AI生态系统。
在行业手艺方面,GPU直连存储手艺已在浩繁文件系统层面普遍利用,其在年夜文件读写方面的机能表示尤其超卓。海潮信息与英伟达和业界厂商合作无懈,致力在鞭策完全手艺系统和尺度的落地。
在行业基准评测方面,海潮信息积极介入权势巨子的AI机能测试基准—MLperf Storage评测,并在多项负载机能评测中表示优良,帮忙企业选择最合用在AI场景的存储系统。
存储的平安问题一样不容轻忽。英伟达在2024年的GTC年夜会上提到包罗加密计较在内的多种平安手艺,而在存储层面,一样需要供给强有力的数据庇护办法。海潮信息存储正在多租户权限隔离、防勒索等数据庇护手艺范畴进行深切摸索。
谈到将来成长,Lance Sun博士暗示,存储机能的延续优化是海潮信息存储的焦点方针。海潮信息将继续经由过程软硬件连系的延续立异,力图在智算财产和AI财产中实现快速落地,鞭策全部行业的前进。
2024年,AIGC仍然是最热手艺话题,其迅猛的成长速度和广漠的利用前景吸引了浩繁存眷和立异气力。凭仗在数据存储范畴的延续立异和深耕,海潮信息正站在这场手艺改革的前沿。
欲知详情,请下载word文档 下载文档7月1日动静,据媒体报导,苹果公司上月正式公布的Apple Intelligence将与OpenAI的ChatGPT告竣计谋合作,配合推动人工智能手艺的成长。
要害字: ChatGPT AI综合来看,现阶段以华为、百度为代表的中国企业其实不比Waymo、特斯拉差,中美的无人驾驶竞争仍会继续。放眼将来,中国需要在AI范畴快速追逐,避免美国企业操纵AI扩年夜优势。
要害字: 无人驾驶 AI6月25日,HKCERT公布全新“中国香港收集平安变乱调和中间”并进行启动仪式,新名称更能彰显HKCERT的办事主旨和规模,借以晋升中国香港各界,特殊是中小企和市平易近对HKCERT的熟悉。
要害字: AI 收集