美丽的小蜜蜂3娃娃脸,,,

當(dāng)前位置:中國(guó)生活都市網(wǎng) >> 看科普 >> 文章正文

歐洲氣象云:生產(chǎn)中OpenStack與Ceph融合的案例

發(fā)布于:2020-12-07

歐洲中期天氣預(yù)報(bào)中心(ECMWF)是一個(gè)政府組織,成立于1975年。ECMWF總部位于英國(guó)雷丁(數(shù)據(jù)中心即將遷至意大利博洛尼亞),業(yè)務(wù)覆蓋歐洲34個(gè)國(guó)家和地區(qū)。它運(yùn)行著歐洲最大的超級(jí)計(jì)算集群之一和世界上最大的數(shù)值天氣預(yù)報(bào)數(shù)據(jù)檔案。就其信息技術(shù)基礎(chǔ)設(shè)施而言,ECMWF的高性能計(jì)算設(shè)施是世界上最大的氣象站之一。憑借哥白尼氣候變化服務(wù)(C3S)、哥白尼大氣監(jiān)測(cè)服務(wù)(CAMS)和WEkEO(數(shù)據(jù)和信息訪問(wèn)服務(wù)(DIAS)平臺(tái))以及歐洲氣象云的云基礎(chǔ)設(shè)施,ECMWF的團(tuán)隊(duì)維護(hù)著一個(gè)250 PB大小的氣候數(shù)據(jù)歸檔,每天增長(zhǎng)250TB。

歐洲氣象云:

三年前,ECMWF和歐洲氣象衛(wèi)星應(yīng)用組織(EUMETSAT)聯(lián)合建立了歐洲氣象云,旨在使基于云的基礎(chǔ)設(shè)施更容易處理天氣和氣候大數(shù)據(jù)。為了使計(jì)算資源(云)更接近其大數(shù)據(jù)(氣象檔案和衛(wèi)星數(shù)據(jù)),ECMWF的試點(diǎn)基礎(chǔ)設(shè)施是使用開(kāi)源軟件Ceph和使用TripleO的OpenStack。

下圖是歐洲氣象云整體基礎(chǔ)設(shè)施的現(xiàn)狀,包括兩個(gè)OpenStack集群:一個(gè)是用OpenStack Rocky搭建的,一個(gè)是用OpenStack Ussuri搭建的。目前配置的總硬件包括約3000個(gè)vCPU、兩個(gè)21 TB RAM的集群、1PB存儲(chǔ)空間和25 NVIDIA特斯拉V100 GPU。

與Ceph集成:

下圖是歐洲氣象云的云基礎(chǔ)設(shè)施。如您所見(jiàn),Ceph是與OpenStack分開(kāi)構(gòu)建和維護(hù)的,這為歐洲氣象云團(tuán)隊(duì)在同一個(gè)Ceph存儲(chǔ)上構(gòu)建不同的集群提供了極大的靈活性。它的兩個(gè)OpenStack集群使用相同的Ceph基礎(chǔ)設(shè)施和相同的rbd池。除了一些常見(jiàn)的硬盤(pán)故障,Ceph的表現(xiàn)也非常出色。歐洲氣象云團(tuán)隊(duì)計(jì)劃逐步遷移到CentOS8,在開(kāi)發(fā)環(huán)境上經(jīng)過(guò)大量測(cè)試后,在實(shí)時(shí)集群上升級(jí)到Octopus和cephadm。

Rocky版本的OpenStack:

歐洲氣象云中的第一個(gè)OpenStack集群是在2019年9月構(gòu)建的,基于Rocky和TripleO installer。同時(shí),歐洲氣象云的工程師們也創(chuàng)造了另一個(gè)開(kāi)發(fā)環(huán)境,其中OpenStack和Ceph集群的配置類(lèi)似于測(cè)試實(shí)驗(yàn)。

經(jīng)驗(yàn)和問(wèn)題:

他們部署了大約2600個(gè)11TB內(nèi)存的vCPU,沒(méi)有出現(xiàn)任何大問(wèn)題。通過(guò)簡(jiǎn)單地配置Ceph,外部Ceph集群集成以最小33,354的工作負(fù)載工作,只需稍微修改ceph-config.yaml配置。兩個(gè)外部網(wǎng)絡(luò)(一個(gè)面向公眾,另一個(gè)用于快速訪問(wèn)其300PB數(shù)據(jù)檔案)非常簡(jiǎn)單。

他們的虛擬機(jī)大多連接到兩個(gè)外部網(wǎng)絡(luò),沒(méi)有浮動(dòng)IP,這是一個(gè)具有挑戰(zhàn)性的虛擬機(jī)路由問(wèn)題,在交換機(jī)上沒(méi)有動(dòng)態(tài)路由。為了解決這個(gè)問(wèn)題,他們使用了dhcp鉤子,并在向用戶(hù)提供映像之前配置了虛擬機(jī)路由。

他們?cè)谝婚_(kāi)始配置網(wǎng)卡綁定接口和配置交換機(jī)時(shí)遇到了一些問(wèn)題。因此,工程師們決定不使用鏈路聚合控制協(xié)議(LACP)配置,現(xiàn)在他們已經(jīng)為OpenStack部署了一個(gè)網(wǎng)絡(luò)接口卡(NIC)。他們?cè)谪?fù)載平衡即服務(wù)(LBaas)方面也遇到了一些問(wèn)題,因?yàn)閵W克塔維亞會(huì)在每次部署時(shí)覆蓋證書(shū)。

一旦找到應(yīng)對(duì)這些挑戰(zhàn)的解決方案,工程師就可以更新實(shí)時(shí)系統(tǒng),并將整個(gè)集群從一個(gè)網(wǎng)卡遷移到多個(gè)網(wǎng)卡部署,這對(duì)用戶(hù)來(lái)說(shuō)是透明的,并且不會(huì)停機(jī)。重新部署了第一個(gè)集群,并將網(wǎng)絡(luò)重新配置為分布式虛擬路由(DVR)配置,以獲得更好的網(wǎng)絡(luò)性能。

Stein到Ussuri的升級(jí)工作:

2020年3月,歐洲氣象云的工程師給OpenStack和Ceph集群增加了更多的硬件,他們決定升級(jí)到OpenStack的最新版本。

經(jīng)驗(yàn)和問(wèn)題:

首先,為了更好地管理和充當(dāng)備份和恢復(fù)的安全網(wǎng),他們將他們的洛基云轉(zhuǎn)變?yōu)樘摂M機(jī)。2020年3-5月,他們調(diào)查測(cè)試了升級(jí)到Stein的流程(先云下,再?gòu)脑七^(guò)度升級(jí)到測(cè)試環(huán)境)。由于烏蘇里是基于CentOS8的,他們直接從Rocky跳到了烏蘇里,決定在OpenStack烏蘇里上直接部署新系統(tǒng)。

OpenStack Ussuri集群:

第二個(gè)基于烏蘇里的OpenStack集群最早構(gòu)建于2020年5月,也就是5月13日發(fā)布烏蘇里之后的17天。此群集是一種常見(jiàn)配置,這意味著盡管網(wǎng)絡(luò)配置了OVN和25節(jié)點(diǎn)提供商網(wǎng)絡(luò),但它們并未集成Ceph存儲(chǔ)。

經(jīng)驗(yàn)和問(wèn)題:

基于Ansible而不是Mistral的新構(gòu)建方法存在一些問(wèn)題,如從堆棧切換到熱管理,用戶(hù)不使用熱管理進(jìn)行部署。此外,他們還試圖快速理解和掌握CentOS8主機(jī)系統(tǒng)和服務(wù)容器的基本操作系統(tǒng)。由于分配浮動(dòng)IP地址的意義,歐洲氣象云工程師也繼續(xù)使用OVS而不是OVN。在OpenStack社區(qū)的幫助下,問(wèn)題得以解決,集群于2020年6月中旬重建。

英偉達(dá)GPU配置簡(jiǎn)單。然而,由于OVS在向節(jié)點(diǎn)安裝和配置GPU驅(qū)動(dòng)程序時(shí)沒(méi)有在Ussuri集群中實(shí)現(xiàn)IPv6,OVS在引導(dǎo)期間試圖綁定到IPv6地址,導(dǎo)致引導(dǎo)時(shí)間顯著增加。一種解決方案是將PIv6配置顯式刪除到它們的GPU節(jié)點(diǎn)。所有帶GPU的節(jié)點(diǎn)也解析成普通計(jì)算節(jié)點(diǎn),nova.conf配置Ansible playbook。

下一步:

就歐洲氣象云基礎(chǔ)設(shè)施而言,工程師們正計(jì)劃將該基礎(chǔ)設(shè)施與其他內(nèi)部系統(tǒng)集成,以實(shí)現(xiàn)更好的監(jiān)控和記錄。他們還計(jì)劃逐步淘汰洛基集群,并將所有節(jié)點(diǎn)轉(zhuǎn)移到Ussuri。他們將繼續(xù)運(yùn)營(yíng)、維護(hù)和升級(jí)云基礎(chǔ)設(shè)施,并使用最新版本的OpenStack和Ceph。

生產(chǎn)中的開(kāi)放堆棧和與Ceph:的集成歐洲天氣云用戶(hù)故事-超級(jí)用戶(hù)

標(biāo)簽: 歐洲 集群 氣象
乐平市| 荥经县| 贵阳市| 太保市| 陇南市| 密云县| 河间市| 城步| 钟祥市| 航空| 互助| 新和县| 寻甸| 明光市| 高雄市| 昌宁县| 吉林省| 甘孜县| 定南县| 平顶山市| 汪清县| 徐汇区| 密山市| 嘉黎县| 德兴市| 承德市| 郑州市| 长治县| 青州市| 安阳市| 平顶山市| 蓝山县| 延川县| 若羌县| 东明县| 北海市| 固始县| 海城市| 垫江县| 宜兴市| 电白县|