Párhuzamos és Grid rendszerek 4. előadás

Tipp: a diák között a J és K billentyűkkel lehet lépkedni.

Letöltés

1.

Párhuzamos és Grid rendszerek (4. ea) Elosztott fájlrendszerek Szeberényi Imre BME IIT <szebi@iit.bme.hu> M Párhuzamos és Grid rendszerek © BME-IIT Sz.I. EGYETEM 1782 2013.03.04. -1-

2.

Elosztott fájlrendszerek • Nagyméret klaszterekhez • Földrajzilag is elosztott rendszerekhez – NFS – AFS, CODA, InterMezzo – Lustre, SFS – GFS – GlusterFS – OCFS – Hadoop – – – – – – – – Gfarm file system Google file system GPFS Parallel Virtual FS QFS CernVMFS Nimbus, S3 http://en.wikipedia.org/wiki/List_of_file_systems Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. -2-

3.

AFS (Andrew File System) • Elosztott fájlrendszer, ami fájlok megosztására alkalmas lokális és távolsági hálózaton. • Transzparens fájlhozzáférést biztosít. • Az NFS-hez hasonló, annak alternatívájaként jött létre. • Ma az OpenAFS számos UNIX, LINUX, WinX platformon elérhető. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. -3-

4.

AFS történelem • Carnegie Mellon Egyetemen 1984-ben fejlesztették ki UNIX környezetben. Ma azonban nem csak UNIX változat létezik. • A fő cél az volt, hogy az egyetemi korlátozott sávszélességű hálózaton hatékony fájlelérést tegyenek lehetővé. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. -4-

5.

AFS processzek Workstations Servers User Venus program Vice UNIX kernel UNIX kernel Venus User program UNIX kernel Network Vice Venus User program UNIX kernel Párhuzamos és Grid rendszerek © BME-IIT Sz.I. UNIX kernel 2013.03.04. -5-

6.

AFS alapfogalmai • • • • • • Cellák Kötetek Tokenek Cache menedzser Fájl védelem Fájl névtér Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. -6-

7.

AFS cella • Egy AFS cella alá azok a szerverek tartoznak, melyek adminisztrációja közös, és az AFS felé egyetlen közös fájlrendszert alkotnak. • Tipikusan az egy domain név alá tartozó gépek egy AFS cellát alkotnak. • Általában a domain név valamilyen változata a cellanév. • A munkaállomások a felhasználókról a cella szervertől kérnek információkat. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. -7-

8.

Kötetek • A diszkterületet az AFS további részekre, osztja ezek az AFS kötetek. • Az AFS kötet egy tárolóegység ami a fájlok és katalógusok adatait tárolja. • Az AFS kötettek fájlok formájában jelennek meg a befogadó operációs rendszerben, így azok könnyen átmozgathatók, akár másik gépre is. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. -8-

9.

Tokenek • Az AFS nem használja a UNIX felhasználói azonosítóját (UID). Ha ezt tenné, akkor minden UNIX gépen azonos UID kiosztásnak kellene lennie, mint az NFS-nél. • Az azonosításhoz AFS tokent alkalmaznak, ami egy egyedi azonosítást tesz lehetővé. • Egy token adott ideig (24 óra) érvényes. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. -9-

10.

Cache menedzser • A korlátozott sávszélesség miatt a működés központi eleme a cache, ahova az éppen használt fájlok letöltődnek. • A cache menedzser feladata a cache-ben tárolt információk frissítése, karbantartása. • Amennyiben a cache-ben tárolt fájlrészlet változik, úgy azt vissza kel tölteni a szervere. • Ha a szerveren változik meg a fájl, akkor arról CallBack technikával értesít minden cache-t. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 10 -

11.

Védelem • A védelmi mechanizmus némileg eltér az alap UNIX védelmi rendszertől. • A UNIX 3x3-as védelmétől pontosabban szabályozható ACL (Access Control List) segítségével. – – – – Lookup (l) Insert (i) Delete (d) Administer (a) Párhuzamos és Grid rendszerek © BME-IIT Sz.I. – Read (r) – Write (w) – Lock (k) 2013.03.04. - 11 -

12.

Névtér Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 12 -

13.

Névtér /2 • UNIX-hoz hasonló hierarchikus struktúra • Az AFS gyökér névtér rendszerint a /afs. Az alatta levő szinteket a cellák képviselik. – adminisztratív domain • AFS szerverek halmaza egy cégnél, egyetemen, laborban stb. – Lokális cella • alapértelmezett cella, amihez az adott munkaállomás csatlakozik. – idegen cella • más cella az AFS névtérben Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 13 -

14.

Venus és Vice • Venus – AFS kliens által futtatott processz. • Vice – AFS szerver által futtatott processz. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 14 -

15.

Fájl m veletek • A kliens munkaállomás a szerverrel csak az open/close műveletek kiszolgálásakor kommunikál. • A fájl megnyitásakor a Venus a teljes fájlt a cachebe tölti, és a fájl lezárásakor írja azt vissza. • Az adatok olvasását/írását a lokális másolaton a kernel végzi. • A Venus a katalógusokat és a szimbólikus linkeket is a lokális gyorsítótárban tárolja. • A fenti gyorsítótárazási mechanizmus alól a katalógusok módosítása a kivétel, aminek a végrehajtásáért a közvetlenül szerver a felelős. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 15 -

16.

Fájl megosztás • Lokális fájlokhoz hasonlóan. – nincs külön mount – nem kell belépni a mási gépre – csak jogosultság kell • A /afs katalógus alatt tetszőleges cella fájljai elérhetők. – Természetesen megfelelő jogosultsággal. – Csak a megfelelő útnevet kell hozzá tudni. • A fájlmegosztást nem korlátozza a földrajzi távolság, vagy az adott operációrendszer típusa. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 16 -

17.

Login és authentikáció 1. 2. – Bejelentkezéssel együtt token is generálódik Külön kell tokent generálni. klog, Tokens held by the Cache Manager: --End of list-szebi:$ /usr/afs/bin/klog Password: szebi:$ /usr/afs/bin/tokens Tokens held by the Cache Manager: User's tokens for afs@bme.hu [Expires Apr 7 00:47] --End of list— ........ User's tokens for afs@cern.ch [Expires Apr 7 00:53] User's tokens for afs@bme.hu [Expires Apr 7 00:47] Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 17 -

18.

Megvalósítás • A kliens oldali programok a szokásos módon, rendszerhívással kezelik az állományokat. • A távoli fájlok megnyitásakor Venus processzhez jut a kérés, amit az lebont az útnév alapján. • Az alacsonyszintű I/O kezelését a befogadó operációs rendszer végzi. A gyorsítótár a lokális gép diszkjén jön létre. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 18 -

19.

Rendszerhívás szint Workstation User program Venus UNIX file system calls Non-local file operations UNIX kernel UNIX file system Local disk Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 19 -

20.

AFS parancsok oszthatók: Az AFS parancsok 3 csoportba oszthatók: • Fájlszerver parancsok (fs) – AFS szerver információk listázása • Védelmi parancsok(pts) – ACL listák létrehozása • Authentikációs parancsok – klog, unlog, kpasswd, tokens Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 20 -

21.

AFS el nyei • Gyorsítótárazásból fakadó el nyök: – Lényegesen csökkenti a hálózati forgalmat. – Alacsonyabb sávszélességnél is jól használható. • Helyfüggetlenség: – Az AFS a földrajzi helyet a szerver oldalon rendeli fájlnévhez. Így a névtér helyfüggetlen. • Skálázhatóság: – A rendszer tervezési fázisában igen nagyra (~10000 kliens) tervezték. A kliens/szerver arányt pedig 200:1-re. Mindkét értéket túlteljesíti. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 21 -

22.

AFS el nyei /2 • Single systems image (SSI): – Egy fájlszerver kialakítása lényegesen egyszer bb, mint NFS-sel. • Fokozott biztonság: – Kerberos használata – ACL használata • • • • Fájlok egyszer megosztása Egyszer rendszer menedzsment Robosztus Replika lehet ség. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 22 -

23.

AFS hátrányai • Minden munkaállomásra installálni kell. • Háttérszerver komplexitása. • Tokenek érvényességének lejártából fakadó gondok. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 23 -

24.

CODA • • • • • Párhuzamos és Grid rendszerek © BME-IIT Sz.I. AFS-2 leszármazott disconnected replica Kerberos-like 87 óta fejlesztik. 2009 óta csend. 2013.03.04. - 24 -

25.

Lustre • Objektum-orientált elosztott fájlrendszer. • Jól skálázható. • Nagyméret klaszterekhez, és nagy fájlokhoz tervezték. • Lustre 2007-t l GPL. • SUN ZFs • 15 a top 30 szupergépb l Lustre-t hazsnál Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 25 -

26.

Lustre történelem • 1999 by Carnegie Mellon University • Lustre 1.0 2003-ban (Cluster File Systems) • 2007-ben SUN felvásárolta a CFS-t. – Open source software (RedHat, SUSE, …) • 2010-ben Oracle felvásárolta az SUN-t – 2011-ben 1.8 supportot megszüntette (számos szervezet folytatta) – Whamcloud, OpenSFS, EOFS, • 2012-ben Whamloud-ot megvette az INTEL Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 26 -

27.

Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 27 -

28.

Lustre architektúra • Három f funkcionális egysége van: • Metadata szerver (MDS), ami a fájl neveket, katalógusokat, védelmi kódokat és egyéb metaadatot tárol. • Object storage szerverek (OSS), melyek az adatokat tárolják. • Kliens ami az adatokat felhasználja, létrehozza. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 28 -

29.

Lustre architektúra /2 • Az adatok logikai kötetmenedzsmenttel ellátott RAID tárolókban tárolódnak, amit az OSS és az MDS dedikált módon használ. • Jelenleg egy módosított ext4 fájlrendszer a logikai tároló. ZFS support (béta) • Amikor egy kliens fájlt akar elérni, el ször az MDS-ben meg kell keresnie. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 29 -

30.

Lustre architektúra /2 • A fájl egyes darabjai több OSS-en tárolódhatnak, ami a kliens és az OSS között sz k keresztmetszet kialakulását gátolja. • A kliensek nem módosítják közvetlenül az OSS-ben tárolt adatokat, hanem ezt a OSSre bízzák, szemben a GFS megoldásával. • Ez a módszer növeli a megbízhatóságot és a hibat rést. Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 30 -

31.

Skálázhatóság teljesítmény • TOP 500-as lista tetején (Titan is) • Skálázhatóság, nagy rendelkezésre állás • Üzleti szupport (Oaracle-n kívül mindenki) S. Saini, J. Rappleye, J. Chang, D. Barker, P. Mehrotra, R. Biswas: I/O Performance Characterization of Lustre and NASA Applications on Pleiades Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 31 -

32.

ZFS • • • • Sun: 2001-2004, 2005-t l Solaris része Zettabyte File System 128 Bit - extra nagy kapacitás Pool elv tárolók – elosztott sávszélesség és kapacitás • Tranzakció kezelés – Copy on Write • Snapshots (ro) és klónozás • Adat integritás – ellen rz összeg (külön) Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 32 -

33.

ZFS kapacitások • • • • • • • 1 ZB = 1021 1 ZiB (zebi B) = 270 264 shnapshot 248 fájl / dir 264 byte / fájl 278 byte / pool 264 device / pool 264 pool / system Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 33 -

34.

Hogyan kapunk diszk címet Hagyományos FS esetén: • FS(1): filename object (inode) • FS(2): object volume LBA • VM: volume LBA array LBA • RAID: array LBA disk LBA Sok réteg, szigorú szeparáció, eltér gyártók Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 34 -

35.

Hogyan kapunk diszk címet (2) ZFS esetén: • ZPL: filename object • DMU: object DVA • SPA: DVA LBA ZPL: ZFS POSIX layer (standard syscall) DMU: Data Management Unit (transactional object store) DVA: Data Virtual Address (vdev + offset) SPA: Storage Pool Allocator (blokk alloc, data transform) Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 35 -

36.

Architektúra Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 36 -

37.

ZFS – VM hasonlóság Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 37 -

38.

Kötet és Pool • Hagyományos kötet kezelés • Pool: – Automatikus méretezés – osztott sávszélesség Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 38 -

39.

ZFS - Copy on Write (COW) Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 39 -

40.

ZFS – ellen rz összeg Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 40 -

41.

ZFS elérhet sége • • • • • OpenSolaris, OpenIndiana BSD, OSX Linux: CCDL és a GPL üti egymást Linux FUSE Native ZFS (Gentoo, Ubuntu) http://en.wikipedia.org/wiki/ZFS Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 41 -

42.

GlusterFS • Célkit zés FUSE alapokon megvalósítani elosztott fájlrendszert. • A céget 2011-ben megvette a RedHat. • Azóta a közösség láthatóan halódik Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 42 -

43.

CernVMFS • HTTP • http cache • alapvet en SL, de kliens több Linux változatra Párhuzamos és Grid rendszerek © BME-IIT Sz.I. 2013.03.04. - 43 -

Utolsó frissítés: 2013-03-12 21.48