Avatar uživatele
Rohlik

Jak uloz.to, Youtube aj. řeší duplicitní soubory?

Na ulozistich jako je uloz.to nebo na video serverech, jako je Youtube, musi byt mnoho duplicitnich videi (zcela totozne soubory) a mne by zajimalo, jak to poskytovatele techto sluzeb resi. Opravdu maji na svych serverech mnoho duplicitnich souboru, nebo pri kazdem nahrani souboru/videa provedou kontrolu, a pokud zjisti na zaklade metadat, ze tento soubor jiz na serveru jednou je, tak jej smazou a nahraji jej „zastupcem“, ktery bude odkazovat na plnohodnotny soubor?

Nebo to resi uplne jinak??

Zajímavá 0 před 2483 dny Sledovat Nahlásit



Nejlepší odpověď
Avatar uživatele
anonym

Odpoveď byla označena jako užitečná

Je velmi jednoduché zavést takovouto optimalizaci, vytváří se několik kontrolních součtů pomocí alespoň dvou různých algoritmů, primárně se hledá shoda podle kratšího z indexovaných klíčů a pokud jsou si rovny pak se shoda potvrdí i druhým algoritmem pro výpočet kontrolního součtu. V té chvíli můžete data uložit skutečně jen jednou a prolinkovat dva různé uploady na stejné místo v datovém skladu.

Zda se to tak však prakticky děje v případě uložto a youtube vám skutečně nepovím, to je otázka na někoho kdo tam pracuje a má o povědomí o tom jaké padlo rozhodnutí. Racionální rozhodnutí je samozřejmě provádět toto prolinkovávání, ale možná nad tím mávnuli rukou s tím že bude lepší to nedělat aby si to lidé nevykládali tak že k jejich datům má přístup někdo jiný (byť jsou naprosto shodná) .. víte jak fungují hoaxy, lidem kteří jim věří technickou podstatu kontrolních součtů nikdy neobjasníte a tak se může zdát prozíravějši takovou optimalizaci raději vůbec nezavádět aby se nestala snadným terčem kritiky senzacechtivých nedouků.

Upravil/a: anonym

1 NominaceKdo udělil odpovědi nominaci?Odpovědi.cz Nahlásit

Další odpovědi
Avatar uživatele
dubraro

Myslím, že to nijak neřeší. Co tam uživatelé nahrají, to tam zůstane.

0 Nominace Nahlásit


Avatar uživatele
orestez

Teragoogle a teraulozto průběžně připojují další disky. Pro každého na planetě mají neomezené místo, 1 GB je jako 1 KB.

0 Nominace Nahlásit


Diskuze k otázce
Avatar uživatele
Rohlik

Diky Dochy za doplneni.
Podle mne, takovou optimalizaci o jake zde mluvime, by slo usetrit spoustu penez, protoze preci jen disky nejsou zadarmo (navic ty v datacentrech musi byt kvalitni a dostatecne rychle).

před 2477 dny Odpovědět Nahlásit
Avatar uživatele
Dochy

ge0rge: Osobně bych na konec provedl ještě binární porovnání (kontrolní součty zvlášť ty dlouhé sice jsou poměrně spolehlivé, ale ne na 100%). A žádný uživatel by se to nijak nemusel dozvědět. Zůstalo by to skryto jako uživatelům skrytá kompresní metoda

před 2482 dny Odpovědět Nahlásit
Avatar uživatele
Dochy

tj… pokud by jeden smazal svůj soubor, druhý uživatel by svůj stále měl. Např. v některých *nixových systémech to takto se soubory běžně může být… I když se má udělat kopie souboru, udělá se jen odkaz na ni. Až v případě že se někdo rozhodne soubor změnit (ať už původní, nebo kopii) vytvoří se fyzicky dvě různé verze.

před 2482 dny Odpovědět Nahlásit
Nový příspěvek