LJSear.ch - služba pre tých, ktorí potrebujú súbory "Živá Journal"
Webové Služby / / December 24, 2019
Chcete nájsť v sto rokov starom záznamu o "Learn", ale nemôže, pretože možnosti hľadania sú obmedzené na jeden mesiac? Budete bezplatná služba LJSear.ch, Ktorý obsahuje archívy ruského jazyka-LiveJournal pre obdobie 2000-2015. Diskusia o tom jeho autor Roman Ivanov (kukutz).
roman Ivanov
Product Manager v "Yandex". Začala hľadanie blogu personalizované vyhľadávanie "Yandex", niekoľko verzií "Yandex. Mail "služby" Yandex. Lenta "" Ya.ru "" Yandex. Pictures "a niekoľko ďalších. To je teraz zaoberá "Yandex. Browser "a LJSear.ch.
Čo je LJSear.ch?
"Learn" To je viac než terabajt archívoch. Viazaný na index a je k dispozícii pre vyhľadávanie 340 miliónov príspevky a komentáre 1 miliarda od roku 2000 do jesene roku 2015. A to všetko s známy blog vyhľadávacie nástroje: Limit podľa autora, podľa dátumu, podľa komunitou.
Nové položky nie sú indexované, pretože považujeme za náš projekt ako archív, pamätné.
Projekt je úplne neziskový, žiadna reklama, a ďalšie spôsoby, ako zarobiť peniaze nie je určený.
Prečo potrebujem službu?
Na jeseň roku 2015 vyhľadávacie funkcie pre blogy "Yandex" boli obmedzené iba na posledný mesiac. Vysvetlenie bolo prosté: drvivá väčšina ľudí, ktorí hľadajú informácieSpojený s nedávnymi záznamov a hlboká vyhľadávanie pre nich je nadbytočný.
Je to pravda. Minulý mesiac je dosť pre úlohy, ako je pravidelné sledovanie alebo márnosť vyhľadávanie názorov niektorých nedávnych udalostí. Ale je tu problém, a hlbší výskum.
Domnievam sa, že v "Learn" sa stalo, alebo aspoň sa prejavilo takmer všetky rusky hovoriacej kultúry nulové rokov. Hodnota tohto archívu nemožno preceňovať. Keď sa "Yandex" má uzavretý vyhľadávania v archíve, som veľmi sklamaný, pretože presvedčený, že toto zhromažďovanie informácií musí byť zachovaná pre ľudstvo. No a ja sa opýtal: "Yandex" archívy, a náhle súhlasil a dal im.
Archív úplne unikátne, pretože toľko nemožno stiahnuť v "Learn". Mnoho časopisov sú odstránené ich autorov, z ktorých niektoré rozbité a zničená hackermi, v niektorých prípadoch, záznamy nie sú odstránené, ale skrytý pod zámkom.
Posledných šesť mesiacov na I bol zodpovedný za to, že dáta nie sú stratené. Zavolal som na pomoc priateľov, medzi ktorými boli aj takí, ktorí sa dohodli na pomoci pochopiť, či môžeme tieto informácie k dispozícii pre vyhľadávanie. Vytvorili sme servisné LJSear.ch a zrejme ho k tomu viedlo k stavu rozumný.
Dobrovoľníci boli mnohí?
Boli nájdené. Uznávaný odborník v oblasti UX Kohl Zayarny Prišiel som s návrhom. Sasha Belyanskiy Vzal som Bem-vorstku a frontend na Node.js. Spaceinvaderz zaoberá systemické podávanie. Backend programovanie v PHP som začal na základe prototypu samotného, ktorý robil môj priateľ Tobe.
Najväčším problémom bola železná: kto bude platiť za hosting? Priatelia istí, že môžete zbierať peniaze na kraudfandingovyh miest, ale bol som skeptický. A tam sú skvelí ľudia k nám prišla z Servers.ru a ponúkol pomoc. Výsledkom je, že máme veľkú dedikovaný server s SSD indexovať a vyhľadávať backend a mrak virtuálny server frontende.
Kto môže mať záujem na projekte?
Ako nové záznamy nie sú indexované, publikum, čo súdim - sú výskumní pracovníci. Ako doslova výskumníci kultúrne vrstvy s nulovým rokov a súčasných alebo bývalých užívateľov "Learn", ktorí chcú nájsť niečo, čo bolo napísané v tých rokoch. A pretože som nemal obmedzovať maximálny čas realizácie vyhľadávania: vyšetrovateľ môže čakať na zložité otázky a minútu a dve. Samozrejme, že jednoduché otázky sú vykonávané rýchlo, a ak je služba zistí, že otázka je dnes veľa, to zahŕňa riadenú degradáciu, vrátane limitov časový limit žiadosti.
LJSear.ch →