Naukowcy: Cyfrowe książki to „kulturowy genom”
INFORMATOR. Świat
Fot. NCI
Zdigitalizowane miliony książek są tym dla nauk humanistycznych, czym badania genomu dla biologii i medycyny - piszą naukowcy w najnowszym "Science". Przez cztery lata prowadzili oni ilościowe badania korpusu ponad pięciu milionów książek.
Od kilku lat na świecie coraz intensywniej digitalizuje się książki i artykuły. Przoduje w tym Google Books, która ma zamiar przenieść do internetu wielomilionowe zbiory światowych bibliotek.
W najnowszym numerze tygodnika "Science" naukowcy prezentują wyniki badań oparte na analizie słów zawartych w części książek opublikowanych dotąd w internecie. Poprzez obliczenie częstotliwości występowania pewnych słów na przestrzeni wieków, zespół usiłuje pokazać, jak wyglądały pewne trendy kulturowe. Czteroletni projekt prowadzony był przez naukowców z Harvard University przy udziale technologicznym i finansowym Google.
Naukowcy wzięli pod uwagę korpus tekstów zgromadzony w zbiorach Uniwersytetu Harwardzkiego, Google Books, Encyclopaedia Britannica i American Heritage Dictionary. W sumie około 5,2 mln książek z 500 mld słów. Około 72 proc. tekstów korpusu jest w języku angielskim, reszta to francuski, hiszpański, niemiecki, chiński, rosyjski i hebrajski.
Na jego podstawie okazało się, że co roku język angielski wzbogaca się o 8,5 tys. słów. Oznacza to, że pomiędzy rokiem 1950 a 2000 zasób słownictwa zwiększył się o 70 proc. Co ciekawe, wielu z tych słów nie ma w słownikach. "Oceniamy, że 52 proc. angielskiego zasobu słów to rodzaj leksykalnej +ciemnej materii+" - napisali naukowcy.
Dalsze analizy dowodzą, że z każdym rokiem maleje w korpusie tekstów liczba odniesień do przeszłości. Na przykład współcześni celebryci są młodsi i sławniejsi niż ich XIX-wieczni poprzednicy, ich sława za to trwa krócej. Celebryci urodzeni w 1950 r. osiągnęli sławę średnio w wieku 29 lat, natomiast urodzeni w 1900 r. - dopiero w wieku 43 lat. Za to innowacje z roku na rok rozprzestrzeniają się szybciej.
Z badań wynika również, że najsłynniejsi aktorzy zyskują sławę przeciętnie w wieku 30 lat, pisarze - 40, a politycy - 50.
Okazuje się, że kluczowe dla zrozumienia danej epoki może być nie tylko występowanie pewnych słów, ale też ich przemilczenie, jak w czasach totalitarnej propagandy. Dla przykładu, żydowski malarz Marc Chagall wymieniany był w korpusie niemieckich tekstów z lat 1936-1944 tylko raz, mimo że w tym czasie dużo częściej pojawia się w publikacjach angielskojęzycznych. Podobnie było w tym czasie z nazwiskiem Lwa Trockiego w Rosji, a obecnie w Chinach z nazwą Tiananmen.
Z uczonych najpopularniejszy w naszej kulturze pod względem częstotliwości występowania w tekstach jest Freud. Przebija Galileusza, Darwina i Einsteina.
To tylko niektóre z uzyskanych wyników. Naukowcy postulują utworzenie nowej dziedziny badań - kulturonomiki, na wzór genomiki, gdzie "kodem genetycznym" będą teksty stworzone przez ludzkość.
"Zainteresowanie podejściem ilościowym do nauk humanistycznych i społecznych datuje się na lata 50. XX w. - wyjaśnia Jean-Baptiste Michel z Harvard University. - Niestety, próby zastosowania metody ilościowej do badań kultury były hamowane przez brak odpowiednich danych. Mamy teraz olbrzymie zbiory danych, dostępne w sposób przyjazny dla każdego użytkownika".
Google ma zamiar wypuścić nową aplikację, która w sposób nieskomplikowany pomoże użytkownikowi zrobić to samo, co naukowcy: po wpisaniu słowa lub frazy będzie można śledzić, jak zmieniała się częstotliwość ich użycia przez ostatnie stulecia.
Od kilku lat na świecie coraz intensywniej digitalizuje się książki i artykuły. Przoduje w tym Google Books, która ma zamiar przenieść do internetu wielomilionowe zbiory światowych bibliotek.
W najnowszym numerze tygodnika "Science" naukowcy prezentują wyniki badań oparte na analizie słów zawartych w części książek opublikowanych dotąd w internecie. Poprzez obliczenie częstotliwości występowania pewnych słów na przestrzeni wieków, zespół usiłuje pokazać, jak wyglądały pewne trendy kulturowe. Czteroletni projekt prowadzony był przez naukowców z Harvard University przy udziale technologicznym i finansowym Google.
Naukowcy wzięli pod uwagę korpus tekstów zgromadzony w zbiorach Uniwersytetu Harwardzkiego, Google Books, Encyclopaedia Britannica i American Heritage Dictionary. W sumie około 5,2 mln książek z 500 mld słów. Około 72 proc. tekstów korpusu jest w języku angielskim, reszta to francuski, hiszpański, niemiecki, chiński, rosyjski i hebrajski.
Na jego podstawie okazało się, że co roku język angielski wzbogaca się o 8,5 tys. słów. Oznacza to, że pomiędzy rokiem 1950 a 2000 zasób słownictwa zwiększył się o 70 proc. Co ciekawe, wielu z tych słów nie ma w słownikach. "Oceniamy, że 52 proc. angielskiego zasobu słów to rodzaj leksykalnej +ciemnej materii+" - napisali naukowcy.
Dalsze analizy dowodzą, że z każdym rokiem maleje w korpusie tekstów liczba odniesień do przeszłości. Na przykład współcześni celebryci są młodsi i sławniejsi niż ich XIX-wieczni poprzednicy, ich sława za to trwa krócej. Celebryci urodzeni w 1950 r. osiągnęli sławę średnio w wieku 29 lat, natomiast urodzeni w 1900 r. - dopiero w wieku 43 lat. Za to innowacje z roku na rok rozprzestrzeniają się szybciej.
Z badań wynika również, że najsłynniejsi aktorzy zyskują sławę przeciętnie w wieku 30 lat, pisarze - 40, a politycy - 50.
Okazuje się, że kluczowe dla zrozumienia danej epoki może być nie tylko występowanie pewnych słów, ale też ich przemilczenie, jak w czasach totalitarnej propagandy. Dla przykładu, żydowski malarz Marc Chagall wymieniany był w korpusie niemieckich tekstów z lat 1936-1944 tylko raz, mimo że w tym czasie dużo częściej pojawia się w publikacjach angielskojęzycznych. Podobnie było w tym czasie z nazwiskiem Lwa Trockiego w Rosji, a obecnie w Chinach z nazwą Tiananmen.
Z uczonych najpopularniejszy w naszej kulturze pod względem częstotliwości występowania w tekstach jest Freud. Przebija Galileusza, Darwina i Einsteina.
To tylko niektóre z uzyskanych wyników. Naukowcy postulują utworzenie nowej dziedziny badań - kulturonomiki, na wzór genomiki, gdzie "kodem genetycznym" będą teksty stworzone przez ludzkość.
"Zainteresowanie podejściem ilościowym do nauk humanistycznych i społecznych datuje się na lata 50. XX w. - wyjaśnia Jean-Baptiste Michel z Harvard University. - Niestety, próby zastosowania metody ilościowej do badań kultury były hamowane przez brak odpowiednich danych. Mamy teraz olbrzymie zbiory danych, dostępne w sposób przyjazny dla każdego użytkownika".
Google ma zamiar wypuścić nową aplikację, która w sposób nieskomplikowany pomoże użytkownikowi zrobić to samo, co naukowcy: po wpisaniu słowa lub frazy będzie można śledzić, jak zmieniała się częstotliwość ich użycia przez ostatnie stulecia.
Poinformuj znajomych o tym artykule:
Inne w tym dziale:
- Podnośniki koszowe, usługi dźwigowe. Bydgoszcz REKLAMA
- Żylaki. Leczenie żylaków kończyn dolnych. Bydgoszcz, Inowrocław, Chojnice, Tuchola. REKLAMA
- Ortopeda. Chirurgia ortopedyczna. Medycyna sportowa. Warszawa REKLAMA
- Niemcy. Multigenowy test raka piersi refundowany przez kasy chorych
- PE. Pisemne oświadczenie w sprawie zwalczania raka piersi w Unii Europejskiej
- Pod względem liczby popełnianych błędów odwodnieni kierowcy nie ustępują nietrzeźwym!
- Im niżej, tym lepiej - najnowsze wyniki badań wskazują, że ryzyko zawałów serca i udarów mózgu jest tym niższe, im niższy jest poziom cholesterolu LDL
- Zdrowa dieta bez mięsa
- Alkaptonuria - rzadka choroba czarnych kości. Nieznane wyniszczające schorzenie, pacjenci bez rozpoznania
- Brytyjczycy wolą bezpieczne metody leczenia
- Strefy wolne od dymu tytoniowego sprzyjają zdrowiu dzieci
- Choroby, które zabijają ponad 2 miliony ludzi rocznie
- Poprawa kondycji fizycznej może przyczynić się do szybszego powrotu do zdrowia kobiet z rakiem piersi
- Wszystkie w tym dziale
REKLAMA