2. W skrócie
● Wyszukiwanie dzisiaj - czyli igła w stogu siana.
○ Trudności jakie napotykamy poszukując informacji.
● Jak oceniać znalezione informacje?
○ Relewantność, testowanie efektywności wyszukiwania.
● Miary efektywności wyszukiwania informacji.
○ Dokładność, kompletność i inne.
● Kryteria oceny relewantności wyników.
2/33
3. Wyszukiwanie ogólnie
● Zadanie wyszukiwania polega na znajdowaniu
w kolekcji zasobów informacyjnych elementów
relewantnych (odpowiednich) w kontekście danej
potrzeby informacyjnej.
● Użytkownik próbuje wyrazić swoją potrzebę
informacyjną w postaci zapytania.
○ Może być ono precyzowane np. za pomocą
operatorów: AND, NOT, OR.
● Skuteczność zależy od algorytmu, indeksowania,
przeszukiwanego zbioru, charakteru zapytania...
Jak ocenić wyszukane elementy?
3/33
7. Co przyniesie rok 2012?
THE WORLD'S INFORMATION IS DOUBLING
EVERY TWO YEARS wg mashable.com
zettabajt
eksabajt
petabajt
terabajt
gigabajt
7/33
8. Trudności w wyszukiwaniu
● Różne struktury danych
● Różne algorytmy wyszukiwania
● Duża ilość zasobów do przeszukania
● Różnorodność i dynamika zasobów
● Sprzeczne, nieścisłe informacje...
Ocena wyników
● Czy szukana informacja została
znaleziona?
8/33
9. Przykład: trudność wyszukiwania
informacji w Internecie
Zasoby WWW podlegają ciągłym zmianom
dokonywanym przez miliony użytkowników
● różne formaty i typy dokumentów,
● różne języki itp.
Konieczna jest nieustanna aktualizacja (reindeksacja) sieci
przez wyszukiwarki, aby dane dostarczane użytkownikowi
były jak najbardziej aktualne.
Sieć WWW można traktować jak bardzo dużą,
nieustrukturalizowaną i rozproszoną bazę danych
9/33
10. Aby zmierzyć efektywność
wyszukiwania, potrzebujemy:
Testowych potrzeb informacyjnych,
wyrażonych w postaci zapytań
Kolekcji dokumentów (do przeszukania)
Binarnej klasyfikacji dokumentów względem
przygotowanych zapytań
10/33
11. Kolekcje danych do oceny
systemów wyszukiwania
Istnieje wiele takich kolekcji, na przykład:
● Cranfield Collection
● TREC (Text Retrieval Conference)
● GOV2
● NTCIR
● CLEF (Cross Language Evaluation Forum)
11/33
12. Kolekcje danych do oceny
systemów wyszukiwania
● Cranfield Collection
○ powstała w latach 50. XX wieku
○ obecnie zbyt mała, nadaje się jedynie do najbardziej
podstawowych wczesnych testów
○ zawiera streszczenia artykułów naukowych
dotyczących aerodynamiki
○ 225 zapytań - dla każdego z nich ocena
relewantności wszystkich dokumentów w zestawie
● TREC (Text Retrieval Conference)
○ zawiera prawie dwa miliony dokumentów (materiały
prasowe itp.)
○ oceny relewantności dokumentów dla ponad 450
potrzeb informacyjnych
12/33
13. Kolekcje danych do oceny
systemów wyszukiwania
● GOV2
○ największa sposród łatwo dostępnych kolekcji do
celów naukowych (2009 r.)
○ ponad 25 milionów dokumentów głównie ze stron
rządowych (domena .gov)
● NTCIR (NII Test Collections for IR Systems)
○ teksty w językach wschodnioazjatyckich
○ nacisk kładziony na CLIR (ang. cross-language
information retrieval)
■ zapytanie w innym języku niż dokumenty w
przeszukiwanej kolekcji
● CLEF (Cross Language Evaluation Forum)
○ nacisk na języki europejskie oraz CLIR
13/33
14. Pojęcie relewantności informacji
Relewantny to pozostający w logicznym
związku, odnoszący się do, stosujący się do...
Relewantność jest oceniana przez
użytkowników subiektywnie, do jej
oceny stosuje się więc często
metody eksperymentalne.
Białek E., Kryteria oceny relewantności wyników w wyszukiwarkach
internetowych i ich wykorzystanie do promocji witryn regionalnych
14/33
15. Relewantność z perspektywy
użytkownika
● Jak bardzo użyteczne okazały się wyniki wyszukiwania?
● Ile było użytecznych wyników wśród wszystkich stron
zwróconych przez wyszukiwarkę?
● Czy jakieś szczególnie użyteczne strony nie zostały
zwrócone?
● Czy kolejność wyników wyszukiwania ułatwiała
znalezienie żądanych informacji?
● Jak dobrze radzi sobie wyszukiwarka z
niejednoznacznością zapytania i jego subiektywnym
charakterem?
Czy potrzeby informacyjne użytkownika zostały
zaspokojone?
15/33
16. Relewantność a potrzeby
informacyjne
Relewantność jest oceniana w stosunku do potrzeby
informacyjnej, a nie zapytania.
Przykład
● Użytkownik chce dowiedzieć się, czy czerwone wino
skuteczniej niż wino białe pomaga zmniejszyć ryzyko
zawału.
● Może wprowadzić w tym celu różne zapytania, np.
○ wine AND red AND white AND heart AND attack AND
effective
○ white AND red AND wine AND "heart attack" AND risk
● Dokument jest relewantny, gdy zaspokaja potrzebę
informacyjną użytkownika (a nie dlatego, że zawiera
wszystkie słowa z zapytania).
16/33
17. Trudności w ustaleniu potrzeb
informacyjnych
● Użytkownik wpisuje zapytanie python.
● Mogą się za tym kryć różne potrzeby
informacyjne, np. chęć uzyskania
informacji o:
○ wężach z rodziny Pythonidae,
○ języku programowania Python.
17/33
Personalizacja, podpowiedzi?
18. Czym jest skuteczne wyszukiwanie?
Przedstawienie użytkownikowi nie dużej liczby wyników, a
ograniczonego zbioru wartościowych informacji
Przykład: fraza "Mars color", czyli informacja o...? ;)
VS
Około 156 000 000 wyników (0,15 s) Input interpretation: Mars (planet) color
Result:
RGB Red: 0.59, Green: 0.38, Blue: 0.19
...
18/33
19. Miary efektywności wyszukiwania
● określa procent dokumentów relewantnych zawartych w odpowiedzi
spośród wszystkich dokumentów relewantnych zgromadzonych w
przeszukiwanej kolekcji (zarówno wyszukanych, jak i niewyszukanych)
kompletność (ang. recall) – tym większa, im więcej
relewantnych elementów zwraca danych algorytm
dokładność (ang. precision) – jak skuteczny jest dany
algorytm w zwracaniu wyłącznie relewantnych elementów
● procent relewantnych dokumentów w odpowiedzi systemu
wyszukiwania informacji
19/33
20. Miary efektywności wyszukiwania
Jeszcze inaczej:
Relewantne Nierelewantne
Zwrócone true positives (tp) false positives (fp)
Pominięte false negatives (fn) true negatives (tn)
20/33
Dokładność
(ang. precision)
Kompletność
(ang. recall)
21. Inne miary efektywności:
● Fall-out
Proporcja nierelewantnych dokumentów w wyniku
wyszukiwania, ze wszystkich nierelewantnych
● F-measure
Ważona średnia harmoniczna dokładności
i kompletności
α – waga dokładności z przedziału [0, 1]
β2
– określa, ile razy ważniejsza jest kompletność niż dokładność;
wartość z przedziału [0, ∞)
21/33
22. Przykłady wag F-measure
● miara zrównoważona (balanced F-measure)
○ α = 1/2, β2
= 1
○ kompletność i dokładność są jednakowo ważne
○ ogólny wzór na F upraszcza się do postaci:
● miary faworyzujące dokładność
○ β2
< 1
○ np. dla β2
= 0.5, dokładność jest 2 razy ważniejsza niż kompletność
● miary faworyzujące kompletność
○ β2
> 1
22/33
23. Jak mierzyć jakość
uporządkowanych wyników?
● Dokładność, kompletność, fall-out oraz miara F (F-
measure) nie biorą pod uwagę kolejności,
w której zwracane są wyniki.
● Potrzebujemy sposobu oceniania
uporządkowanych wyników wyszukiwania (ang.
ranked retrieval results).
○ obecnie większość systemów wyszukiwania
informacji prezentuje użytkownikom uporządkowane
listy wyników
○ nie wystarcza nam to, że zostały zwrócone
najlepsze dokumenty – chcemy, aby znalazły się
one jak najbliżej początku listy wyników
23/33
24. Inne miary efektywności
● Average precision
Uwzględnia kolejność zwracanych
wyników.
p(r) – dokładność jako funkcja
kompletności
● MAP (Mean Average Precision)
Średnia arytmetyczna przeciętnych
dokładności (average precision) liczona
dla danego zestawu zapytań.
Q – liczba zapytań
24/33
25. Inne miary efektywności
● R-precision
Zakładając, że mamy |Rel| dokumentów, dla danego
zapytania sprawdzamy najlepsze wyniki, aby znaleźć r
relewantnych - wówczas precyzję określić można jako
r/|Rel|, a kompletność jest jej równa.
● DCG (discounted cumulative gain)
Używa stopniowanej skali relewantności
dokumentów z wyników zapytania, aby
ocenić użyteczność dokumentu na
podstawie jego pozycji na liście wyników.
Założenie DCG: wysoce relewantne
dokumenty występujące na dalekich
pozycjach na liście wyników otrzymają
gorszą ocenę (będzie ona maleć
logarytmicznie na coraz dalszych
25/33
26. Problemy związane z klasycznymi
miarami efektywności wyszukiwania
● Ze względu na rozmiary zbiorów dokumentów
gromadzonych w internetowych systemach
wyszukiwania informacji pojawia się problem
z określeniem liczby wszystkich dokumentów
relewantnych dla danego zapytania
○ nie można zatem wprost wyliczyć ani kompletności,
ani dokładności
26/33
● W przypadku wyszukiwania w sieci WWW
nie jest możliwe określenie statycznego
zbioru dokumentów, których dotyczy
wyszukiwanie
27. Kryteria oceny relewantności
wyników
● statyczne
○ nie są bezpośrednio powiązane z zapytaniami
kierowanymi do wyszukiwarki przez użytkownika,
○ odzwierciedlają ważność stron internetowych,
○ przykładowy algorytm: PageRank stosowany przez
Google.
● dynamiczne
○ są bezpośrednio powiązane z zapytaniami
użytkownika:
■ wewnętrzne
■ zewnętrzne
27/33
28. ● prosta idea: jakość dokumentu zależy od liczby
wskazujących na niego tekstów
○ dokument często cytowany jest najpewniej
wartościowy
● ulepszenie: im wyżej oceniony jest dokument
wskazujący na daną stronę, tym większe ma to
znaczenie podczas jego oceny
● ocena danego dokumentu rośnie jeszcze bardziej,
gdy wskazujące na niego odnośniki znajdują się na
relewantnych tematycznie stronach
Kryteria statyczne na przykładzie
algorytmu PageRank
28/33
29. ● Służą do oceny strony pod kątem
występowania na niej słów kluczowych
relewantnych wobec potrzeb informacyjnych
wyrażonych w postaci kierowanych przez
użytkowników zapytań.
● Na ocenę strony wpływa występowanie słów
kluczowych w odpowiednich miejscach jej
kodu.
Kryteria dynamiczne wewnętrzne
29/33
30. Kryteria dynamiczne wewnętrzne -
szczegóły
● aby strona zajęła wysoką pozycję w
rankingu wyszukiwarki odpowiednie słowa
kluczowe powinny znaleźć się m.in.:
○ w tytule strony – znacznik <title>
○ w opisie strony – metaznacznik description w
nagłówku
■ <meta name="description"
content="...">
○ w tekście na stronie
■ przyjmuje się, że nasycenie tekstu słowami
kluczowymi nie powinno przekraczać kilku
procent (3-7%)
○ w wyróżnionych fragmentach tekstu
30/33
31. Kryteria dynamiczne wewnętrzne -
szczegóły
● aby strona zajęła wysoką pozycję w
rankingu wyszukiwarki odpowiednie słowa
kluczowe powinny znaleźć się m.in.:
○ w wyróżnionych fragmentach tekstu, takich jak:
■ znaczniki nagłówków <h1>, ..., <h6>
■ znaczniki <strong>, <em>, <b>, <i>
○ w opisach elementów strony
■ np. atrybut alt w znacznikach <img>
○ w adresach URL
■ np. http://en.wikipedia.org/wiki/Polish_language
31/33
32. Kryteria dynamiczne zewnętrzne
● Służą do oceny strony pod kątem relewantności innych
dokumentów na nią wskazujących
● Przykładowo: w algorytmie Google przyjmuje się, że
jeśli w odnośniku do strony zawarty jest jakiś tekst, to
istnieje prawdopodobieństwo, że zawiera ona
informacje związane z tym tekstem
● Im więcej podobnych odnośników, tym większe jest
szacowane prawdopodobieństwo
32/33
33. Bibliografia
1. Agnieszka Indyka-Piasecka, Model użytkownika w
internetowych systemach wyszukiwania informacji.
2. Ewa Białek, Kryteria oceny relewantności wyników w
wyszukiwarkach internetowych i ich wykorzystanie do
promocji witryn regionalnych.
3. Christopher D. Manning, Prabhakar Raghavan, Hinrich
Schütze, Introduction to Information Retrieval, Cambridge
University Press 2008.
33/33