close

Se connecter

Se connecter avec OpenID

<Here you put the title of the J&M chapter you are going

IntégréTéléchargement
13-11-2015
Spoken Document Retrieval
0
Speech
and Language
Processing
Spoken Document Retrieval:
basics & applications
Roeland Ordelman, David van Leeuwen, Wessel Kraaij, Jaap Hinke,
Arjan van Hessen (+ some Master and PhD students in 2004)
13-11-2015
Spoken Document Retrieval
Due to a maturing technology, an
increasing awareness of
technological possibilities and, as a
result, an increasing request, many
different organisations and
companies start with spoken
document retrieval. Most of them
come to Twente!
13-11-2015
Spoken Document Retrieval
2
Multi Media Document Retrieval
• We want the possibility to find the requested,
relevant information, with a minimum of nonrelevant documents.
• The search may not be limited by the fact that
documents are not in the original query
language. In fact we want to search in
documents that do not contain text at all.
• All meta-data may be used in this task!
13-11-2015
Spoken Document Retrieval
3
Relevancy
• When is a document relevant?
• Relevancy depends on:
– the users,
– the questions
– the (temporal) situation
13-11-2015
Spoken Document Retrieval
4
Relevance judgment
13-11-2015
Spoken Document Retrieval
5
Precision & Recall
recall
Precision and Recall
precision
• In general: P ≈ α/R
1,0
– The higher the precision, the
lower the recall
– The higher the recall, the lower
the precision
0,9
0,8
0,7
0,6
0,5
• The optimum depends on various,
often external factors
0,4
0,3
0,2
0,1
0,0
1
21
41
61
81
# of retrieved docum ents
13-11-2015
Spoken Document Retrieval
6
Raw material
•
•
•
•
Written text
Speech  recognised text
Images  constructed descriptions
Meta-Information:
– All information thing that’s available like
time/date, speaker, hot items in the press,
broadcast scheme's
13-11-2015
Spoken Document Retrieval
7
Input
Output
Problems
To be or
not to be,
that is the
question!
• Speech recognition is
less than 100% correct
due to:
– Misrecognitions
– Out-of-Vocabulary: size
of the lexicon is lower
than the number of
unique words
• Different words in the
question and the relevant
documents (fiets 
rijwiel, piraat  zeerover)
13-11-2015
Spoken Document Retrieval
8
Searching
• Traditional searching techniques are
based on words.
• Misrecognition and the use of different
words may lead to low retrieval result.
• In spite of the correct words, the
document does not contain the desired
information
13-11-2015
Spoken Document Retrieval
9
Searching
• Keyword based searching may fail
• Q: “beautiful”, “girl”, “red ”, “Ferrari”
• A: the beautiful girl jumped in her red Ferrari
• A: that’s nice said Enzo Ferrari to the girl,
when he closed his beautiful red jacket.
• A: the astonishing lady drove her famous red
Italian sports car.
13-11-2015
Spoken Document Retrieval
10
Searching
13-11-2015
Spoken Document Retrieval
11
Fingerprinting
• Make a fingerprint (FP) of a document based on
all the possible relevant words (remove stop
words)
• Make a FP of the question
• Make FP’s of all the available documents
• Calculate the distance between
the FP(question) and all FP(documents)
• Make sorted list of the documents that are close
to the question
13-11-2015
Spoken Document Retrieval
12
Fingerprint: OKAPI 25BM
•
N is the number of items (documents) in the collection
•
n is the number of documents containing the term
•
R is the number of documents known to be relevant to a specific topic
•
r is the number of relevant documents containing the term
•
S is the number of documents known to be nonrelevant to a specifc
topic
•
s is the number of non-relevant documents containing the term
•
K is k1((1 _ b) + b:dl=avdl )
•
k1 and k3 are parameters which depend on the on the nature of the
queries and possibly on the database.
•
For the TREC7 experiments, k1 was 1.2 and k3 anything from 0 to
1000
•
tf is the frequency of occurrence of the term within a specific
document
•
qtf is the frequency of the term within the topic from which Q was
derived
•
dl and avdl are the document length and average document length
(arbitrary units) resp.
13-11-2015
(1)
w
 *
T Q
(k1  1)tf (k 3  1)qtf
( K  tf )(k 3  qtf )
Search algorithm.
With w(1) the Robertson/Sparck Jones weight:


(r  0.5) /( R  r  0.5)
log

(
n

r

0
.
5
)
/(
N

n

R

r

0
.
5
)


Spoken Document Retrieval
13
Text collection
WWW
Daily
recording of
various news
sites
TeleText
Daily recording of the
teletext of the news,
discussion & sport
programs (1998-2004)
TwNC
Newspapers
Autocues
Daily update of the
electronic version of 5
major Dutch
newspapers
(1994-2004)
Daily update of autocues of the 8 o’clock
news and the news for
children
(1999-2004)
13-11-2015
Spoken Document Retrieval
14
ABBOT Speech Recogniser
Dutch
accoustic
models
TwNC
General
Language
Model
13-11-2015
Context
specific
Language
Models
Spoken Document Retrieval
15
Spoken Document Retrieval
ASR
IR
Speech recognition for
the conversion of
speech into text
Information retrieval
techniques to find the
relevant documents
SDR
13-11-2015
Spoken Document Retrieval
16
Research Items
• How many words does a question need?
– Long question  short question
↓
– IR  key word searching
• Do we need a semantic dictionary?
• How bad may recognition be, before IR
breaks down?
13-11-2015
Spoken Document Retrieval
17
IR as a function of
ASR performance
• Start with a 100% recognition
• Corrupt the text in such a way that it
matches as much as possible ASR results
• Do IR on a judged corpus
13-11-2015
Spoken Document Retrieval
18
IR as a function of
ASR performance
Retrieval as function of ASR
lineair
concave
convex
100
90
IR
80
70
60
50
40
1
26
51
76
101
WER
13-11-2015
Spoken Document Retrieval
19
IR as a function of
ASR performance
WER as function of OOV
25K
65K
105K
45000
40000
#documents
35000
30000
25000
20000
15000
10000
5000
0
1
13-11-2015
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
WER
Spoken Document Retrieval
20
Demo’s & Pilots
Sure, with the right
data, we can provide
the right information
for you!
We are interested in a
program that can jump
directly to the
requested information
in a sound file.
Is that possible?
13-11-2015
Spoken Document Retrieval
21
Applications: why now
• Growing amount of non-textual
information on the Internet
• Growing awareness of retrieval capacities
/ possibilities
• Growing demand from the “market”
13-11-2015
Spoken Document Retrieval
22
Applications: who
• Broadcast companies
– Dissimination of news, discussion programs
• Government (local, regional, national)
– Wake ups, internal use, check&control
• Police, Ambulance
– Search for complains, Intelligent routing
• Finance, Assurances
– Search for complains, Intelligent routing
13-11-2015
Spoken Document Retrieval
23
Radio 1 ASR (3 years)
• bomaanslagen Iraakse steden Bagdad in te blazen meer dan
honderd mensen het leven gekomen onder hen zijn tientallen
pelgrim zijn buurland Iran en waarin Irak voor Sjoerd
herdenking een belangrijke religieuze dag voor sjiitische
moslims herdenken op deze dag gemaakt de dood van imam
Hoessein de kleinzoon van de profeet Mohammed aanslagen
werden vrijwel gelijktijdig gepleegd in Bagdad daarvoor was
voor de herdenking tien duizend mensen bij elkaar gekomen
in de heilige stad Quetta zelfs meer dan een miljoen ook in
Pakistan zijn doden gevallen tijdens een issue de herdenking
van alle gelovigen kwamen onder leven toen ze werden
beschoten tijdens een optocht ziet er voor een minderheid in
Pakistan zijn geheel
13-11-2015
Spoken Document Retrieval
24
Radio 1 IR (1 year)
•
4-1-2004 / 12:01:21
de Britse premier Blair is op verrassingen bezoek in Irak vanmorgen kwam
niet per vliegtuig aan niet bestaande zuiden premier was in de buurt hen
was met de kerstvakantie Sharm al Sheikh in Egypte in een toespraak voor
de Britse militairen waarschuwden de premier landen die
massavernietigingswapens hebben de landen zijn grote bedreiging voor de
veiligheid in de wereld aldus Blair zei verder dat de coalitie troepen in Irak
hebben laten zien dat we beter gaat als een land democratie hen
gerechtigheid is in de tweede keer dat beide troepen in Irak bezoekt eerste
keer was in mei vlak na de val van Saddam Hussein op bezoek werd
overschaduwd door negatieve publiciteit voor de premier Britse regering
zou berichten over massavernietigingswapens in Irak hebben overdreven
om de oorlog te rechtvaardigen
13-11-2015
Spoken Document Retrieval
25
1 - Algemeen Dagblad, 12/03/2002, artikel 108
Retrieval score: 51.25144
Berichten over kernaanvallen ietwat overdreven de Amerikaanse vice president Cheney heeft berichten over Amerikaanse kernaanvallen op
zeven met namen genoemde landen van de hand gewezen als ietwat overdreven. Hij voegde daaraan toe dat Washington niet van plan is
plannen bekend te maken over uitbreiding van de oorlog tegen terrorisme naar Irak. Cheney zei dit op een persconferentie met de Britse
premier Blair na afloop van zijn bezoek aan Londen. Cheney begon gisteren aan een tiendaagse tournee langs Europese hoofdsteden en het
midden Oosten. Cheney reageerde op een uitgelekt document van het Pentagon. Daarin vraagt de Amerikaanse regering aan de strijdkrachten
om een noodplan voor nucleaire aanvallen op zeven landen in geval van ernstige dreiging. Het gaat om China Rusland Iran Irak Libië Noord
Korea en Syrië de vice president sprak van een regulier rapport aan het congres dat een idee geeft van de richting die wij in de toekomst in
willen slaan. Volgens hardnekkige geruchten zou Cheney aan Blair steun hebben willen vragen voor een campagne tegen Irak. De VS zou vijf
en twintig duizend Britse militairen willen inzetten in een grondcampagne tegen Irak waarbij in totaal twee honderd vijftig duizend soldaten
moeten worden betrokken. In Londen werd ontkend dat gedetailleerd gesproken is over een oorlog tegen Irak. De Britse premier is door zijn
eigen Labourpartij onder druk gezet om in geen geval aan een oorlog tegen Irak deel te nemen. Blair benadrukte dat er geen beslissingen zijn
genomen over hoe men verder zou willen gaan in de strijd tegen terreur maar herhaalde zijn waarschuwing aan het adres van de Iraakse
president Saddam Hoessein. Het lijdt geen twijfel dat er dreiging uitgaat van Saddam Hoessein en de massavernietigingswapens die hij heeft
ontwikkeld. Irak haalde gisteren uit naar Cheney die een misdadiger werd genoemd. De Iraakse vice president Taha Yassin ramadan herhaalde
bovendien dat Irak de terugkeer van VN wapeninspecteurs niet zou toestaan.
2 - NRC, 28/02/2002, artikel 7
Retrieval score: 47.96887
Blair noemt actie tegen Irak belangrijk de Britse premier Tony Blair heeft voor het eerst gezegd dat actie tegen massavernietigingswapens van
Irak belangrijk is. Hij deed dat in een vraaggesprek met de Australian Broadcasting Corporation aan de vooravond van de bijeenkomst van het
Gemenebest in Brisbane. Blair weigerde Irak Iran en Noord Korea op de noemer as van het kwaad bijeen te brengen zoals de Amerikaanse
president Bush heeft gedaan omdat die drie landen nucleaire biologische en chemische wapens zouden maken. Maar hij prees Bush
leiderschap sinds de terreuraanvallen van elf september en zei het volkomen met hem eens te zijn dat massavernietigingswapens een
daadwerkelijke bedreiging vormen van de stabiliteit in de wereld die ons tot actie dwingen. Blair ontweek de vraag of actie tegen het regime van
Saddam Hussein militair moet zijn maar zei dat het verenigd Koninkrijk die afweging kalm en redelijk moet maken. In dezelfde woorden prees
hij het optreden van de regering Bush sinds elf september. Britse ministers hebben tot nu toe steeds gezegd dat bewijzen voor de
betrokkenheid van Irak bij elf september nodig zijn wil Londen instemmen met gewapende actie tegen Bagdad. Zo niet dan zou de huidige
coalitie met de verenigde Staten uiteen kunnen vallen. Londen zou nog steeds hopen op een diplomatieke oplossing voor Irak waarbij
internationale wapeninspecteurs in dat land terugkeren. Die positie past in het streven krijgshaftige taal uit Washington te verzoenen met
vooralsnog pacifistischer geluiden uit Europa. De Britse krant The Observer schreef zondag dat Blair in april naar Washington reist voor een top
met Bush om de details van een militaire campagne tegen Irak door te nemen. Londen zou volledig instemmen met militaire actie als Saddam
Hussein
blijft weigeren inspecteurs toe te laten. De specialeSpoken
top luidt fase
twee van deRetrieval
strijd tegen het terrorisme in en actie tegen Irak staat
13-11-2015
Document
26
bovenaan de agenda citeert de krant een functionaris van tien Downing Street.
13-11-2015
Spoken Document Retrieval
27
SDR at Beeld&Geluid
• Low recognition results (40% –
60% WER)
• Different user groups
– Extreme pleased program
makers
– Disappointed documentalists
13-11-2015
Spoken Document Retrieval
28
SDR at the NOS
Noodweer
zorgt voor
schade in Parijs
• Pilot probably starts in Q1 2005
• Streaming broadcast news with
automatically added metainformation: articles from
newspaper linked to topics in the
news
13-11-2015
Spoken Document Retrieval
29
Searching in log-files
There was a complain about some stock order buying!
It will take
hours to find it!
We only know that it was
last Saturday morning!
• Police,
Ambulance
• Assurance
companies
• Dealing rooms
of Banks
Classical way:
linear searching
13-11-2015
Spoken Document Retrieval
30
SDR in the
nd
2
Room
“They are talking
about mad cow
diseases”
• Wake-up calls if something interesting has been said
• Handmade transcriptions available  time alignment
possible
• Content: What was said
• Emotion: How was it said
13-11-2015
Spoken Document Retrieval
31
Questions
13-11-2015
Spoken Document Retrieval
32
Auteur
Документ
Catégorie
Без категории
Affichages
4
Taille du fichier
7 422 Кб
Étiquettes
1/--Pages
Signaler