Podstawy morfologii.

Report
4.
Wiedza o języku
Studia Podyplomowe
„Polski Język Migowy”
2014-2016
Prof. dr hab. Marek Świdziński
Zakład Językoznawstwa Komputerowego
Instytut Języka Polskiego UW
e-mail: [email protected]
Konsultacje (pok. 1): śr 14.00-15.00,
sob (w dniach zjazdów)
Strona przedmiotu — szukaj pod:
http://www.mswidz.republika.pl/
Program
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
Co to jest język naturalny?
Aparat pojęciowy analizy tekstu.
Poziomy struktury tekstu.
Podstawy morfologii.
Derywacja i gniazda słowotwórcze.
Fleksja polska.
Elementarz składni.
Świat znaczeń: podstawy leksykologii. Leksykografia.
Komunikacja językowa.
Zróżnicowanie języków świata. Typologia języków.
Inne.
Program
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
Co to jest język naturalny?
Aparat pojęciowy analizy tekstu.
Poziomy struktury tekstu.
Podstawy morfologii.
Fleksja polska.
Elementarz składni.
Derywacja i gniazda słowotwórcze.
Świat znaczeń: podstawy leksykologii. Leksykografia.
Komunikacja językowa.
Zróżnicowanie języków świata. Typologia języków.
Inne.
Wykład 4: Podstawy morfologii
Przypomnienie
1. Główne zadanie lingwisty: szukanie opozycji.
2. Rozbieżności między kształtem a znaczeniem: znak
zerowy, wariancja i neutralizacja.
3. Dwa typy konstrukcji (czyli: znaków złożonych):
konstrukcje morfologiczne i konstrukcje składniowe.
4. Frazy a zdania.
5. Gramatyka języka polskiego obejmuje morfologię
(słowotwórstwo i fleksję) oraz składnię. Diakryty nie
należą do gramatyki!
6. Języki wizualno-przestrzenne to pewien typ języka
naturalnego.
5
Znajomość języka
Iksiński zna język A:
A.
B.
C.
zna słówka (SUROWIEC),
umie rozbierać wyrażenia (ANALIZA),
umie łączyć słówka w wyrażenia (SYNTEZA).
Co to jest znajomość czynna / bierna?
Jak szacować stopień znajomości?
Różne kombinacje A.-C.
6
Dwie gramatyki?
Składniki kompetencji językowej
A.
B.
C.
słownik,
gramatyka,
gramatyka.
Jedna gramatyka – czy dwie gramatyki?
7
Analiza tekstu obcego
Łacina:
ARMAVIRUMQUECANOTROIAEQUIPRIMUS
ABORISITALIAMFATOPROFUGUSLAVINAQUE
VENITLITORA
Arma virumque cano, Troiae qui primus ab oris Italiam,
fato profugus, Lavinaque venit litora
‘czyny męża-i, Troi który pierwszy od wybrzeży do-Italii, losem
miotany, lawińskich-i przybył brzegów’
Opiewam czyny męża, który pierwszy od brzegów Troi,
miotany przez los, przybył do Italii i wybrzeży Lawinium.
8
Analiza tekstu obcego
Angielski:
Our Father who art in heaven,
hallowed be thy name.
Thy kingdom come.
Thy will be done on earth, as it is in heaven.
Give us this day our daily bread,
and forgive us our trespasses,
as we forgive those who trespass against us,
and lead us not into temptation,
but deliver us from evil.
9
Analiza tekstu obcego
Nasz Ojcze, który jesteś w niebie,
niech się święci Twoje imię,
niech nadejdzie Twoje królestwo,
Niech Twoja wola się wypełni na ziemi, tak jak w niebie.
Daj nam w tym dniu naszego codziennego chleba
i wybacz nam nasze przewiny,
tak jak my wybaczamy tym, którzy działają przeciwko
nam
I prowadź nas nie do pokus,
tylko wybaw nas od zła.
10
Analiza tekstu obcego
Koreański:
anna-nun ku-eykey pyenci-lul sey-pen-ul ponay-ess-ta.
‘Anna-TOP on-dla list-OB trzy-raz-OB wysłać-PRZE-OZN’
Anna to mu trzy razy list wysłała.
11
Analiza tekstu obcego
Polski:
Goście są zachwyceni urodą ich najmłodszych
córek.
12
Lematyzacja
Szukanie słówek w słowniku
Arma virumque cano Troiae qui primus ab oris
Italiam fato profugus Lavinaque venit litora
virumque => VIR ‘mężczyzna’
Italiam => ITALIA ‘Italia’
venit => VENIO ‘przybywa(ć)’
13
Lematyzacja
Our Father who art in heaven,
hallowed be thy name.
Thy kingdom come.
Thy will be done on earth, as it is in heaven.
Give us this day our daily bread,
and forgive us our trespasses,
as we forgive those who trespass against us,
and lead us not into temptation,
but deliver us from evil.
art => BE ‘być’
thy => THOU ‘ty’, ‘twój’
trespasses => TRESPASS ‘wina’
14
Lematyzacja
anna-nun ku-eykey pyenci-lul sey-pen-ul ponay-essta.
anna => ANNA ’Anna’
ku => KU ‘on’
ponay => PONAY ‘wysłać’
ul => UL ‘trzy’
15
Lematyzacja
Polski:
Goście są zachwyceni urodą ich najmłodszych
córek.
goście => GOŚĆ
są => BYĆ
zachwyceni => ZACHWYCIĆ // ZACHWYCONY
urodą => URODA
ich => ONI // ONE
najmłodszych => MŁODY
córek => CÓRKA
16
Słowa a znaki proste
Wnioski:
•
•
•
•
Słownik nie jest zbiorem słów wypisanych z tekstu.
Słowa są upakowane W LEKSEMY (= hasła
słownikowe). Dotyczy to przytłaczającej większości
JN w świecie. A jak jest w PJM?
Słowa nie są najprostszymi znakami.
W gramatyce większości języków świata są reguły:
– budowy słów (MORFOLOGIA)
– budowy wyrażeń (SKŁADNIA).
17
Punkt wyjścia: morfemy
„Słownik” morfemów:
M = {-ank-, -ą, -czyta-, dyskretn-, dziś, -ent-, -i, -nik-,
urzęd-, -ł-, od, -ość-, prze-, -y, -ów, stud-,
wiadom-, -}
Konstrukcje morfologiczne
o
o
Surowiec: morfemy, konstrukcje morfologiczne.
Produkt: słowa.
18
Konstrukcje morfologiczne
Poprawne:
studentki
przeczytały
dyskretną
wiadomość
urzędników
Dewiacyjne:
*studentanki
*czytałk
*dyskretn
*przewiadomośćą
urzędów
(przypadkiem poprawne...)
19
Gramatyka słów
Gramatyka słów: morfologia.
Są języki, dla których Gramatyka = Morfologia
20
Punkt wyjścia: słowa
„Słownik” słów:
S = {dyskretną, dziś, przeczytały, urzędników, od,
studentki, wiadomość}
Konstrukcje składniowe
o
o
Surowiec: słowa, konstrukcje składniowe.
Produkt: wyrażenia (frazy lub zdania).
21
Konstrukcje składniowe
Poprawne:
•
•
•
Studentki przeczytały dziś dyskretną
wiadomość od urzędników.
Dyskretną od urzędników wiadomość studentki
dziś przeczytały.
Przeczytały dziś od urzędników wiadomość
dyskretną studentki.
Dewiacyjne:
*Studentki wiadomość dziś od dyskretną
urzędników przeczytały.
22
Gramatyka wyrażeń
Gramatyka wyrażeń: składnia.
Są języki, dla których Gramatyka = Składnia.
23
Języki wysoce fleksyjne
•
Gramatyka języka typu polszczyzny obejmuje:
 morfologię i
 składnię.
•
Polski — język wysoce fleksyjny (HIL = highly
inflected language).
•
Słowa polskie przeważnie nie są znakami prostymi.
24
Słowo, forma wyrazowa, leksem
Co to znaczy słowo?
Ile słów mamy mamy poniższym zdaniu:
Mamy mamy, drogie mamy, młodsze od niejednej
mamy, ale mamy lubią wasze mamy.
Odpowiedzi:
6 - 5 - 4 - 3 - 2 - 1 - 0...
25
Słowo, forma wyrazowa, leksem
Rozróżnienia:
a. jednostki konkretnej (fizycznego wystąpienia
pewnego obiektu) i jednostki abstrakcyjnej —
klasy wystąpień;
[ang. token — type]
b. jednostki niezinterpretowanej i jednostki
zinterpretowanej.
26
Słowo, forma wyrazowa, leksem
•
•
•
słowo — napis między spacjami lub znakami
interpunkcyjnymi;
forma wyrazowa — słowo z interpretacją
gramatyczną (część mowy, ewentualne wartości
kategorii fleksyjnych, ewentualnie nazwa
jednostki słownikowej);
leksem — zbiór form wyrazowych o tym samym
odniesieniu do rzeczywistości (i o podobnym
kształcie).
27
Słowo, forma wyrazowa, leksem
Słowo mamy reprezentuje 5 form wyrazowych:
(a) czasownikową o wartości pierwszej osoby liczby
mnogiej czasu teraźniejszego
(mamy(1os,mno,ter))
(b) rzeczownikową o wartości dopełniacza liczby
pojedynczej (mamy(dop,poj));
(c) rzeczownikowa o wartości mianownika liczby
mnogiej (mamy(mian,mno));
(d) rzeczownikowa o wartości biernika liczby mnogiej
(mamy(bier,mno) );
(e) rzeczownikowa o wartości wołacza liczby mnogiej
(mamy(woł,mno)).
28
Słowo, forma wyrazowa, leksem
•
Słowa typu mamy — homonimy. Czy jest to
problem PJM?
•
Rozwiązywanie wszelkiej homonimii:
dehomonimizacja.
•
LEKSEM  hasło słownikowe.
•
Odgadywanie leksemu: lematyzacja.
•
SŁOWNIK (składnik systemu językowego): zbiór
form wyrazowych.
LEKSYKON (kompendium): zbiór leksemów (a więc
— zbiór zbiorów form wyrazowych).
•
29
Operacje na słowach
student =>
student =>
czytał =>
czytał =>
studenta, studentowi,..., studenci,
studentów,..., studentach,...
studentka, studencik, studencki,
studenteria, studentowaty,
arcystudent, niestudent,...
czytałem, czytałam, czytałom,
czytałeś,..., czytam, czytasz, czyta,...,
czytaj,..., czytano,.., czytać, czytając,...
doczytał, odczytał, poczytał,
przeczytał, sczytał, zaczytał,...,
czytywał, doczytywał, odczytywał,...
30
Operacje na słowach
A tak naprawdę:
STUDENT == {student, studenta, studentowi,...,
studenci, studentów,..., studentach,...}
STUDENT => STUDENTKA, STUDENCIK,
STUDENCKI, STUDENTERIA,
STUDENTOWATY, ARCYSTUDENT,
NIESTUDENT,...
31
Operacje na słowach
CZYTAĆ== {czytałem, czytałam, czytałom,
czytałeś,..., czytam, czytasz, czyta,...,
czytaj,..., czytano,.., czytać, czytając,...}
CZYTAĆ => DOCZYTAĆ, ODCZYTAĆ, POCZYTAĆ,
PRZECZYTAĆ, SCZYTAĆ, ZACZYTAĆ,...,
CZYTYWAĆ, DOCZYTYWAĆ,
ODCZYTYWAĆ,...
32
Operacje na słowach
DYSKRETNY == {dyskretny, dyskretna, dyskretne,
dyskretnego, dyskretnej,
dyskretnego, dyskretnemu,
dyskretnej, dyskretnemu,...,
dyskretni, dyskretne, dyskretnych,
dyskretnym,..., dyskretniejszy,...,
najdyskretniejszy,...}
DYSKRETNY => NIEDYSKRETNY,
PRZEDYSKRETNY,...,
DYSKRECJA,...,
DYSKRECJONALNY,...
33
Słowotwórstwo
Problem słowotwórstwa
Dwa typy leksemów:
Typ A:
STUDENTKA, PRZECZYTAĆ, WIADOMOŚĆ,
URZĘDNIK
Typ B:
DZIŚ, DYSKRETNY, OD
Typ A.: podzielne słowotwórczo (derywaty).
Typ B.: niepodzielne słowotwórczo.
34
Dwie morfologie
Niebieskie:
Fioletowe:
fleksja
słowotwórstwo (derywacja)
35
Dwie morfologie
Morfologia – zbiór reguł, które robią:
•
•
słowa z morfemów
FLEKSJA
leksemy z leksemów SŁOWOTWÓRSTWO
Słowotwórstwo – słabo gramatyczne.
36
Morfologia wizualno-przestrzenna
•
•
•
W językach wizualno-przestrzennych –
morfologia silnie rozwinięta.
PJM ma bogate słowotwórstwo.
Na następnym wykładzie – podstawy
słowotwórstwa. I konkurs dla Was...
37
Podsumowanie
1. Znajomość języka A: znajomość słówek i reguł
budowy / rozbioru wyrażeń.
2. Słownik to zbiór leksemów (= haseł słownikowych).
3. Dla „słownika” morfemów – gramatyka słów:
morfologia.
4. Dla „słownika” słów – gramatyka wyrażeń: składnia.
5. Polski – język wysoce fleksyjny (HIL = Highly
Inflected Language).
6. Terminy: słowo – forma wyrazowa – leksem.
7. Słowotwórstwo jest w niewielkim stopniu
gramatyczne.
38

similar documents