Language translation and processing

Report
1
การแปลภาษาและการประมวลผล
(LANGUAGE TRANSLATION
AND PROCESSING)
อินเตอร์พรีตเตอร์
2


ทำหน้ำที่แปลคำสัง่ ในภำษำระดับสูงให้เป็ นภำษำเครื่องพร้อมทั้งสัง่ กำร
ประมวลผลคำสัง่
รับอินพุตเป็ นโปรแกรมต้นทำง (source program) และรับข้อมูลที่อำจ
ต้องใช้ประกอบกำรทำงำนของโปรแกรมต้นทำง
ขั้นตอนกำรทำงำนของอินเตอร์พรีตเตอร์
3


เริ่มต้นจำกกำรอ่ำนคำสัง่ ในโปรแกรมต้นทำงทีละคำสัง่ แปลควำมหมำยของ
คำสัง่ และสัง่ กำรเครื่องให้ประมวลผลตำมคำสัง่ นั้น จำกนั้นก็จะอ่ำนคำสัง่
ต่อไป, แปล และสัง่ กำรประมวลผลวนเวียนเป็ นวัฏจักรเช่นนี้ ไปจนจบคำสัง่
ในโปรแกรม
สอดคล้องกับขัน้ ตอนการทางานภายใน CPU ทีเ่ รียกว่า วัฎจักรเครือ่ ง ซึง่
ประกอบด้วยการอ่านคาสังจากต
่
าแหน่งทีร่ ะบุ (fetch), แปลรหัสคาสัง่
(decode), การทางานตามคาสัง่ (execute)
4
กำรแสดงข้อผิดพลำดของอินเตอร์พรีตเตอร์
5

กรณีมีขอ้ ผิดพลำดในโปรแกรมต้นทำง เช่น เขียนคำสัง่ ผิดไวยำกรณ์
อินเตอร์พรีตเตอร์จะแสดงข้อควำมเตือนเหตุผิดพลำด (error
message) และหยุดกระบวนกำรแปล จนกว่ำผูใ้ ช้จะแก้ไขข้อผิดพลำด
ก่อน และสัง่ ให้อินเตอร์พรีตเตอร์เริ่มต้นทำงำนใหม่
คอมไพเลอร์
6

โปรแกรมที่ทำหน้ำที่แปลคำสัง่ ในภำษำระดับสูง และสัง่ กำรประมวลผล
เหมือนกับอินเตอร์พรีตเตอร์ แต่มีขอ้ แตกต่ำงที่กำรทำงำนซับซ้อนกว่ำ และ
แยกกำรแปลออกจำกกำรประมวลผล
ขั้นตอนกำรแปลของคอมไพเลอร์
7




การทางานเริม่ ต้นจากรับอินพุตเป็ นโปรแกรมต้นทาง แล้วแปลเป็ น object
program ซึง่ อยูใ่ นภาษาระดับต่า (แต่ยงั ไม่สามารถประมวลผลได้เพราะยัง
ไม่ได้แปลงเป็ นภาษาเครือ่ ง)
ต่อไปจะนา object program นี้ไปอ้างอิงกับคาสังที
่ อ่ ยูใ่ นไลบรารี เช่น คาสัง่
write เมือ่ แปลครัง้ แรกจะถูกเปลีย่ นเป็ น write_cmd ซึง่ เป็ นคาสังอ้
่ างอิงไปยัง
ไฟล์ในไลบรารี pascal.lib
แล้วดึงชุดคาสังที
่ อ่ ยูใ่ นไลบรารี มาแทนทีค่ าสัง่ write โดยเกิดขึน้ ในขัน้ ตอน
การลิงค์ (linker)
หลังจากการเชือ่ มโยงจึงจะได้โปรแกรมในรูปแบบภาษาเครือ่ งทีส่ มบูรณ์
เรียกว่า โปรแกรมพร้อมกระทาการ (executable program)
ขั้นตอนกำรสัง่ ประมวลผลของคอมไพเลอร์
8




เมื่อจบขั้นตอนกำรแปล เรำจะได้โปรแกรมในรูปแบบภำษำเครื่องที่สำมำรถ
บันทึกเก็บไว้ได้
เมื่อต้องกำรสัง่ ประมวลผล เรำจะเรียกโปรแกรมพร้อมกระทำกำร โดยป้อน
ข้อมูลเข้ำกับโปรแกรมได้ทนั ที
ข้อดี คือ สำมำรถสัง่ ประมวลผลโปรแกรมได้หลำยครั้ง กับข้อมูลต่ำงๆ กัน
โดยไม่ตอ้ งเสียเวลำแปลซ้ำ ซึ่งต่ำงจำกอินเตอร์พรีตเตอร์ที่ไม่สำมำรถบันทึก
โปรแกรมพร้อมกระทำกำรไว้ได้ จึงต้องแปลคำสัง่ ใหม่ทุกครั้งที่สงั ่
ประมวลผลโปรแกรมต้นทำง
ข้อเสีย คือ กำรพัฒนำคอมไพเลอร์ทำได้ชำ้ มีข้นั ตอนมำก ซับซ้อน
กำรแปลแบบแยกส่วนของคอมไพเลอร์
(separate compilation)
9

โปรแกรมต้นทางสามารถแยกเป็ นโมดูลย่อยๆ ไว้ในแต่ละไฟล์ แล้วแปลแยก
แต่ละไฟล์ ได้เป็ นโปรแกรมจุดหมาย (object program) จากนัน้ ตัวเชือ่ มโยง
จะทาหน้าทีร่ วม object file และชุดคาสังภาษาเครื
่
อ่ งจากไลบรารี่ สร้างเป็ น
โปรแกรมพร้อมกระทาการ หรือ binary file
ขั้นตอนกำรทำงำนของคอมไพเลอร์
10
1.
2.
3.
4.
5.
6.
lexical analysis (scanning)
Syntactic analysis (parsing)
Semantic analysis
Intermediate code generation
code optimization
Object code generation
1. กำรวิเครำะห์คำศัพท์
(lexical analysis or scanning)
11



ทำหน้ำที่อ่ำน หรือสแกนคำสัง่ ทั้งหมดในโปรแกรมต้นทำง เพื่อแยกคำ และ
เครื่องหมำยต่ำงๆ ออกจำกกัน
โดยคำ หรือ เครื่องหมำย แต่ละตัว จะเรียกว่ำ โทเค็น (token)
รูปแบบกำรทำงำนจำลองได้ดว้ ยเครื่องจักรสมมุติที่เรียกว่ำ เครื่องจักร
สถำนะจำกัด (finite state automata)
Lexeme and Token
12


A lexeme is the lowest level syntactic unit of a
language (e.g., *, sum, begin)
A token is a category of lexemes (e.g., identifier)
Copyright © 2007 Addison-Wesley. All rights reserved.
Lexeme and Token
13
int index = 2 * count + 17;
Lexemes
index
=
2
*
……….
……….
……….
……….
……….
Tokens
identifier
equal_sign
int_literal
mul_op
…………………..
…………………..
…………………..
…………………..
…………………..
Copyright © 2007 Addison-Wesley. All rights reserved.
14
ตัวอย่ำงเครื่องจักรสถำนะจำกัดภำษำปำลคำล
15
1. กำรวิเครำะห์คำศัพท์
(lexical analysis or scanning)
16



ในการแยกคาออกเป็ นโทเค็น scanner จะวิเคราะห์ดว้ ยว่าคานัน้ ๆ เป็ นคา
ประเภทใด โดยดูจากไวยากรณ์
เช่น รูปแบบ BNF ต่อไปนี้
Identifier -> Letter | Identifier Letter | Identifier Digit
Letter -> a | b| ... | z | A | B | ... | Z
Digit -> 0 | 1 | ... | 9
บาง lexical analyzer เช่น LEXical analyzer generator สามารถตรวจสอบ
จาก regular expression ได้ เช่น
[a-z A-Z][a-z A-Z 0-9]*
LEX
17

โปรแกรม lexical analyzer นอกจากจะสร้างสายของ token แล้ว ยังสร้าง
ตารางสัญลักษณ์ (symbol table) เพือ่ บันทึกชือ่ ตัวแปร และชือ่ ฟงั ก์ชนั ต่างๆ
พร้อมทัง้ ชนิดของชือ่ เหล่านัน้ (เช่น ตัวแปรปกติ ตัวแปรอาร์เรย์ ฟงั ก์ชนั
พารามิเตอร์ ชนิดข้อมูลต่างๆ) ทีจ่ าเป็ นต่อการตรวจสอบไวยากรณ์ของ
โปรแกรมต้นทาง
2. กำรวิเครำะห์ไวยำกรณ์
(Syntactic analysis or parsing)
18



ทำหน้ำที่ตรวจสอบว่ำ สำยของโทเค็นนั้น ประกอบขึ้ นเป็ นนิ พจน์ที่ถกู ต้อง,
ข้อควำมสัง่ ที่ถกู ต้อง, เป็ นรูปแบบโปรแกรมที่ถกู ต้องตำมข้อกำหนดของ
ภำษำหรือไม่
โดยดูจำกไวยำกรณ์ของภำษำ เช่น รูปแบบ BNF grammar
กำรตรวจสอบควำมถูกต้องของกำรวิเครำะห์ไวยำกรณ์ประโยคข้อควำมสัง่ จะ
ใช้วธิ ีกำรสร้ำงพำสทรี ถ้ำสำมำรถสร้ำงพำสทรีได้สมบูรณ์ครบถ้วน แสดงว่ำ
โปรแกรมต้นทำงเขียนได้ถกู ต้องตำมไวยำกรณ์ของภำษำ
19
2. กำรวิเครำะห์ไวยำกรณ์
(Syntactic analysis or parsing)
20

โปรแกรมพาสเซอร์ สามารถถูกสร้างขึน้ ด้วยการใช้โปรแกรมช่วย ทีม่ ชี อ่ื ว่า
YACC (Yet Another Compiler – Compiler) ซึง่ จะสร้างพาสเซอร์ในรูปแบบ
ของโปรแกรมภาษา C ใน unix และ Bison (for windows)
3. ขั้นตอนกำรวิเครำะห์ควำมหมำย
(Semantic analysis)
21


เป็ นกำรตรวจสอบควำมถูกต้องของโปรแกรมต้นทำง กำรตรวจสอบนี้ กระทำ
ในระดับที่ซบั ซ้อนขึ้ นกว่ำกำรตรวจสอบไวยำกรณ์ของข้อควำมสัง่
เช่น ตรวจสอบว่ำตัวแปรที่ใช้ในข้อควำมสัง่ มีกำรประกำศไว้ก่อนใช้งำน,
ตรวจสอบชนิ ดข้อมูลว่ำสำมำรถทำงำนด้วยกันได้, ตรวจสอบชนิ ดของ
พำรำมิเตอร์ และอำร์กิวเมนต์ให้ตรงกัน
4. กำรสร้ำงรหัสระหว่ำงกลำง
(Intermediate code generation)
22



ขัน้ ตอน 1-3 เป็ นการตรวจสอบความถูกต้องของโปรแกรมต้นทาง
ขัน้ ตอน 4-6 จะเป็ นช่วงการแปลงไปสูโ่ ปรแกรมภาษาเครือ่ ง
ในขัน้ ตอนที่ 4 นี้โปรแกรมต้นทางจะถูกแปลงไปเป็ นภาษาทีเ่ ป็ นกึง่ กลาง
ระหว่างภาษาระดับสูงกับภาษาเครือ่ ง เรียกว่า รหัสระหว่างกลาง
(intermediate code) เพือ่ ประโยชน์ในการปรับปรุงคาสัง่ ทาให้ประมวลผล
ได้เร็วขึน้ เพราะการปรับปรุงคาสังกั
่ บภาษาเครือ่ งทาได้ไม่สะดวก จึงต้อง
สร้างรหัสคาสังที
่ ส่ งู กว่าภาษาเครือ่ ง
4. กำรสร้ำงรหัสระหว่ำงกลำง
(Intermediate code generation)
23



รหัสระหว่ำงกลำงที่นิยมใช้ จะเรียกว่ำ three- address code
รูปแบบ
result = onething operator anotherthing
เช่น
T=a+b
5. กำรเพิ่มประสิทธิภำพคำสัง่
(code optimization)
24




ทาหน้าทีป่ รับปรุงลาดับการสังงานในค
่
าสังให้
่ ดขี น้ึ เช่น
จากคาสังในโปรแกรมต้
่
นทาง
x = a * y + z;
เมือ่ แปลงเป็ นรหัสระหว่างกลาง ในลักษณะ three-address code จะได้
T1 = a*y
T2 = T1+z
x = T2
โดย T1, T2 เป็ นตัวแปรชัวคราวที
่
ถ่ ูกสร้างขึน้ ซึง่ สามารถยุบรวมคาสังได้
่ ดงั นี้
T1 = a*y
x = T1+z
6. กำรสร้ำงรหัสเป้ำหมำย
(Object code generation)
25


รหัสระหว่างกลางทีไ่ ด้รบั การปรับปรุงแล้ว จะถูกแปลงเป็ นรหัสเป้าหมาย (object
code) ซึง่ จะขึน้ กับเครือ่ งคอมพิวเตอร์ทใ่ี ช้
MUL A, Y // Multiply by Y
ADD A, Z // Add Z
STO X, A // Store in X
รหัสคาสังที
่ ไ่ ด้จะยึดติดกับเครือ่ งคอมพิวเตอร์เฉพาะตระกูลนัน้ ๆ ต่อมามีการ
พัฒนาคอมไพเลอร์ให้สามารถแปลงไปสูร่ หัสเป้าหมายของเครือ่ งคอมพิวเตอร์
เสมือน
เครื่องจักรเสมือน (Virtual machine)
26


หมายถึง การจาลองการทางานของเครือ่ งคอมพิวเตอร์จริง ทีเ่ ป็ นฮาร์ดแวร์
ด้วยซอฟต์แวร์
ผูพ้ ฒ
ั นา Java ใช้แนวคิดเครือ่ งจักรเสมือน มาช่วยเพิม่ ขีดความสามารถของ
ภาษา Java ให้ประมวลผลบนเครือ่ งคอมพิวเตอร์ทม่ี รี ะบบแตกต่างกันได้
(เรียกคุณสมบัตนิ ้ีว่า portability) โดยกลไกสาคัญคือ Java Virtual Machine
(JVM)
Language compilation in Java
27

JVM รับรูปแบบไบต์โค้ด แล้วแปลง(ด้วยอินเตอร์พรีตเตอร์) เป็ น
ภาษาระดับต่าบนเครือ่ งแต่ละระบบ เช่น Windows, Unix, Macintosh OS…
28

คอมไพเลอร์ทาหน้าทีแ่ ปลโปรแกรมจากรูปแบบภาษาจาวา ให้เป็ นรหัส
ระหว่างกลางเรียกว่า (bytecodes) (คอมไพเลอร์ทใ่ี ช้ช่วยในการคอมไพล์
โปรแกรมให้เป็ นไบต์โค้ด จะอยูใ่ นชุดซอฟต์แวร์ทเ่ี รียกว่า Java
Development Kit- JDK)
29

นอกจากจะต้องมี JVM แล้ว ยังต้องมีโปรแกรมต่างๆ ทีช่ ่วยตรวจสอบความ
ถูกต้องของการเรียกใช้คลาส โปรแกรมทีท่ าหน้าทีเ่ ป็ นอินเตอร์พรีตเตอร์ และ
โปรแกรมช่วยงานต่างๆ รวมเรียกว่า Java runtime environment (JRE)
Language compilation in .NET

Language
compilation
in .NET
หน้าที่ของ CLR






แปลโปรแกรมประยุกต์จากภาษา MSIL (microsoft intermediate language) ไปเป็ น
ภาษาเครื่ อง โดยใช้ JUST IN TIME (JIT)
เรี ยกให้รหัสภาษาเครื่ องที่แปลแล้วทางาน
จัดสรรหน่วยความจา และ Garbage Collection
แจ้ง runtime error
สนับสนุน debugging
เนื่องจาก CLR และ Class Library อยูภ่ ายใน .Net Framework ไม่ได้อยูใ่ นไฟล์ .exe
จึงทาให้ไฟล์ .exe ที่ได้มีขนาดเล็ก และการที่มี CLR คอยจัดการทรัพยากรทาให้แอพลิ
เคชัน่ ที่รันผ่าน CLR มีเสถียรภาพที่ดี
Source
program
Symbol
table
Lexical analyzer
Lexical units
Syntax analyzer
Parse tree
Intermediate
code generator
Optimization
(and semantic analyzer)
Intermediate code
Code generator
Machine language
Input data
Computer
Results
33
Compilation
Source
program
Lexical analyzer
Lexical units
Syntax analyzer
Parse tree
Intermediate
code generator
Intermediate code
Input data
Interpreter
Results
Pure Interpretation
Hybrid Implementation
33

similar documents