Khai phá quan *i*m trên d* li*u Twitter ti*n ** 12/10

Report
Khai phá quan điểm trên dữ liệu
Twitter
tiến độ 12/10
Hướng dẫn: PGS.TS Hà Quang Thụy
Sinh viên thực hiện : Vũ Trọng Hóa
Đào Quốc Vương
Nội dung
• Dữ liệu trên Twitter
• Phương pháp
Nội dung
• Dữ liệu trên Twitter
• Phương pháp
Dữ liệu trên Twitter
Thời điểm 2012
• 340,000,000 Tweets một ngày [1]
• 140,000,000 nd tích cực/ 465,000,000 nd
• 1,000,000 tài khoản một ngày
Dữ liệu trên Twitter
Dữ liệu trên Twitter
Dữ liệu trên Twitter
• Tweet: tin nhắn, trạng thái có độ dài không quá
140 kí tự
• Follow: quan hệ 1 chiều giữa 2 người dùng.
• Mention: nhắc đến tên người dùng khác
eg: "Glad your shipment arrived @janesmith!"
• Message: Tin nhắn cá nhân cho người dùng
nhất định, bắt đầu vs DM hoặc D: eg: "DM
@joesmith234 what is your order number?"
Dữ liệu trên Twitter
• Hashtag: Người dùng đánh dấu các chủ đề.
eg: "Check out our new products for the
Fallhttp://t.co/link2 #fallsale"
Dữ liệu trên Twitter
• Mạng xã hội có đa dạng người sử dụng, họ
chia sẻ ý kiến về nhiều chủ đề khác nhau, do
đó nó là nguồn có giá trị
• Twitter chứa số lượng lớn các post và phát
triển mạnh mỗi ngày. Dữ liệu có thể lớn tùy ý
• Người dùng Twitter có thể là phổ thông -> nổi
tiếng, đại diện công ty, chính trị gia -> dễ dàng
thu thập theo các tiêu chí(ngôn ngữ, sở thích
… ).
Dữ liệu trên Twitter
• Twitter cung cấp API mở, đơn giản, search &
streaming không giới hạn và không yêu cầu
đăng nhập
• Diakopoulos and Shamma (2010) : Barack
Obama vs John McCain
• Bollen et al. (2010): upcoming stock market
fluctuations
Dữ liệu trên Twitter
• Dữ liệu dùng cho khai phá quan điểm chủ yếu
là các tweet
– Nội dung ngắn : 140kt
– Ngôn ngữ khó hiểu, biến thể.
Nội dung
• Dữ liệu trên Twitter
• Phương pháp
Sentiment Analysis of Twitter Data
- Agarwal và cộng sự 2011
• Tiếp cận học máy (SVM, tree kernel)
• Nghiên cứu 2 bộ phân lớp tweet
– Negative vs Positive
– Negative vs Neutral vs Positive
• Baseline: unigram model
• Dữ liệu: 5127 tweet được gán nhãn thủ công
• Sử dụng các kĩ thuật phân tích và lựa chọn đặc
trưng, tiền xử lí
Sentiment Analysis of Twitter Data
- Agarwal và cộng sự 2011
Tiền xử lí
• Từ điển biểu tượng cảm xúc
• Từ điển viết tắt
Sentiment Analysis of Twitter Data
- Agarwal và cộng sự 2011
Tiền xử lí
• Thay thế Ulr bằng ||U||, tag @Jonh = ||T||
• Thay thế các biểu tượng cảm xúc bằng hướng
quan điểm
• Chuỗi kí tự lặp :Cooooooooooooool - > coool
• Sử dụng bộ tokenizer của Standford
• Stopword
Sentiment Analysis of Twitter Data
- Agarwal và cộng sự 2011
100%
38.3%
30.1%
11.8%
6.1%
4.2%
2.8%
1.2%
11.7%
Sentiment Analysis of Twitter Data
- Agarwal và cộng sự 2011
• Cho điểm các từ (quan điểm)
• Sử dụng bộ : Dictionary of Affect in Language
(DAL) (Whissel, 1989) gồm 8000 từ tiếng anh
• Điểm 1 (Negative) - 3 (Positive)
• Mở rộng nó bằng Wordnet
• Tìm thấy 88.9% từ tiếng anh
Sentiment Analysis of Twitter Data
- Agarwal và cộng sự 2011
• Tree kernel : Partial Tree (PT) kernel đề xuất
bởi Moschitti (2006)
• Tính toán sự tương quan giữa 2 cây bằng cách
so sánh tất cả cây con
• Eg. @Fernando this isn’t a great day for
playing theHARP! :)
Sentiment Analysis of Twitter Data
- Agarwal và cộng sự 2011
• Đặc trưng (Senti-feature)
Sentiment Analysis of Twitter Data
- Agarwal và cộng sự 2011
• Kết quả thực nghiệm
• Họ sử dụng 3 mô hình và kết hợp chúng
– Unigram model (our baseline)
– Tree kernel model
– 100 Senti-features model
– Kernel plus Senti-features
– Unigram plus Senti-features
Sentiment Analysis of Twitter Data
- Agarwal và cộng sự 2011
• Positive versus Negative (baseline 50%)
• 1709 mẫu với mỗi nhãn, 5 folds
• 100 Senti-feature xấp xỉ 10,000 unigram
Sentiment Analysis of Twitter Data
- Agarwal và cộng sự 2011
• Phân tích đặc trưng
• Bắt đầu với unigram sau đó thêm dần các đặc
trưng
• Kết luân: đặc trưng quan trọng nhất là Polar +
POS
Sentiment Analysis of Twitter Data
- Agarwal và cộng sự 2011
• Positive vs Negative vs Neutral(baseline
33,3%)
• 1709 dữ liệu cho mỗi nhãn.
• 100 Senti-feature xấp xỉ 13,000 unigram
Using Word Lengthening to Detect
Sentiment in Microblogs 2011
(Samuel Brody- Nicholas
Diakopoulos)
• Chứng minh sự phổ biến của kéo dài từ trên
Twitter và có liên quan đến thể hiện quan điểm
• Eg: Niiiice, realllly, Coooooooooooolllll !!!!!
• Đề xuất phương pháp học máy bán giám sát,
phát hiện những từ mang quan điểm và cảm
xúc
Using Word Lengthening to Detect
Sentiment in Microblogs 2011
• Động lực:
– Rất nhiều nghiên cứu trên microblogs sử dụng
phương pháp cho điểm các từ dựa vào từ điển (a
sentiment lexicon)
– Các từ điển đã có thì đều được thiết kế cho miền
chung, hạn chế đối với miền mạng xã hội
– Nếu thiết kế được từ điển phù hợp, độ chính xác và
độ phủ cao hơn.
Using Word Lengthening to Detect
Sentiment in Microblogs 2011
Phương pháp
• Trong ngữ cảnh nói: sự nhấn mạnh thể hiện ở
độ cao, kéo dài, chất lượng âm tiết…
• Trong văn bản viết : gạch chân , in đậm …
• Twitter: Viết hoa, giữa 2 dấu *, lặp lại chữ cái :
Coooooooooooolllll !!!!!
Using Word Lengthening to Detect
Sentiment in Microblogs 2011
• TN1 : chứng tỏ sự phổ biến
• TN2: Việc kéo dài không hề tùy ý
• TN3: Mở rộng từ điển hiện tại, thích nghi hơn
Using Word Lengthening to Detect
Sentiment in Microblogs 2011
• Dữ liệu: Gần nửa triệu tweet được thu bằng
Streaming API vào 9/3/2011
• Chỉ ở các khu vực Mỹ và phần nhỏ ở Anh
• Gần 6.5 triệu từ, với 22 ngàn từ xuất hiện trên
10 lần.
Using Word Lengthening to Detect
Sentiment in Microblogs 2011
TN1
Using Word Lengthening to Detect
Sentiment in Microblogs 2011
• Trong số nửa triệu tweet của họ có tới 108,762
từ bị kéo dài và xuất hiện trong 87,187 tweets
• Chiếm 17.44% tức 1/6
• Việc này khá bất ngờ mặc dù Twitter hạn chế
số lượng kí tự
Using Word Lengthening to Detect
Sentiment in Microblogs 2011
• TN2 sử dụng từ điển của (Wilson et al., 2005)
Using Word Lengthening to Detect
Sentiment in Microblogs 2011
TN3
• Từ điển hiện tại có
– 6,878 từ, chỉ xuất hiện 4,939, 2446 trên 10 lần
– Các từ được kéo dài chỉ có 485/3,727 từ trong từ
điển
• Chọn tập các ứng viên : Các từ mà có nhiều
hơn 5 dạng
• Thu được 720 candidate
Using Word Lengthening to Detect
Sentiment in Microblogs 2011
• Phương pháp đồ thị
• Brody and Elhadad (2010) for detecting
sentiment in reviews
• Velikovich et al. (2010) for finding sentiment
terms in a giga-scale web corpus
Using Word Lengthening to Detect
Sentiment in Microblogs 2011
Tài liệu tham khảo
• [1] Infographic Labs
http://infographiclabs.com/news/twitter-2012/
• [AXVRP11] Apoorv Agarwal, Boyi Xie, Ilia
Vovsha,
Owen Rambow and Rebecca
Passonneau (2011). Sentiment Analysis of Twitter
Data, Workshop on Language in Social Media
LSM 2011:30-38.
• [BD11] Samuel Brody, Nicholas Diakopoulos:
Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using
Word Lengthening to Detect Sentiment in
Microblogs. EMNLP 2011: 562-570.

similar documents