Natural Language Processing in Hospitals

Report
老いと<ことば>
ブログ・テキストから測る老化
荒牧英治 京都大学/JSTさきがけ
久保圭
大阪大学
四方朱子 京都大学
背景
老化は発達ほど研究されていない
• <老化> V.S. <発達>
– KAKENプロジェクト数
• 5175 V.S. 27986
– CiNii 論文数
• 7688 V.S. 91248
2014/07/26 accessed
• 発達時,何がどのように獲得されるのか?
• 老いる時,何がどのように失われるのか?
– 何が普通に起こることなのか?
これまで老化度の測定
(物理的検査)
•
•
•
•
骨年齢の判定
血管年齢の測定
血液検査
高次脳機能検査
– カードソーティング検査
• 前頭葉機能の評価)
• 問診(QOL)
(本研究の目指すところ)言語年齢
同志社大学 老化度判定ドックの測定項目より抜粋
さまざま言語能力の測定法
と本研究の測定法
行為
測定項目
読む
語彙量
聞く
語彙のレベル
話す
文法の複雑さ
書く
表現の丁寧さ
理解語彙量
本研究は
ウェブ上で
書かれた
文章について
様々な指標を
計算する
概要
• 背景 & 目的
• 材料
– ウェブ上からどのようなテキストを集めたか
• 手法
• 結果
• 考察
3つの材料
• 小中学生作文データ
– 郵便事業株式会社主催「手紙作文コンクール」入
賞作品
• 小学生低学年(22人:26人)
• 高学年(17人:32人)
• 中学生(5人:43人)
• 日本語学習者作文データ
– 日本語を学ぶ留学生のテキスト
• 初級31名,上級124名
• 高齢者ブログデータ
– ブログ・リンク集を用いて無作為に抽出
• 50代,60代,70代,80代以上(男女別10名ずつ)
小学生(低学年)男子の例
ぼくは、無線や電気などに
興味を持っています。
それで、科学館のアマチュ
ア無線クラブに入っていま
す。
今日は、そのアマチュア無
線クラブの活動をしました。
フォックステーリングとい
う、競技をしました。
80歳男性の例
音楽作曲のゴーストライター問題で謝罪
記者会見を聴いたがあの会見を聴いてい
て彼は音楽の素人だと思った。
あの言葉のなかで 「アレンジとか編曲
をお願いした」と言っていたが アレン
ジ=編曲 だから普通の音楽人ならあん
な言葉は出ないだろう。
90歳女性の例
20年のオリンピック開催地が東京に決まりま
した。
私はもともと東京五輪開催にはあまり賛成で
はありませんでした。
東京にあまり多くの外国人が入ってくるのは
何だか煩わしい感じがしたからです。
でも家族はみな「東京オリンピックが実現す
るといいね!」と盛り上がっていました。
私にとってオリンピックといえば、昭和11
年に開催されたベルリンオリンピックがやは
りいちばん印象に残っています。
概要
• 背景 & 目的
• 材料
• 手法
– 関連研究で提案されてきた手法
– 本研究室で開発した手法
• 結果
• 考察
指標
指標
略記
説明
単位
対象
D-LEVEL日本語版
LEV
文の複雑さ示す
単文
文法能力
構文木の深さ
DEP
文の複雑さ示す
単文
文法能力
日本語学習辞書レベル
JEL
語彙の難しさ
単語
語彙能力
特殊性
FPU
語彙の特殊性
単語
語彙能力
具体性
NER
固有名詞の割合
単文
語彙能力
タイプ・トークン割合
TTR
語彙の量
文章
語彙能力
機能表現レベル
FNC
難易度
単文
その他
ポライトネス
PLT
丁寧さ
単文
その他
• 従来から使用されていた指標
• 本研究で開発した指標
D-LEVEL日本語版 (LEV)
文法の複雑さを示す
Cheunga, H. and S. Kemper, Competing complexity metrics and adults' production of complex
sentences. Applied Psycholinguistics, 1992. 13(1): p. 53-76.
D-LEVEL日本語版 (LEV)
文法の複雑さを示す
Cheunga, H. and S. Kemper, Competing complexity metrics and adults' production of complex
sentences. Applied Psycholinguistics, 1992. 13(1): p. 53-76.
D-LEVEL日本語版 (LEV)
文法の複雑さを示す
Cheunga, H. and S. Kemper, Competing complexity metrics and adults' production of complex
sentences. Applied Psycholinguistics, 1992. 13(1): p. 53-76.
構文木の深さ
depth of sentence tree (DEP)
• 文の複雑さを示す.
• 構文木の最大の深さ(句構造と依存構造)
5 levels
4 levels
http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP
頻度・使用者数比(≒専門用語)
Frequency per User Popularity (FPU)
• ソーシャルメディア10万人
の発言を8ヶ月間調査
• 語の特殊性 (語の出現頻度/
語のユーザ数)
• 値が低い → 一般的
• 値が高い → ユーザ数が出現
頻度と比較し少ない語
– スラングや専門用語
Eiji Aramaki, Sachiko Maskawa, Mai Miyabe, Mizuki Morita and Sachi Yasuda: A Word in a
Dictionary is used by Numerous Users, International Joint Conference on Natural Language
Processing (IJCNLP2013), 2013 (2013/10/18, Nagoya, Japan).
TYPE・TOKEN割合
Type Token Ratio (TTR)
• Type(異なり語数)とToken(延べ語数)
の比率(Type/Token).この値が大きい
ほど,語彙量が多い.文章全体で集計し
た.
潜在使用語彙.: 19,000
INPUT
日本語学習語彙レベル
Japanese Educational Lexicon Level
(JEL)
• 語彙の難易度を示す
• 難易度は日本語学習辞書
に収載されている語彙レ
ベルを用いた
レベル
example
LEVEL6
愛敬
LEVEL5
愛国
LEVEL4
愛犬
LEVEL3
愛情
LEVEL2
合う
LEVEL1
会う
具体性・抽象性
Named Entity Ratio (NER)
• 固有名詞の割合
=固有名詞数÷全名詞数
• 抽象名詞の割合
=抽象名詞数÷全名詞数
砂川有里子, 学習辞書編集支援データベース作成について -『学習辞書科研』プロジェクトの紹
介」. 日本語教育連絡会議論文集, 2012. 24.
機能表現難度
ポライトネス
Difficulty of Functional
Expression (FNC)
Politeness of Functional
Expression (PLT)
• 機能表現のポライトネス
の度合い
• この値が大きいとき,丁
寧であることをあらわす.
• 口語体=1,常体=3,敬
体=5,堅い文体=5に変
換した.文ごとに算出し,
平均した.
• 機能表現の難易度
• この値が大きいほど,
文章内で用いられてい
る機能表現の難易度が
高い
• 難易度はA1, A2, B, C,
Fの5段階に分かれてお
り,これを1 (A1) から
5 (F) に変換した.文
ごとに算出し,平均し
た.
難易
度
ポライトネス
をとおして
3
3
をとおしまして
3
5
3
1
をとおし
松吉俊, 佐藤理史, and 宇津呂武仁, 日本語機能表現辞書の編纂. 自然言語処理, 2007. 14(5):
p. 123-146.
「メンション情報を利用したTwitterユーザプロフィール推定における単語重要度算出手法の考察」上里
測定例
(研究会プロシーディング)
「メンション情報を利用したTwitter
ユーザプロフィール推定における単語
重要度算出手法の考察」上里 et. al
「老いと<ことば>:ブログ・テキ
ストから測る老化」荒牧 et. a
抽象名詞 多
専門用語 多
専門用語をフォントサイズに反
映
概要
•
•
•
•
背景 & 目的
材料
手法
結果
– (詳細はプロシーディングに)
– ワンショットのデータ
– 時系列データ(5年)
• 考察
発達期では
はこひげ図の見方
文法の複雑さ(DEV)
最高値
中央値
25%の分布
最低値
語彙の難しさ(JEL)
• いくつかの指標で上昇を確認
– 成長の過程を捉えられている
文法の複雑さ(DEP)
• 女性優位から男性優位へ
• では 老化においては…
老化は Super Flat!!
日本語学習語彙レベルを例に小括
• 他にも3指標(LEV, FNC, DEP)が同傾向
• (仮説1)高齢者になっても言語能力は落ちない (結晶
化知性) [Horn1967]
• (仮説2)言語能力が落ちない高齢者だけが書いている
Cattell, R.B., Abilities: Their structure, growth, and action. New York: Houghton Mifflin. 1971.
Horn, J.L. and R.B. Cattell, Age differences in fluid and crystallized intelligence. Acta Psychologica,
1967. 26.
6名の長期執筆データ
• 高齢者長期ブログデータ(5年執筆; n=5)
– 70歳以上,かつ,5年以上の期間にわたって執筆されたタ
キスト
– 執筆年ごとに500文ずつを収集した
• 認知症患者長期ブログデータ(5年執筆; n=1)
– ある認知症患者(最終執筆時70代男性)のテキスト
2006年11月
桜の花の下でお茶をいただきなが
ら68才の男が桜の花の下でゆっ
くりとお茶を飲んでいる姿を想像
して見てください。その男はこの
春(平成17年3月)認知症と診断
されて家にひきこもっているので
す。それから半年今は結構元気に
なって……
2010年12月
言葉が書けない言葉が書けない
は・・・文字が書かないとおなじ。
パソコンで文字がかけていたわた
しですがなぜか文字の変換が出来
ない今日です。
言葉をかくにはそれなりの言葉を
さがし読んでいただける言葉にす
れなはとはよういではなしのです。
とみにそのかいすが多くなった。
通常の高齢者(70歳以上)
語彙レベル変化
個人差はあるものの
低下傾向
通常の高齢者(70歳以上)と
認知症患者
発症時から低い
通常の高齢者(70歳以上)と
認知症患者
桜の花の下でお茶をいただきなが
ら68才の男が桜の花の下でゆっ
くりとお茶を飲んでいる姿を想像
して見てください。その男はこの
春(平成17年3月)認知症と診断
されて家にひきこもっているので
す。それから半年今は結構元気に
なって……
発症時から低い
2つの指標で同様の変化
日本語学習語彙レベル
語彙が簡単になる
タイプ/トークン比
語彙のバリエーションが減
る
認知症では発症前にそれらが同時に起こった
まとめ
• 本研究では
– 自然言語処理(NLP)を人間の能力測定の道具と
して使うこと(新しいNLPの利用法)を提案
– 老化の過程で測定可能な変化あり
• 語彙が簡単になる
• 語彙のバリエーションが減る
– 通常の老化と認知症患者との間の大きな差異あり
– BUT: 材料に大きな選択バイアス
• 今後の予定
– 大規模データの収集
– 医療応用(認知症,発達障害(アスペルガー症候
群))
大規模データの収集
京都大谷高校
(夏休みの宿題)
検査を受けるのを嫌がる
認知症の患者さんは多い
100から7を引いて,
それからまた7を
引いてみて?
前にアレで見たぞ!
認知症のアレだろう!
失敬な!ワシは
ボケてなどおらん!
Thank you
Role of Authors
PI 荒牧英治 Ph.D.(総括)
久保圭
(データ収集/助
言)
四方朱子
(実験/統計処理)
Acknowledgement
宮部真衣 Ph.D.(ツール構築)
COI掲示
本研究遂行にあたって開示すべき
関係にある企業はありません
http://mednlp.jp

similar documents