Introduction to Recommendation - 關於 TFIDF
這次上課主要介紹 TFIDF
[原由]
primitive search engine 中, 當user 對某些term做搜尋, 得到的是所有包含這個 term 的結果. 能否根據 documents 中的 term 出現頻率將搜尋結果排序?
問題1: 當user 輸入 "civil" "war", 可能 "civil" 比 "war" 來的有意義.
問題2: user 輸入 "civil" x 10000 跟 "war" x 15000 可能沒多大意義
[定義]
TFIDF = Term Frequency * Inverse Document Frequency
TF: 一個 term 在 一份 document 中出現的次數
IDF: 這個 term 在 documents 中有多稀有
[用途]
1. create a profile of a document/object
2. this TFIDF profiles can be combined with rating to create user profiles, then match against the future profiles.
[Variants and alternatives]
1. 0/1 boolean frq
2. Log (TF+1)
3. normalized frq. [document length]
[可能遇到的問題]
1. core term/concept 沒被使用
2. poor search
[TFIDF的限制]
1. Phrase and n-grams - 像是computer science 不等同 computer 跟 science
2. significance in documents - title, tag, heading 覺其他 term 更有意義
3. general document authority - 像是 google的 pagerank 跟 movie 的 rating 等訊息
4. implied content - 包含的 link, usage 等等
[原由]
primitive search engine 中, 當user 對某些term做搜尋, 得到的是所有包含這個 term 的結果. 能否根據 documents 中的 term 出現頻率將搜尋結果排序?
問題1: 當user 輸入 "civil" "war", 可能 "civil" 比 "war" 來的有意義.
問題2: user 輸入 "civil" x 10000 跟 "war" x 15000 可能沒多大意義
[定義]
TFIDF = Term Frequency * Inverse Document Frequency
TF: 一個 term 在 一份 document 中出現的次數
IDF: 這個 term 在 documents 中有多稀有
[用途]
1. create a profile of a document/object
2. this TFIDF profiles can be combined with rating to create user profiles, then match against the future profiles.
[Variants and alternatives]
1. 0/1 boolean frq
2. Log (TF+1)
3. normalized frq. [document length]
[可能遇到的問題]
1. core term/concept 沒被使用
2. poor search
[TFIDF的限制]
1. Phrase and n-grams - 像是computer science 不等同 computer 跟 science
2. significance in documents - title, tag, heading 覺其他 term 更有意義
3. general document authority - 像是 google的 pagerank 跟 movie 的 rating 等訊息
4. implied content - 包含的 link, usage 等等
Comments
Post a Comment