머신러닝 기본 정리(각 키워드 핵심 내용 말할 수 있어야)

Learning, cost-sensitive learning, 

Inference

open-set protocol/closed-set protocol

hard (negative) mining

Logistic Regression

Naive Bayes

holdout method(non-exhaustive), k-fold cross-validation(non-exhaustive), leave p out cross validation(exhaustive), stratification, 

DB(Data Base), ElasticSearch, 

NLP(Natural Language Processing), LSI(Latent Semantic Indexing), LDA(Latent Dirichlet Allocation), CBOW(Continuous Bag Of Words), Skip-gram(Hiererchical Softmax, Negative Sampling, Subsampling frequent words), FastText(Subword-Information Skip-Gram), IF-IDF, Skip-thought, Co-occurence matrix

(Directed/Undirected)Graphical Model, CRF(Conditional Random Field), HMM(Hidden Markov Method), 

Generative/Discriminative Model

Kernel Method(Positive-Definite Kernel, RKHS(Reproducing Kernel Hilbert Space), Representer Theorem)

Production Quantization

SIFT(Scale-Invariant Feature Transform)

Deep Residual Learning

k-means clustering

k-nearest neighbors

instance-based, model-based,

GAN(Generative Adversarial Network), 

Robo-Advisor

Deep Taylor Decomposition

self-attentive sentence embedding


EM algorithm

Gibbs Sampling

topic model에서의 perplexity, coherence

ReLU, Swish, 

learning rate, iteration, batch size, epoch

batch/standard gradient descent, stochastic gradient descent, mini-batch gradient descent

batch normalization??

unsupervised learning, supervised learning, semi-supervised learning(PU learning)

macro-averaging, micro-averaging,


uniform distribution

hypergeometric(N개 중 M개가 빨간거, K개를 뽑는데 빨간것의 개수가 x일 확률, 정상/불량으로도 가능)

bernoulli(1번 시도 중 성공(x=1)확률)

binomial(N번 시도 중 x번 성공할 확률)

negative binomial(K번째 성공까지 시도한 횟수가 x번일 확률)

geometric(1번째 성공까지 시도한 횟수가 x일 확률)

poisson(주어진 시간 구간 동안 사건이 일어난 횟수)


gamma(sub:chi-squared with degree p of freedom, exponential, related:Weibull, inverse-gamma)

Normal(related:lognormal, cauchy)

(beta부터정리)


Kuller Leibler Divergence(DL(P||Q))

Frobenius norm

textual entailment

self-attention

scikit-learn tokenizer


Pearson Correlation Coefficient, Spearman's Correlation Coefficient

Deep Taylor Decomposition

A Structured Self-attentive Sentence Embedding




논문정리

2018, Multi-task learning for author profiling with Hierarchical Features


내용:

character-level feature representation, 한 word w당, char sequence얻고, 각 char마다 one-hot encoding한 다음에 weight W 곱, 이후 각 char마다 얻어진 representation을 LSTM1 input으로 사용, 이후 각 char마다 얻어진 LSTM hidden state 중 마지막 char에 해당하는 state를 word의 representation으로 보고, 각 word의 representation들을 다시 LSTM2에 넣고 LSTM2의 마지막 word에 해당하는 hidden state를 non-linear layer 하나 통과 시킨 것을 document의 character-level feature로 사용(T-dim)

word-level feature representation, 한 document x당, 여러 filter, 여러 window size로 CNN을 돌려 여러 features를 얻은 다음 max-over-time pooling사용하여 얻은 것을 fully connected non-linear layer 통과시킨 것을 document의 word-level feature로 사용(T-dim)

topic-level feature representation, 구축한 LDA를 바탕으로, 한 document의 topic distribution을 non-linear layer 통과시킨 것은 document의 topic-level feature로 사용(T-dim)

이후 3개의 representations을 pointwise multiplication한 결과를 softmax에 넣어 classification(남자/여자, 나이, job), multi-task

학습은 cross-entropy 함수를 각 task마다 L_age, L_gender, L_job 설정한 뒤, L=L_age + L_gender + L_job한 L을 minimize하게 learning


의의:

topic level representation없이 했을 때가 성능이 가장 떨어짐, 따라서 topic level feature의 영향력이 크다

multimodal, early fusion을 사용한 것이고, pointwise multiplication이용


2015, A Review and Meta-Analysis of Multimodal Affect Detection Systems

핵심:

MM과 UM의 90가지 결과들을 비교해서, 언제 MM쓰는게 좋은지 안좋은지 분석


Research Questions:

2015년 당시 MM의 trends?(training data로 뭘 쓰는지, fusion은 어케하는지, 등)

MM을 써서 나타난 효과가 무엇인지?

시스템레벨로봤을 때, MM의 구체적형태를 보고 accuracies를 predict할 순 없는지


결론:

MM쓰면 modest하게 improvement가 보통 있더라

왜 modest정도밖에 안되냐?

multimodal data를 활용을 덜해서? 

multimodal model이 덜 complicated해서?

애초에 애매하게정의된 emotion이라는 것에 대한 연구가 부족해서?


recommendations for future work

1. 높은 정확도의 nonauthentic context, person dependent 보다는 naturalistic context의 낮은 정확도가 훨씬 값어치가 있다.

2. 아무리 좋은 결과라도 비교가 없으면 덜 중요해진다.

3. 혼동 및 좌절 같은 감정에 대한 탐색해보기

4. model-fusion with time-varying relationships among different modalities

5. crowd-sourcing 혹은 적은 annotated data만으로도 가능한 semisupervised learning 이용


2018, Multimodal Machine Learning:A Survey and Taxonomy


2018, Efficient Large-Scale Multi-Modal Classification


2017, Deep Multimodal Learning, A survey on recent advanced and trends


2018, Deep Imbalanced Learning for Face Recognition and Attribute Prediction


2018, Recent Trends in Deep Learning Based Natural Language Processing


2017, A Structured Self-attentive Sentence Embedding


2017, Distance measures in author profiling


2018, Emphasizing personal information for Author Profiling_ New approaches for term selection and weighting


2009, LDA를 이용한 대용량 블로그 문서 처리


+ Recent posts