본문 바로가기

NLP

(12)
[CS224N] Lecture 2: Word Vectors, Word Senses, and Neural Network Classifiers 본 게시글은 Stanford CS224N NLP with Deep Learning 강의를 들으면서 내용을 정리한 것입니다. Word2Vec 1. Review : Main Idea of word2vec 거대한 corpus가 존재하고, 각 corpus 내 단어 position으로부터 center word를 둘러싸고 있는 다른 word를 예측하는 방법. random word vector부터 시작해서 전체 corpus 내 모든 단어들을 대상으로 계산됨. word vector를 활용해서 주변 단어들을 예측하고자 함. $P(o|c) = \frac{exp(u_0^T v_c)}{\sum_{w \in V} exp(u)w^T v_c)}$ Learning : 주변의 단어들을 더 잘 예측할 수 있도록 vector를 업데이트...
Subword Tokenizer - BPE, WordPiece 본문은 딥러닝을 이용한 자연어처리 입문과 WordPiece Tokenization 을 참고하여 작성되었습니다. ▶ Introduction OOV(Out of Vocabulary)문제나 UNK(Unkown Token) 문제. 아무리 많은 단어를 학습시켜도, 세상의 모든 단어를 학습하지는 못함. 만약 모르는 단어가 등장하게 되면 기계가 문제를 풀 때 굉장히 어려워짐. 이와 같이, 모르는 단어로 인해 문제를 해결하는 것이 까다로워지는 상황을 OOV문제라 한다. Subword Segmentation - 서브워드 분리 작은, 하나의 단어는 더 작은 단위의 의미있는 여러 서브워드들의 조합으로 구성된 경우가 많기 때문에 하나의 단어를 여러 subword로 분리해서 단어를 인코딩 및 임베딩 하는 전처리 작업을 의미한다..
An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition Baoguang Shi, Xiang Bai, Cong Yao의 'An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition' 논문을 읽고 정리해 보고자 한다. [Abstract] 이미지 기반 sequence recognition. 해당 논문에서는 scene text recognition(STR)의 문제에 대해 살펴보고, 본 논문의 방법론을 제안함. 특징 추출, 시퀀스 모델링, 그리고 transcription을 통합된 프레임워크로 통합시키는 neural network 구조를 제안한다. 기존의 STR과 비교했을 때, 제안된 구조는 4가지 구분되는 특징..
StarSpace ** 다음은 https://www.youtube.com/watch?v=ZT3_9Kjx7oI 와 https://velog.io/@mingqook/StarSpace-Embed-All-The-Things 블로그를 참고해 작성중인 게시글입니다. Text Classification, Document Embedding 등의 NLP task 뿐 만 아니라 recommendation, knowledge graph에도 폭 넓게 활용할 수 있으며 좋은 성능을 보이는 Embedding 논문. $d_1$ This food was great! # Pizza $t_1$ $d_2$ I love vaggie pizza # positive $t_2$ $d_3$ cheap Italian Restaurant # italian $t_3$ ..