전체 글 57

[GCN] Graph Convolution Network에서 샘플링을 안해볼 순 없을까..?

랜덤워크의 시퀀스 생성 단계에서 갑자기,, 의문이 생겼다...  샘플링 안하면 어떻게 되는데...?   라는 생각이 계속 들었다.. GCN에서 노드와 엣지를 만들고 난 뒤, 시퀀스 데이터를 생성하는 단계에서 여러가지 방법론들을 배우며 시작되었다 ㅋㅋㅋ 모든 노드에서 시작되는 시퀀스를 생성하고, 한 시퀀스 당 길이를 설정하고, 한 노드 당 랜덤워크를 생성하는 횟수를 결정하고, BFS(넓이우선탐색)/DFS(깊이 우선탐색) 을 각각 어느정도로 적용할건지 설정하고.. 이런 방법론들을 배우면서 말이다.. 타 알고리즘들이랑 샘플링기법들 다 잘 배워놓고.. 정보 과잉의 문제점에 대해서도 잘 배워놓고... 모델 돌려놓고 오래 걸려서 발 동동 굴러보고도... 왜 갑자기 이러는지는 나도 모르겠다..  암튼 나 스스로에게 ..

대학원 일기 2024.10.10

[성균관대 데이터사이언스융합] 기댓값과 분산의 성질을 왜 외워야 하는가..

요즘에 통계학을 다시 듣고 있는데(3번째인데 볼때마다 새로움..) 도전 과제에 봉착했다.. 데이터사이언스를 공부하면서 비로소 수학과 통계에 뜻을 두게 된 건, 이 학문이 "실제 우리가 살고 있는 세계를 읽어내는 데 도움이 되는 것" 을 몸소 느껴봤기 때문이었다. 그래서 더 잘하고 싶고, 계속 궁금해졌었는데... 오늘 통계학 듣다가 기댓값과 분산의 성질을 쭉 써주시는데 갑자기 아득해지면서 ㅋㅋㅋㅋ 정신이 산란해지기 시작. (갠적으로 존경하는 교수님의 강의.. 이지만 외우기 싫은 것과는 별개인 것 같다..) 그래서 구체적으로 기댓값 E(X) 와 분산 V(X)의 개념이 어디에 쓰이는지 좀 적으면서 공부에 대한 셀프 동기부여를 해보고자 한다. 결론부터 말하면 MSE, RMSE, R^2(결정계수) 와 관련이 있다..

대학원 일기 2024.10.08

STAD-GCN: Spatial-Temporal Attention-based Dynamic Graph Convolutional Network for retail marker price prediction

멋진 대학원 동기의 논문.. Graph Convolutional Network 를 이용해서 위치 정보 반영해서 주유소 가격을 예측하는 STAD-GCN 을 소개하는,, 그러한 논문이다. 그렇다.. 끝까지 읽어야 직관적 요약이 가능한데 아직 읽지 못했다..완벽히 분석해서 논문 리뷰를 하겠다고 시작했지만 결국 진도가 나가지 않아 우선 업로드.. 그래프 CN,, 넘 어려워서 앞이 깜깜하긴 하지만,, 시간 날때마다 업데이트 하겠다.1은 건너뛰고 RELATED WORKS 부터 보는 중이다. 원문 링크: https://www.sciencedirect.com/science/article/abs/pii/S0957417424014209저자: Sodam Kim, Eunil ParkGithub: https://github.c..

생존분석: 시간에 따른 사건 발생(하지 않을)확률 모델(Survival Analysis for Modeling Singular Events Over Time)

9. Survival Analysis for Modeling Singular Events Over Time (출처: https://peopleanalytics-regression-book.org/survival.html) 본 포스팅은 위 링크 문서(Handbook of Regression Modeling in People Analytics)를 한국어로 번역한 것입니다. "Handbook of Regression Modeling in People Analytics: With Examples in R, Python and Julia" was written by Keith McNulty. *본 내용의 심화된 포스팅은 PA201스터디 페이지(추후 추가 예정) 에 업로드 될 예정입니다. 이전 장에서 우리가 모델링..

[선형대수] Norm(노름) 어디에 쓰는걸까

1. 선형대수에서 Norm(노름) 이란? 벡터의 '길이' 또는 '크기'를 측정하는 방법(함수)을 말함. 벡터 공간에 구조를 부여하고, 벡터 간의 거리나 벡터의 크기를 비교하는 데 사용됨. 딥러닝에서 사용되는 노름과 관련하여 이론적인 부분은 더 잘 정리해놓은 다른 글들을 참고하면 더 좋다! (출처: taewan.kim 블로그) 딥러닝을 위한 Norm, 노름 Norm의 정의와 특징을 정리합니다. taewan.kim 2. Norm(노름) 이 만족시켜야 하는 성질 비음수성(Non-negativity): 모든 벡터 에 대해, 노름은 음수가 아니어야 함. 결정성(Definiteness): 노름이 0인 경우는 벡터가 영벡터일 때뿐임. 동차성(Homogeneity) 또는 스케일 불변성: 스칼라와 벡터에 대해, 이들의 ..

[인문학] 고명환 연사 초청 세션

오늘은 선형대수와 통계학으로 점철된 나의 뇌를.. 인문학으로 조금 말랑하게 해본 날이다. 대학원 일기는 아니고 회사 일기지만,, 대학원에서 쓰고 있으므로 대학원 일기(?) 회사에서 초청한 고명환작가님 강의를 들었는데,, 정말 큰 기대를 안하고 들었는데,, 쿠키가 맛있다고 해서 신나게 갔는데;; 두시간이 어떻게 갔는 지 모를 정도로 재미있게 들었다. 개그맨 분들이 똑똑하다는 생각을 항상 했었는데 오늘도 또 느꼈다. 오랜만에 좋은 시간이었어서 강의 자체의 요약이라기 보다는 강의에서 뻗어나온 것들을 정리해보려 한다. 생각나면 조금씩 추가해야지. 1. 루트비히 비트겐슈타인 1889. 4. 26~ 1951. 4. 29 오스트리아 태생 영국의 철학자. 1925~50년 영국 철학계에서 가장 영향력 있는 철학자 중 한..

대학원 일기 2023.11.07

군집분석(Clustering Analysis) 정리 - A. 개괄, 활용 예시

1. 군집분석을 어디에 쓰는가? 적용 예시: 어떤 대상들 사이의 공통적 취향/성질 규명 > 그룹화 -> 타겟팅 가능한 모든 것. 주로 타겟광고에서 쓰임 (고객 그룹화 -> 공통적인 취향/성질 별로 다른 광고 제공) 1.5. 인사(Human Resources)영역에서의 응용 예시? 직원의 성과 분류 및 교육 지원: 직원의 성과나 생산성에 따라 그룹을 나누고, 특정 그룹에게 필요한 지원 및 교육 훈련 결정에 사용 직무 만족도와 이직 의도 분석: 직원들의 만족도, 이직 의도, 커리어 발전 등의 다양한 변수를 기반으로 군집화하여 특정 그룹의 요구나 우려사항을 파악 내/외부 채용 관리(가장 직관적인 예시일 듯): 지원자의 스킬, 경험, 학력 등의 변수를 군집화하여 최적의 인재 프로필을 찾거나, 특정 직무에 가장 ..

[성균관대 데이터사이언스융합] 대학원 생활 이모저모

요즘 원서접수 시즌이라 그런지 대학원 생활에 관한 질문을 엄청 받고 있다.. 회사생활 하고 있는 (학창시절) 친구들.. 회사 안팎 친구들/지인들로부터 받는데 ... 보니까 질문도 순서가 있다. step1. (생각만 하는중) 나 비전공자잖아 너처럼 대학원 가도 돼?? 빅데이터가 유망해서 그쪽 생각하고 있는데... 석사가 필요하다 그래서.. step2. (대학원 알아보는 중) 특수대학원이랑 일반대학원이랑 뭔 차이야..? step3. (거의 다 알아보고 가야겠다고 마음을 굳히는 중) 장학금같은건 없어? 이 글이 정보성 글이 되려면 몇 번은 다듬어야 할 것 같아서, 일단은 아주 두서없이 내가 최근 대학원 생활을 하면서 느낀 것들을 써보려고 한다. 아마 위 질문들에 대한 답이 어렴풋이 나올 것이다. 모든 것들은 ..

대학원 일기 2023.10.20

[성균관대 데이터사이언스융합] 논자시(논문제출자격시험).. 후기

논문제출자격시험 오늘 논문제출 자격 시험 결과가 나왔다! 쉽다면 엄청 쉽고 어렵다면 끝없이 어려울 수 있는 시험이라 (서술형) 떨어졌을까봐 문자 왔을 때 엄청 쫄았다ㅎㅎ 다행스럽게도 결과는 합격!! 합격 기념으로 오랜만에 블로그에 글이나 써야겠다. 그동안 블로그에 좀 소홀했던 것 같아서 앞으로는 편안하게 대학원 생활 이것 저것을 올려보려고 한다!! 오늘의 주제는.. 통과해야만 논문 제출의 자격이 부여되는... 논문자격시험.. (줄여서 논자시).. 그냥 졸업 준비의 시작.. 정도로 보면 될 것 같다. 이걸 통과하면 이제 논문 대장정이 시작된달까.. 미루고 미뤄 오다가... 만약 한두번 떨어지면 졸업이 쭉쭉 밀릴 수 있다는 불안감에 부랴부랴 3기가 되어서야 신청했다. 기계학습특론 우리 학과는 기계학습특론 (..

대학원 일기 2023.10.12

Model Analysis(모델 분석) 기초

간단한 이론이지만 강의 복습을 하며 스토리처럼 다시 정리해보도록 한다. 똑같은 데이터로 model A, model B, model C.. 여러가지 모델을 만들 수 있다. 이 중 어떤 모델을 사용할 것인가를 우리는 어떻게 결정할 수 있을까? 1. Overfitting vs Generalization 10개의 데이터 샘플 존재, x축 scale은 0~1, t축 scale은 -1~1이다. Linear 하지 않고 (0-1차원이 아니라) Polynomial 이라 가정할 때 (2차원 이상), 몇차원의 Polinomial을 가져가면 될까? 의 문제이다. 어떻게 선을 그어야 에러가 가장 적을까? 에러라는 측면에서 봤을 때는 0차원보다 1차원이 에러를 줄일 수 있었다. 그렇다면 9차원일때가 베스트라는 건가? 딱딱 맞으니..