본문 바로가기

전체 글307

SQL DISTINCT, ORDER BY - DISTINCT : 중복된 데이터를 제거하고 출력하고 싶을 때, 작성하면 UNIQUE한 값만 출력됨. - DISTINCT 대신 UNIQUE를 사용해도 됨. - ORDER BY : 정렬해서 출력하는 SQL. 오름차순은 ASC(ASCENDING), 내림차순은 DESC(DESCENDING). > ORDER BY sal ascending = ORDER BY sal asc 1~2. EMP 테이블로부터 이름월급선택 3. 월급 낮은 값부터 높은 순으로 정렬 ▶ order by 는 맨 마지막에 작성되는 것만큼 맨 마지막에 실행되기 때문에 컬럼 별칭을 사용 가능 ▶ 부서 번호(DEPTNO)를 먼저 ascending 하게 정렬하고 정렬된 부서 번호 기준으로 월급(SAL)을 descending 하게 정렬하고 있음. (작.. 2023. 8. 27.
SQL SELECT, * , AS, 연결연산자(||) 사용하기 * empno(사원번호), ename(사원이름), sal(월급)을 EMP 테이블로부터 선택해서 화면에 출력 * SELECT > 선택하라는 명령어, > 테이블로부터 출력하고 싶은 컬럼 이름을 콤마(,)로 구분지어 작성 > FROM 절 다음에는 가져올 테이블 > * 을 사용하면 모든 열과 모든 행을 출력할 수 있음. > 아니라면 모든 열을 SELECT 절에 일일이 나열해줘야 하는 불편함이 있음. > 모든 컬럼을 부르고 특정 컬럼을 한번더 부르고 싶다면 * 앞에 '테이블명.' 을 붙여주고 한번 더 출력하고자 하는 컬러명을 작성하면됨. > 컬럼명을 변경해서 출력하고자 할 때 사용됨. : 이것이 컬럼 별칭(column alias) > 따옴표를 써야할 때는 : 대소문자 구분할때, 공백문자 출력할때, 특수문자($,_.. 2023. 8. 27.
머신러닝 교차검증을 보다 간편하게 해주는, cross_val_score() 1. 폴드 세트를 설정하고 2. for 루프에서 반복으로 학습/테스트 데이터의 인덱스를 추출하고 3. 반복적으로 학습/예측을 수행하고 예측 성능을 반환했음. ▶ 이를 간단하게 한꺼번에 해주는 API https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html#sklearn.model_selection.cross_val_score corss_val_score(estimator = Classifier/classifier냐 알고리즘 뭐냐, X=피쳐, Y=레이블 , scoring=예측 성능 평가 지표, cv= 교차검증폴드 수) ▷ classifier는 Stratified KFold 방식으로 되고, Reg.. 2023. 8. 22.
머신러닝 Stratified K 폴드 - 불균형한(imbalanced) 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K 폴드 방식 - 불균형한 분포도 : 특정 레이블 값이 특이하게 많거나 매우 적어서 분포가 한쪽으로 치우치는 것 ex. 대출사기데이터가 있음. 데이터 세트는 1억 건이고, 수십 개의 피처와 사기여부 O/X인 종속변수가 있음. > 이런 경우에는 당연히 대출 사기가 아주아주 적겠지? > 예를 들어 대출 사기건수가 1억 개중에 약 1000건이 있다고 한다면 0.0001%임. > 그래서 이걸로 K 폴드로 랜덤하게 학습 및 테스트 세트를 나눈다면 비율이 제대로 나눠지지 않는 경우가 생김 >> 즉, 사기 O 가 한쪽에 쏠릴 수도 있고, 아예 없을 수도 있음 > 하지만 대출 사기를 예측하기 위한 거니까 매우매우매우 중요한 세트라.. 2023. 8. 22.
데이터 전처리 공공데이터 분석 - 햄버거 상가 분석 정보 여기 파일을 사용할 예정 https://www.data.go.kr/data/15083033/fileData.do#tab-layer-file - koreanize_matplotlib as plt 로 하나만 써도됨. 기존 맷플로립에 한국어버전을 올린거라 마운트 작업을 해야 구글 드라이브의 내가 올린 파일들이 보인다, 연결시킨다는 의미. 붙인다는 의 (구글드라이브 마운트, 끊는건 언마운트) 그리고 파일 불러오기 unzip 을 이용하여 코랩에서 직접 압축파일을 풀수도 있다 (왜 한글이 깨져서 나올까..ㅎ) 깨져서 나오는거 바꾸는 방법을 알아보쟈 (유니코드쓰면될것같은데..?) ▼ 불러오니 이렇게 지역별로 묶어져 있는 것을 볼 수 있음. 리스트 형태로 나와서 만약 3번째에 있는 서울의 내용을 불러오고 싶다면 인덱스.. 2023. 8. 22.
Proj 콤프레샤 모터의 이상감지 * 설비이름_VOLT_N상 : 설비이름/N상 전압(단위:V) (Type: float64) * 설비이름_VOLT_AVG : 설비이름/평균 전압(단위:V) (Type: float64) * 설비이름_CURR_N상 : 설비이름/N상 전류(단위:A) (Type: float64) * 설비이름_CURR_AVG : 설비이름/평균전류(단위:A) (Type: float64) * 설비이름_KW : 설비이름/유효전력(단위:KW) (Type: float64) * 설비이름_KVAR : 설비이름/무효전력 (단위:KVAR)(Type: float64) * 설비이름_HZ : 설비이름/주파수 (단위:HZ) (Type: float64) * 설비이름_PWR_FACTOR : 설비이름/역률 (단위:%) (Type: float64) * 설비이름_.. 2023. 8. 21.
웹크롤링 - 네이버뉴스제목 / 홈페이지 공지사항 제목 가져오기 - 좀더자세히공부할필요가있음 - 웹에서 어떤 데이터(또는 정보)를 얻기 위한 방법 - API : https://dev-adela.tistory.com/44 - 한번 연결하고 닫음. 계속 연결이 되어있는 것이 아니라 요청했을때마다 열고 필요한것만 보내주고 연결 끊음. - 짧은 시간 동안 지속적인접속을 하면 서버에 부하를 줄 수 있음. > 거부를 당할 수 있음 - robots.txt 를 통해 서버에 만들어 두고 있는데. 크롤러에게 허용가능한 부분들 보여줌 - User-agent : * Disallow: / Allow : /$ ( 그이하의 디렉토리는 다 ㄱㅊㄱㅊ) > 구글같은 경우에는 이렇게 https://developers.google.com/search/docs/crawling-indexing/robots.. 2023. 8. 21.
ADsP 3과목 데이터분석 정리(2) - 일반화의 가능성 : 같은 모집단 내 다른 데이터에 적용할 때도 안정적인 결과를 제공하는 것을 의미. 데이터를 확장하여 적용할 수 있는지에 대한 평가 기준 - 효율성 : 분류분석 모형이 얼마나 효과적으로 구축되었는지를 평가하는 것. 적은 입력 변수를 필요로 할수록 효율성이 높다 - 예측과 분류의 정확성 : 구축된 모형의 정확성 측면에서 평가하는 것으로 안정적이고 효율적인 모형을 구축하였다하더라도 실제 문제에 적용했을 때 정확하지 못한 결과만을 양산한다면 그 모형은 의미를 가질 수 없다. - training, validation, test dataset으로 나누어 모형의 성과를 검증 - 과적합(Overfitting)문제를 해결하고 잘못된 가설을 가정하게 되는 제 2종 오류의 발생을 방지할 수 있음. 학습.. 2023. 8. 19.
ADsP 3과목 데이터분석 정리 (1) - 최댓값 : Q3 + 1.5(Q3-Q1), 최솟값: Q1 - 1.5(Q3-Q1) - 사분위수 범위 = Q3 - Q1 - IQR 의 크기가 클수록 분산이 크다 - ESD 알고리즘은 평균으로부터 3*표준편차만큼 떨어져 있는 값들을 이상값으로 판단한다. - 확률적 추출 > 단순무작위추출 : 제비뽑기 > 계층 추출 : 일정간격으로 다음 표본 선택 > 층화추출 : 성격에 따라 몇 개의 집단 또는 층으로 나누고, 각 집단 내에서 원하는 크기의 표본을 무작위로 추출 > 군집추출 : 특성에 따라 여러개의 집단(cluster)으로 나눈다. 이들 집단 중 몇 개를 선택한 후, 선택된 집단 내에서 필요한 만큼의 표본을 임의로 선택 - 척도 : 측정을 위해 부여한 숫자들 간의 관계를 의미 > 명목척도 : 단순히 측정 대상의.. 2023. 8. 18.