본문 바로가기

Python/개념익히기34

Python 텍스트 전처리 특수문자 제거하는 방법 학습을 위해 데이터를 가져오다보면 종종(아니 엄청 자주) 텍스트 사이에 특수문자가 있는 경우가 있다. 말뭉치나 문장으로 할 때 좀 더 좋은 성능을 위해 깔끔하게 문장을 다듬는 경우들이 있는데 이럴 때 쓰이고는 한다. (그 외에도 토큰화를 위한다던지 등등 많은 경우들이 있지만) 방법은 크게 2가지가 있는데, 1. replace를 사용하기 replace 메서드를 사용해서 첫번째 파라미터에 바꿨으면 하는거, 두번째는 바꿀거 를 작성하면 된다. 그렇다면 따란 하고 바뀐다. 2. 정규표현식을 사용한 re.sub 파이썬에서 정규표현식을 사용할 때는 import re 를 사용한다. 그 중에서 sub는 정규식을 지정한 문자열을 바꿔주는 메서드이다. 정규식 관련 ▶ https://dev-adela.tistory.com/.. 2023. 11. 3.
시계열 데이터로 다양한 사례 다뤄보기 ebola 데이터를 보면 행과 열을 5개씩 불러보면 시간이 역순으로 정렬되어 있음. ▶ 에볼라가 발생하기 시작한 날을 알기 위해 min 메서드를 사용하여 찾을 수 있음 ▶ Date열에서 최초 발병일을 빼서 진행 정도를 새로운 열로 추가 할 수 있다. ▼ 이 데이터로 해볼거임. ▶ 보면 Closing Date와 Updated Date가 시계열 데이터로 보이지만 확인해보면 object, 문자열이다....속지말자 ㅎ ▶ 그래서 read_csv 메서드의 parse_dates 속성을 이용해 datetime 으로 변환해준다. https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#pandas.read_csv ▶ dt접근자와 quarter속성을 사용해서 .. 2023. 7. 18.
datetime 값 추출하기 - 인덱스 / dt접근자 ▶ read_csv 메서드를 사용해서 parse_dates인자에 datetime 오브젝트로 변환하고자 하는 열의 이름을 전달하여 데이터를 불러옴. ▷ 문자열로 날짜를 담아서 datetime 오브젝트로 변환한것 그러고나면 .year, month, day 속성을 이용하면 년, 월, 일 정보를 따로 추출할 수 있음. - ebola 데이터 집합을 불러온 다음 Date 열을 datetime 오브젝트로 변환하여 새로운 열, date_dt를 추가 그리고 인덱스가 3인 데이터의 년, 월, 일 데이터를 추출 ▲만약 위같이 데이터를 추출해야한다면 인덱스로 불러야하니 귀찮,,, 불편,,,, ▼그래서 dt 접근자로 date_dt열에 한꺼번에 접근해서 year 속성을 이용해 연도값을 추출함 (그리고 새로운 열로 저장) ▶ 위 .. 2023. 7. 17.
날짜와 시간을 처리하는 datetime (1) / 시간형식지정자 - 날짜와 시간을 처리하는 등의 다양한 기능을 제공하는 파이썬 라이브러리 ▶ datetime의 now와 today 메서드를 사용하면 현재 시간을 출력할 수 있음. ▶ 오브젝트를 생성할 때 시간을 인자로 전달하면 직접 입력할 수 있음. 입력한 인자값으로 datetime 오브젝트가 생성됨 ▶ datetime오브젝트는 시간 계산을 할 수 있음. - 때에 따라 날짜/시계 이지만 문자열로 저장이 되어 있는 경우가 있음. ▶ 맨 위에 0행, column을 보면 Date이지만 object로 되어 있음. ▷ to_datetime 메서드를 사용하면 Date 타입으로 바꿀 수 있음. 그래서 바꿔서 새로운 열로 추가해봄 ▶ 시간 형식 지정자, %d, %m, %y와 기호 / 또는 - 를 조합하여 format 인자에 전달하면 .. 2023. 7. 17.