반응형
검색엔진은 웹사이트의 정보를 가져오기 위해서 각 검색엔진마다 검색로봇을 사용하여 정보를 수집한다.
정보 수집을 위해서 검색로봇은 웹사이트의 robots.txt 파일을 읽어서 필요한 정보를 수집한다.
홈페이지 검색 시 favicon이 익스플로러 창으로 보이거나 다르다면 [웹사이트주소/robots.txt] 접속해서 파일을 확인해본다.
robots.txt가 없다면 작성해서 업로드 해주면 자동으로 검색엔진이 수집해서 favicon을 바꿔준다.
(단, 수집 주기는 엔진마다 차이가 있어서 몇시간에서 며칠이 걸릴 수 있다. 구글이 좀 더 오래걸리는듯..)
기본 작성 방법
파일명 | 반드시 robots.txt으로 설정 |
파일 위치 | - 반드시 루트 디렉터리(/)에 위치 (아니면 효력 없음) |
파일 내용 | - 대/소문자를 구분함 |
띄어쓰기 주의 | - User-agent, Allow, Disallow 등의 필드와 콜론(:)은 붙어야함 - 콜론(:) 이후 공백이 하나 추가되고 내용이 이어짐 |
줄 바꿈 | - 다중 검색로봇 지정 시, 한 줄을 띄워야함 User-agent: 로봇명1 Disallow: / User-agent: 로봇명2 Disallow: / |
설정 예시
robots.txt | 허용/차단 내용 |
User-agent: * Disallow: / |
- 모든 검색로봇(*)에 대해 웹사이트 전체(/)에 대한 접근(크롤링) 차단 |
User-agent: Googlebot User-agent: Yeti Disallow: (또는 Allow: /) |
- Googlebot, Yeti 검색 로봇에 대해 웹사이트 전체 접근 허용 - [Disallow: 공백]의 경우 웹사이트 전체 허용 (Allow: / 와 동일) |
User-agent: * Disallow: /cgi-bin/ Disallow: /private/p.html |
- 모든 검색로봇(*에) 대해 /cgi-bin 디렉터리 및 /private/p.html 페이지 접근을 차단 |
User-agent: Googlebot-image Disallow: /*.pdf$ Disallow: /*? |
- Googlebot-image 검색 로봇에 대해 .pdf로 끝나는 URL 및 ?가 포함된 모든 URL 차단 |
출처 : https://isc9511.tistory.com/115
네이버는 Yeti, 구글은 Googlebot을 로봇명으로 사용한다. 일반적으로 회원정보나 검색시 접근이 필요 없는 것은 Disallow 하고, favicon 이미지 같은 검색 시 필요한 정보들만 Allow를 해준다.
좀 더 빠르게 적용하고 싶으면 네이버[Search Advisor], 구글[Google 검색센터]에서 홈페이지 인증을 하면 더 빠른 수집이 가능하다.
홈페이지 인증 방법은 다음에 포스팅 하도록 하겠다.
반응형
'개발 > 개발팁' 카테고리의 다른 글
홈페이지 카카오, 유튜브, 블로그 링크 아이콘 만들기 (0) | 2023.08.17 |
---|---|
반응형 모바일 overflow 적용 안됨(오른쪽 흰 줄) (0) | 2023.08.16 |
이미지 수정, 무료 아이콘 사이트 (0) | 2023.07.27 |
API 키 없이 구글맵 사용하기 (0) | 2023.07.27 |
API 키 없이 카카오맵 사용하기 (0) | 2023.07.27 |