首页 > 其他分享 >信息收集介绍与方法

信息收集介绍与方法

时间:2024-11-16 22:15:31浏览次数:3  
标签:www 网页 收集 url 信息 网站 域名 介绍 com

补天漏洞平台

1.工商数据收集-------->了解公司信息,收敛测试目标

思路----------->拿到目标公司名之后,先不要着急直接开始收集子域名,先统计好这家公司的股权架构,一般50%控股的可以算作有效目标,子公司资产将为我们提供不少的边缘业务系统

通过股权穿透图收集完子公司名称后,网站备案、对外发布的产品,法人电话和邮箱同样也是比较重要的数据

用处:
①获取控股子公司名称,收集边缘子公司资产
②获取备案根域名(主站点域名)
③获取其他互联网资产
④收集用户名等信息
第一步:查看cdn,域名注册信息---->爱站link
找被注册的(检查哪些后缀被注册过的,访问一下和站点有没有直接性的关系)
站长之家 ->link
利用查询到网站管理员手机号码、姓名、邮箱通过Whois反查查询出网站管理员、所注册过的域名,可
以对注册的其他域名进行漏洞挖掘。
微步 link
cdn:内容分发网络,cdn公司设置网络节点,对网站信息加速,导致有一定的概率查不到网站的真实ip,
网站内容的加速器,起到中转加速的作用
win+r->cmd->nslookup+域名(查询cdn网址)
第二步:查找子域名,确定资产
微步查找子域名(遍历访问)
国外的IP地址查询网站https://who.is/(防止双地址)
阿里云域名信息查询https://whois.aliyun.com
腾讯查询https://whois.cloud.tencent.com/
中国互联网信息中心http://ipwhois.cnnic.net.cn/
国家企业信用信息公示系统http://www.gsxt.gov.cn/index.html
icp备案查询网https://www.beianx.cn/
Icp备案查询-站长工具http://icp.chinaz.com/
天眼查https://www.tianyancha.com/
(根据前面获取的企业名称可以获取目标企业的微信公众号、微博、备案站点、app、软件著作
权信息)
企查查https://www.qcc.com/
站长-SEO综合查询http://seo.chinaz.com/
第三步:IP反查
将收集的网站整理出来,通过企查查搜索信息,整理社工信息
通过各大威胁情报集团的搜索引擎 尽可能全面的收集有用的攻击面 然后查看他各大子域名平台是
否有关联链接 子域名友链等等一系列的信息泄露 把我们的信息收集做到极致 把我们的攻击面扩充到最

Google
通过Google语法来收集特定资产的敏感信息
intext 寻找正文中含有关键字的网页 intext:后台登录 将只返回正文中包含 “后台登录” 的网页
intitle 寻找标题中含有关键字的网页 intitle:后台登录 将只返回标题中包含 “后台登录” 的网页
intitle:后台登录 密码 将返回标题中包含"后台登录"而正文中包含密码的网页
allintitle 用法和intitle类似,只不过可以指定多个词 alltitle:后台登录 管理员 将返回标题中包含 “后台登
录” 和 “管理员” 的网页
inurl 将返回url中含有关键词的网页 inurl:Login 将返回 url 中含有 Login 的网页
allinurl 用法和inurl类似,只不过可以指定多个词 allinurl:Login admin 将返回 url 中含有 Login 和
admin的网页
site 指定访问的站点 site:baidu.com inurl:Login 将只在 baidu.com 中查找 url 中含有 Login 的网页
filetype 指定访问的文件类型 site:baidu.com filetype:pdf 将只返回 baidu.com 站点上文件类型为 pdf 的
网页
link 指定链接的网页 link:www.baidu.com 将返回所有包含指向 www.baidu.com的网页
related 相似类型的网页 related:www.xjtu.edu.cn 将返回与 www.xjtu.edu.cn 相似的页面,相似指的是
网页的布局相似
info 返回站点的指定信息 info:www.baidu.com 将返回百度的一些信息
define 返回某个词语的定义 define:Hacker 将返回关于 Hacker 的定义
cache 网页快照,谷歌将返回给你它存储下来的历史页面 cache:www.hackingspirits.com
guest 将返回指定网站的缓存,并且正文中含有guest
Github
全球最大的程序员的资源社区,源码泄露,但是真正找的源码的案例可能很少,可能是你用的方法有
问题,网站域名、网站JS路径、网站备案、网站下的技术支持这些都可以放进去GitHub搜
(图标)信息收集
1.fofa
2.钟馗之眼
3.鹰图

APP信息收集

***1.七麦数据 https://www.qimai.cn/
2.微信公众号和小程序
通过微信搜索公众号并去关注,然后进去点击文章之类的,下拉可以看到它的网页来源,大部分是微信提供
的,所以需要去阅读原文,但是原文也可能是第三方提供的,所以还需要自己自行去判断,找到它的url后又可以去爆
一波子域名了
3.logo
当你不确定目标产品是什么时,比如你不知道他是谁家的WAF或者路由器,可以利用查看网站logo地址,然
后复制logo地址,点击按图片搜索,到谷歌里面查询;也可以把目标logo下载下来,利用上传图片来查询,通过搜索
出来的结果可以判断目标产品和厂商。
4.favicon.ico
首先先来介绍一下什么favicon.ico文件,所谓favicon,便是其可以让浏览器的收藏夹中除显示相应的标题
外,还以图标的方式区别不同的网站。favicon.ico也被称为 website icon(网页图标)、page icon(页面图标)或url
icon(URL图标),具体细节请问度娘。下面这个小东西就是 Favicon.ico,我们可以通过在shodan里寻找它的哈希并
去查找相关资产,打开shodan页面,或者用shodan插件都行。
第四步:端口信息
namp -sT ip/域名
访问IP/域名加端口
第五步:针对单个网站(wappalyzer)
Web指纹定义:Web指纹是一种对目标网站的识别技术,通过识别网站所使用的服务器、运行的脚本、
安装的CMS等信息对目标进行精准的分类和定位。Web指纹识别可以帮助安全研究人员在安全测试中
快速了解目标网站的基本信息,有助于搜索其相关漏洞。
Wappalyzer是一款功能强大且非常实用的Chrome网站技术分析插件,通过该插件能够分析目标网
站所采用的平台构架、网站环境、服务器配置环境、JavaScript框架、编程语言、中间件架构类型等参
数,还可以检测出CMS的类型。
指纹识别:TideFinger(python3版增加了wappalyzer,并且进行了去重),https://github.com/TideSec/Ti
deFinger
whatwebhttps://github.com/urbanadventurer/WhatWeb
WhatWeb是一个开源的网站指纹识别软件。可识别Web技术,包括内容管理系统(CMS),博客平
台,统计/分析包,Javascript库,服务器和嵌入式设备。它有超过1000个插件,每个插件都能识别不
同的东西。WhatWeb还标识版本号,电子邮件地址,账户ID,Web框架模块,SQL错误等
使用:
whatweb www.target.com #扫描单个域名
whatweb -i target.txt #批量扫描
whatweb www.target.com --log-xml=baidu.xml #保存结果
whatweb --no-errors -t 255 内网网段 #快速本地扫描(扫描内网主机)
-i 指定要扫描的文件
-v 详细显示扫描的结果
-a 指定运行级别,1-4
Finger 一款红队在大量的资产中存活探测与重点攻击
系统指纹探测工具。
waf:
判断安全狗、阿里云云盾、360网站卫士、护卫神等WEB应用程序防火墙,便于采取绕过WAF的
办法。
Nmap探测WAF有两种脚本。
一种是http-waf-detect。
命令:nmap -p80,443 --script=http-waf-detect ip
一种是http-waf-fingerprint。
命令:nmap -p80,443 --script=http-waf-fingerprint ip
网络深度爬虫:
以www.sina.com.cn为例,我们使用正则表达式抓取页面以sina.com.cn结尾的所有的URL(一级深度)
下面展示一些 内联代码片

\#!/usr/bin/env python 1
\# coding=utf-8 2
\# [email protected] 3
\# create=20160701 4
import re 5
import requests from pprint 6
import pprint 7
def crawl_page(url, domain): 8
 print('[*] Crawl URL: {0}'.format(url)) 9
 found_url = set() 10
 req = requests.get(url, timeout=15) 11
 content = req.text 12
 link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", content) 13
 for url in link_list: 14
 result = re.findall('http[s]?://(.*?)\.sina\.com\.cn', url) 15
 if len(result) > 0: 16
 found_url.add('{0}.{1}'.format(result[0], domain)) 17
 pprint(found_url) 18
if __name__ == '__main__': 19
 page_url = 'http://www.sina.com.cn/' 20
 main_domain = 'sina.com.cn' 21
 crawl_page(page_url, main_domain)
\#!/usr/bin/env python 1
\# coding=utf-8 2
\# [email protected] 3
\# create=20160701 4
import re 5
import requests from pprint 6
import pprint 7
def crawl_page(url, domain): 8
 print('[*] Crawl URL: {0}'.format(url)) 9
 found_url = set() 10
 req = requests.get(url, timeout=15) 11
 content = req.text 12
 link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", content) 13
 for url in link_list: 14
 result = re.findall('http[s]?://(.*?)\.sina\.com\.cn', url) 15
 if len(result) > 0: 16
 found_url.add('{0}.{1}'.format(result[0], domain)) 17
 pprint(found_url) 18
if __name__ == '__main__': 19
 page_url = 'http://www.sina.com.cn/' 20
 main_domain = 'sina.com.cn' 21
 crawl_page(page_url, main_domain)

oneforall https://github.com/EASY233/Finger
https://github.com/shmilylty/OneForAll
目前支持一键收集:子域、子域常用端口、子域Title、子域状态、子域服务器等
subdomainbrute https://github.com/lijiejie/subDomainsBrute
高并发的DNS暴力枚举工具
Layer
Layer子域名挖掘机是一款域名查询工具,可提供网站子域名查询服务;拥有简洁的界面、简单的操作模式,支持服
务接口、暴力搜索、同服挖掘三种模式,支持打开网站、复制域名、复制IP、复制CDN、导出域名、导出IP、导出域
名+IP、导出域名+IP+WEB服务器以及导出存活网站!
WAFW00F探测WAF
命令:wafw00f -a 域名
后台查找:
铸剑(kbscan)https://github.com/7kbstorm/7kbscan-WebPathBrute

标签:www,网页,收集,url,信息,网站,域名,介绍,com
From: https://blog.csdn.net/2401_85701185/article/details/143824111

相关文章

  • 美团商家联系电话采集软件团购外卖信息批量提取器
    定义目标:明确需要采集的数据,如商家名称、地址、评分、销量等。分析页面结构:通过浏览器的开发者工具,分析美团团购或外卖页面的HTML结构,找出包含所需数据的标签。模拟用户请求:使用requests库模拟用户访问美团页面,可能需要处理登录、反爬虫机制(如Cookies、Headers、验证码等)。解析......
  • POLIR-Goverment-备案网站: 查询网站在 "公安部"备案的运营"公司/个人信息" @互联网信
    严格意义上,是"公安部"的"网络安全保卫局"管理网站备案查询备案的政府网站https://beian.mps.gov.cn/#/query/webSearch备案通过的公网(Internet)网站,会颁发一个“公网备案号”,而且在该网站的网页上,必需对访问的用户公布这个“公网备案号”。访问网站时,如果发现网站上联系......
  • 基于SpringBoot+Vue实现校园多媒体信息共享平台
    作者简介:Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验,被多个学校常年聘为校外企业导师,指导学生毕业设计并参与学生毕业答辩指导,有较为丰富的相关经验。期待与各位高校教师、企业......
  • springboot毕设 酒店管理信息系统 程序+论文
    本系统(程序+源码)带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着旅游业的蓬勃发展和人们生活水平的提高,酒店行业迎来了前所未有的发展机遇与挑战。传统的人工管理模式已难以满足现代酒店高效、精细的运营需求。......
  • 计算机毕业设计—11578 学生信息管理系统的设计与实现(源码免费领)
    摘要从20年代开始,计算机疯狂的出现在人们的生活以及工作当中,成为人们生活、工作的好帮手,计算机深入到每家每户当中,网络办公,网络教学更是替换了传统手工记录管理的方式,使用计算机办公可以不必局限于固定的时间和固定的地点,通过计算机系统可以轻松实现跨区域的交流。随着高......
  • streamstring类介绍
    std::stringstream是C++标准库中提供的一个类,定义在头文件<sstream>中。它是基于字符串的流(stream),允许像操作输入流(std::cin)或输出流(std::cout)那样,操作字符串内容。std::stringstream是std::iostream的派生类,支持同时进行字符串解析(输入)和字符串构造(输出)。核心概念std:......
  • stoi函数介绍
    stoi是C++标准库中的一个函数,定义在头文件<string>中,它用于将字符串转换为整数类型。函数原型intstoi(conststd::string&str,size_t*idx=0,intbase=10);str(必选):要转换的字符串,必须以数字开头(可以包含正负号)。插一句题外话如果不以数字开头,会这样:idx(可......
  • 【ARM CoreLink 系列 1 -- SoC 架构 总线 互联(interconnect) 介绍】
    概述在摩尔定律的推动下,集成电路工艺取得了高速发展,单位面积上的晶体管数量不断增加。片上系统(System-on-Chip,SoC)具有集成度高、功耗低、成本低等优势,已经成为大规模集成电路系统设计的主流方向,解决了通信、图像、计算、消费电子等领域的众多挑战性的难题。随着片上系统SoC的应......
  • 探索大型语言模型(LLMs)能否在不泄露私人信息的情况下联合其他大型语言模型共同解决问题
    概述谷歌的GeminiUltra(2023年)和OpenAI的GPT-4(2023年)等大规模语言模型在许多任务中都表现出了令人印象深刻的性能。然而,这些模型不仅推理成本高昂,而且运行于数据中心,而数据中心并非本地环境,无法获得私人数据。另一方面,可以在私人环境中运行的模型,如GeminiNano,可以......
  • 【GraphRAG】本地部署全流程!超详细介绍!
    1、GraphRAG是什么?GraphRAG(Graph-basedRelation-AwareGrouping)是一种基于图的关系感知分组方法,通常用于计算机视觉和机器学习领域。它的核心思想是利用图结构来表示和处理实体之间的关系,从而更有效地进行分组和识别任务。2、本地部署在autodl上进行运行,4090单显卡+24GB内......