### 微软
“msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)”
msnbot,大多数已经被bingbot替代了,现在偶尔还可以看到。
“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”
bing,必应
### 搜搜
“Sosospider+(+http://help.soso.com/webspider.htm)”
腾讯搜搜
“Sosoimagespider+(+http://help.soso.com/soso-image-spider.htm)”
搜搜图片
### 雅虎
“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
雅虎英文
“Yahoo! Slurp China”
“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”
雅虎中国
### 搜狗
“http://pic.sogou.com” “Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”
搜狗图片
“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”
搜狗,搜狗的蜘蛛程序做的很不好,总是进入死循环,已经分别在 [robots.txt](http://www.wilf.cn/post/robots.html "robots.txt 和 robots meta 标签应用详解") 和 设置中屏蔽掉
### Google
“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
Google
“Googlebot-Image/1.0”
Google图片搜索
“Mediapartners-Google”
未知
“FeedBurner/1.0 (http://www.FeedBurner.com)”
feedburner
“AdsBot-Google-Mobile (+http://www.google.com/mobile/adsbot.html) Mozilla (iPhone; U; CPU iPhone OS 3 0 like Mac OS X) AppleWebKit (KHTML, like Gecko) Mobile Safari”
Adwords移动网络
### 百度
“Baiduspider-image+(+http://www.baidu.com/search/spider.htm)”
百度图片
“Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”
亲爱的百度蜘蛛
“Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.8;baidu Transcoder) Gecko/20100722 Firefox/3.6.8 ( .NET CLR 3.5.30729)”
baidu+Transcoder 是用户用手机浏览网站留下的记录,Transcoder 是代码转换器,把网站转码成手机用户上网看到的网页留下的记录
### 360
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0); 360Spider
360搜索
### 其他搜索引擎
“Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )”
网易有道
“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search\_tech/speedy\_spider/)”
来自瑞典的搜索引擎,网站看起来很不错,http://www.entireweb.com
~“jikespider \\”Mozilla/5.0”~
即刻搜索,原人民搜索,搜索引擎国家队,已倒闭
“Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)”
俄罗斯yandex
Mozilla/5.0 (compatible; EasouSpider; +http://www.easou.com/search/spider.html)
宜搜,不认识,一直不停抓取,已屏蔽
### 其他已知bot
“HuaweiSymantecSpider/1.0+DSE-support@huaweisymantec.com+(compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR ; http://www.huaweisymantec.com/cn/IRL/spider)”
华为赛门铁克蜘蛛,是华为赛门铁克科技有限公司网页信誉分析系统的一个页面爬取程序,其作用是用于爬取互联网网页并进行信誉分析,从而检查该网站上的是否含有恶意代码。
[http://baike.baidu.com/view/5994606.htm](http://baike.baidu.com/view/5994606.htm)
qiniu-imgstg-spider-1.0
七牛镜像蜘蛛
“xFruits/1.0 (http://www.xfruits.com)”
xFruits,聚合rss用的
Feedly/1.0 (+http://www.feedly.com/fetcher.html; like FeedFetcher-Google)
Feedly,Google Reader 关闭后一直用这个
Mozilla/5.0 (compatible;YoudaoFeedFetcher/1.0;http://www.youdao.com/help/reader/faq/topic006/;1 subscribers;)
有道阅读
FeedDemon/4.5 (http://www.feeddemon.com/; Microsoft Windows)
一款离线RSS阅读器
“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; JianKongBao Monitor 1.1)”
监控宝
DNSPod-Monitor/2.0
DNSPod监控
“Mozilla 5.0 (compatible; Feedsky crawler /1.0; http://www.feedsky.com)”
Feedsky
“Xianguo.com 1 Subscribers”
鲜果
360spider(http://webscan.360.cn)
360网站安全检测
“yrspider Mozilla/5.0 (compatible; YRSpider; +http://www.yunrang.com/yrspider.html)”
云壤公司,http://www.yunrang.com/yrspider.html
### 其他未知bot
“Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; EmbeddedWB 14.52 from: http://www.bsalsa.com/ EmbeddedWB 14.52; .NET CLR 2.0.50727)”
怀疑为发布SPAM用的,因为总是在获取注册页面和验证码
Mozilla/5.0 (compatible; LinkpadBot/1.06; +http://www.linkpad.ru)
LinkpadBot,看域名知道是来自俄罗斯的
Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)
又一个国外的
“Mozilla/5.0 (compatible; MJ12bot/v1.4.0; http://www.majestic12.co.uk/bot.php?+)”
来自英国的未知bot
“Mozilla/5.0 (compatible; Ezooms/1.0; ezooms.bot@gmail.com)”
未知
“IS Alpha/Nutch-1.1”
未知
Nutch Spider/Nutch-2.2.1
貌似是上面那个进化来的
“BlogPulseLive (support@blogpulse.com)”
“findlinks/2.0.2 (+http://wortschatz.uni-leipzig.de/findlinks/)”
来自德国的未知bot
“Mozilla/4.0 (compatible; MSIE 6.0; AugustBot/augstbot@163.com)”
未知,貌似与网易有关
“InternetSeer.com”
未知
“Mozilla/5.0 (compatible; DotBot/1.1; http://www.dotnetdotcom.org/, crawler@dotnetdotcom.org)”
未知,已更新为下面的
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)
DotBot,不认识
“http://www.internet-zarabotok.net/” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; Win64; AMD64)”
来自俄罗斯的未知bot
Mozilla/5.0 (X11; U; Linux x86\_64; en-US; rv:1.9.0.19; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/2010040121 Firefox/3.0.19
Spinn3r,不认识
Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot)
Exabot,还是不认识
Mozilla/5.0 (compatible; Exabot/3.0 (BiggerBetter); +http://www.exabot.com/go/robot)
Exabot,不认识
psbot/0.1 (+http://www.picsearch.com/bot.html)
psbot,不认识
TurnitinBot/3.0 (http://www.turnitin.com/robot/crawlerinfo.html)
TurnitinBot,不认识### 微软
“msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)”
msnbot,大多数已经被bingbot替代了,现在偶尔还可以看到。
“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”
bing,必应
### 搜搜
“Sosospider+(+http://help.soso.com/webspider.htm)”
腾讯搜搜
“Sosoimagespider+(+http://help.soso.com/soso-image-spider.htm)”
搜搜图片
### 雅虎
“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
雅虎英文
“Yahoo! Slurp China”
“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”
雅虎中国
### 搜狗
“http://pic.sogou.com” “Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”
搜狗图片
“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”
搜狗,搜狗的蜘蛛程序做的很不好,总是进入死循环,已经分别在 [robots.txt](http://www.wilf.cn/post/robots.html "robots.txt 和 robots meta 标签应用详解") 和 设置中屏蔽掉
### Google
“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
Google
“Googlebot-Image/1.0”
Google图片搜索
“Mediapartners-Google”
未知
“FeedBurner/1.0 (http://www.FeedBurner.com)”
feedburner
“AdsBot-Google-Mobile (+http://www.google.com/mobile/adsbot.html) Mozilla (iPhone; U; CPU iPhone OS 3 0 like Mac OS X) AppleWebKit (KHTML, like Gecko) Mobile Safari”
Adwords移动网络
### 百度
“Baiduspider-image+(+http://www.baidu.com/search/spider.htm)”
百度图片
“Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”
亲爱的百度蜘蛛
“Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.8;baidu Transcoder) Gecko/20100722 Firefox/3.6.8 ( .NET CLR 3.5.30729)”
baidu+Transcoder 是用户用手机浏览网站留下的记录,Transcoder 是代码转换器,把网站转码成手机用户上网看到的网页留下的记录
### 360
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0); 360Spider
360搜索
### 其他搜索引擎
“Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )”
网易有道
“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search\_tech/speedy\_spider/)”
来自瑞典的搜索引擎,网站看起来很不错,http://www.entireweb.com
~“jikespider \\”Mozilla/5.0”~
即刻搜索,原人民搜索,搜索引擎国家队,已倒闭
“Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)”
俄罗斯yandex
Mozilla/5.0 (compatible; EasouSpider; +http://www.easou.com/search/spider.html)
宜搜,不认识,一直不停抓取,已屏蔽
### 其他已知bot
“HuaweiSymantecSpider/1.0+DSE-support@huaweisymantec.com+(compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR ; http://www.huaweisymantec.com/cn/IRL/spider)”
华为赛门铁克蜘蛛,是华为赛门铁克科技有限公司网页信誉分析系统的一个页面爬取程序,其作用是用于爬取互联网网页并进行信誉分析,从而检查该网站上的是否含有恶意代码。
[http://baike.baidu.com/view/5994606.htm](http://baike.baidu.com/view/5994606.htm)
qiniu-imgstg-spider-1.0
七牛镜像蜘蛛
“xFruits/1.0 (http://www.xfruits.com)”
xFruits,聚合rss用的
Feedly/1.0 (+http://www.feedly.com/fetcher.html; like FeedFetcher-Google)
Feedly,Google Reader 关闭后一直用这个
Mozilla/5.0 (compatible;YoudaoFeedFetcher/1.0;http://www.youdao.com/help/reader/faq/topic006/;1 subscribers;)
有道阅读
FeedDemon/4.5 (http://www.feeddemon.com/; Microsoft Windows)
一款离线RSS阅读器
“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; JianKongBao Monitor 1.1)”
监控宝
DNSPod-Monitor/2.0
DNSPod监控
“Mozilla 5.0 (compatible; Feedsky crawler /1.0; http://www.feedsky.com)”
Feedsky
“Xianguo.com 1 Subscribers”
鲜果
360spider(http://webscan.360.cn)
360网站安全检测
“yrspider Mozilla/5.0 (compatible; YRSpider; +http://www.yunrang.com/yrspider.html)”
云壤公司,http://www.yunrang.com/yrspider.html
### 其他未知bot
“Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; EmbeddedWB 14.52 from: http://www.bsalsa.com/ EmbeddedWB 14.52; .NET CLR 2.0.50727)”
怀疑为发布SPAM用的,因为总是在获取注册页面和验证码
Mozilla/5.0 (compatible; LinkpadBot/1.06; +http://www.linkpad.ru)
LinkpadBot,看域名知道是来自俄罗斯的
Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)
又一个国外的
“Mozilla/5.0 (compatible; MJ12bot/v1.4.0; http://www.majestic12.co.uk/bot.php?+)”
来自英国的未知bot
“Mozilla/5.0 (compatible; Ezooms/1.0; ezooms.bot@gmail.com)”
未知
“IS Alpha/Nutch-1.1”
未知
Nutch Spider/Nutch-2.2.1
貌似是上面那个进化来的
“BlogPulseLive (support@blogpulse.com)”
“findlinks/2.0.2 (+http://wortschatz.uni-leipzig.de/findlinks/)”
来自德国的未知bot
“Mozilla/4.0 (compatible; MSIE 6.0; AugustBot/augstbot@163.com)”
未知,貌似与网易有关
“InternetSeer.com”
未知
“Mozilla/5.0 (compatible; DotBot/1.1; http://www.dotnetdotcom.org/, crawler@dotnetdotcom.org)”
未知,已更新为下面的
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)
DotBot,不认识
“http://www.internet-zarabotok.net/” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; Win64; AMD64)”
来自俄罗斯的未知bot
Mozilla/5.0 (X11; U; Linux x86\_64; en-US; rv:1.9.0.19; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/2010040121 Firefox/3.0.19
Spinn3r,不认识
Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot)
Exabot,还是不认识
Mozilla/5.0 (compatible; Exabot/3.0 (BiggerBetter); +http://www.exabot.com/go/robot)
Exabot,不认识
psbot/0.1 (+http://www.picsearch.com/bot.html)
psbot,不认识
TurnitinBot/3.0 (http://www.turnitin.com/robot/crawlerinfo.html)
TurnitinBot,不认识
```
static String[] spiders = { "Sogou", "Googlebot", "MJ12bot", "YodaoBot", "Yahoo!", "Sosospider",
"Baiduspider", "msnbot-media", "Sosoimagespider", "Feedfetcher-Google",
"Mediapartners-Google", "Googlebot-Image", "ia_archiver", "sohu-search",
"Oracle Ultra Search", "ASPSeek", "YahooSeeker", "Baidu-Transcoder/", "Sosoimagespider" };
```
```
<?php
$botlist=array (
1 =>
array (
'name' => '百度',
'biaoji' => 'baiduspider',
),
2 =>
array (
'name' => '谷歌',
'biaoji' => 'googlebot',
),
3 =>
array (
'name' => '搜狗',
'biaoji' => 'sogou spider',
),
4 =>
array (
'name' => '雅虎',
'biaoji' => 'slurp',
),
5 =>
array (
'name' => 'MSN',
'biaoji' => 'msnbot',
),
6 =>
array (
'name' => '搜狐',
'biaoji' => 'sohu-search',
),
7 =>
array (
'name' => '有道',
'biaoji' => 'youdaobot',
),
8 =>
array (
'name' => 'SOSO',
'biaoji' => 'sosospider',
),
9 =>
array (
'name' => 'Alexa',
'biaoji' => 'alexa',
),
);
$useragent=strtolower($_SERVER['HTTP_USER_AGENT']);
foreach($botlist as $k=>$v){
if(stripos($useragent,$botlist[$k]['biaoji'])!==false){
SpiderRecord($botlist[$k]['name']);
}
}
function SpiderRecord($spider=''){
$ip=getonlineip();
$logFormat = "%date $spider %ip %url";
date_default_timezone_set("PRC");
$Spiders = str_replace(explode(' ', $logFormat), array(
"time:".date('Y-m-d H:i:s'),
"|| spider:".$spider,
"|| ip:".$ip,
"|| url:".$_SERVER['HTTP_HOST'].$_SERVER["PHP_SELF"] . "?" . $_SERVER["QUERY_STRING"],
), $logFormat);
$fileName=$spider.date('Ym').'.log';
return file_put_contents(__dir__.DIRECTORY_SEPARATOR.$fileName, $Spiders . "\r\n", FILE_APPEND);
}
function getonlineip(){
if(isset($_SERVER['REMOTE_ADDR']) && $_SERVER['REMOTE_ADDR'] && strcasecmp($_SERVER['REMOTE_ADDR'], 'unknown')){
$ip = $_SERVER['REMOTE_ADDR'];
}elseif(getenv('HTTP_CLIENT_IP') && strcasecmp(getenv('HTTP_CLIENT_IP'), 'unknown')){
$ip = getenv('HTTP_CLIENT_IP');
}elseif(getenv('HTTP_X_FORWARDED_FOR') && strcasecmp(getenv('HTTP_X_FORWARDED_FOR'), 'unknown')){
$ip = getenv('HTTP_X_FORWARDED_FOR');
}elseif(getenv('REMOTE_ADDR') && strcasecmp(getenv('REMOTE_ADDR'), 'unknown')){
$ip = getenv('REMOTE_ADDR');
}
preg_match("/[\d\.]{7,15}/", isset($ip) ? $ip : NULL, $match);
return isset($match[0]) ? $match[0] : 'unknown';
}
```
- 序言
- 基础知识
- thinkphp基础知识
- Thinkphp5CURD
- 数据库创建
- 数据库删除
- 数据库更新
- 数据库查询
- thinkphp5控制器
- 空操作空控制器
- 控制器基类
- 请求信息
- 行为和钩子
- thinkphp5路由设置
- 变量路由
- 常用方法清单
- 环境搭建
- lnmp
- 升级php
- window环境
- Thinkphp小案例
- 分类管理
- 数据库设计
- 模型
- 控制器
- 视图
- 文件上传
- 上传接口
- 视图
- 表单提交
- 视图设计
- 控制器
- 权限控制
- 案例解释说明
- 登录验证
- Laravel5.3登录模式
- redis使用
- 一键安装
- 程序设计与实现
- 页面设计
- 功能设计
- 安装功能实际
- 函数库
- 配置文件
- 清除缓存
- 状态值修改
- 数据库备份还原
- controller.php
- common.php
- index.html
- importlist.html
- 完整的增删查改
- 查询语句
- 多语言支持
- JpGraph图表类库
- 微信支付
- payBase.php
- Order.php
- Oauth.php
- Jspay.php
- 下载远程地址中的图片
- URL重写隐藏入口文件
- 图片水印
- 整合百度编辑器
- Ueditor
- ueditor完整配置项
- 配置信息常见的方式
- HTTP 断点续传(PHP实现)
- layui.upload上传文件或图片
- QQ微信域名防封 预防域名封禁 强制跳转至浏览器
- 蜘蛛篇
- 超简单实现php谷歌验证
- 采集金山词霸每日一句
- think-swoole
- 原生PHP小案例
- 查询修改数据库
- mysql支付回调源码
- pdo连接微信退款
- 前端小案例
- html快捷查询
- layui经验总结
- layui 表单增强插件
- Vue列表Ajax实战教程
- PHP基础
- 类的自动载入
- php基础函数- 字符串函数
- php基础函数-数学函数
- php基础函数-数组函数
- PHP常见排序算法学习
- 请求第三方
- 从网络下载文件
- 检查网站是否宕机
- file_get_contents
- 算法
- php 抽奖算法(适合九宫格和大转盘)
- 自己动手丰衣足食
- 入口文件
- start.php
- app.php
- load.php
- route.php
- JqHttp
- Jqfile
- Jqutil
- pdo连接数据库类
- 常见的php类
- php数据接口类
- 生成多层树状下拉选框的工具模型
- 上传下载类
- 微信用户相关类
- Zip压缩类
- 列表树生成工具类
- 日期时间操作类
- 文件及文件夹处理类
- 字符串处理类
- php守护进程类
- RSA算法类
- php支持中英文的加密解密类
- CURL多线程请求
- 通用数据库操作类
- 缓存类
- cookie类
- 常见的验证方法
- 随机密钥
- 日志Log
- php-redis 操作类 封装
- OpensslRsa 加密、解密、签名、验签类
- 模板输出类
- 发送邮件
- 封装的mysqli类
- PHP时间段分割类库
- PHP apk解包识版本号信息和ipa包信息
- 访问客户端信息
- http请求
- PHP 无数据库读写配置文件
- 自己动手写一个jwt类
- php实现对图片对称加解密(适用身份证加密等场景)
- 常见php函数
- 无限分类
- 获取文章图片
- 加密解密
- JSON数据输出(适合在tp中)
- 删除目录和文件
- 判断是否为手机访问
- 获取客户端真实IP
- 随机生成ip地址
- 字符串与二进制进行转换
- 对数组进行排序
- 格式化字节大小
- 时间戳格式化
- 获取数据的所有子孙数据的id值
- 取得视频文件的缩略图
- 图片裁剪函数
- 按照每过0:00算一天
- 下载文件
- PHP随机密码生成
- 判断数字大小
- 报文组成
- 通过ip定位城市
- PDO方式连接MySQL数据库
- 数组与xml
- php字符串处理函数
- 判断是否ajax提交
- 生成概率,用于抽奖
- 断点续传
- PHP使用星号替代用户名手机和邮箱
- 获取毫秒级别的时间戳
- php日志函数
- 随机颜色生成器
- 时间差异计算函数
- 黑名单过滤
- 常见PHP 正则表达式
- php获取浏览器类型
- 邮件发送
- 获取qq昵称
- 正则获取手机号归属地
- 判断是否是移动客户端 移动设备
- gbk和utf8编码自动识别方法
- 人性化时间显示
- 请求API接口
- 数据库备份
- PHP并发下安全读写文件函数
- PHP读取exe软件版本号
- PHP为任意页面设置访问密码
- PHP利用百度当图床
- 秒/分钟/小时前
- 常见的js函数
- 短信验证函数
- 上下收缩菜单
- jQuery 树插件zTree
- 页面刷新跳转
- jquery导出报表
- js实现定时效果
- 获取当前经纬度
- JQuery实现图片大小自适应
- 网站运行时间
- 判断浏览器类型
- 百度推送
- js对指定数据进行排序
- 常见工具方法
- JSPinyin
- 技术相关文章
- 高级PHP工程师所应该具备哪些技能
- 最简洁的PHP程序员学习路线及建议
- 优化PHP代码的一些建议
- TP5性能优化建议
- 程序猿专用代码注释:佛祖保佑,永无BUG
- 一组匹配中国大陆手机号码的正则表达式
- Apache/Nginx/PHP服务器反爬虫代码大全
- 番外
- 配置shadowsocks服务端
- python
- go
- 如何在1分钟内黑掉任何网站!
- 百度贴吧敏感词
- 贴吧手工养号发帖教程
- 搞笑的注释代码
- Heroku