用户名:
密 码: 记住
您当前的位置:首页 > 网络编程 > php教程

通过PHP程序知道蜘蛛是否访问你的网站(附代码)

时间:2015-01-23  来源:西部数据  作者:西部数据

搜索引擎的蜘蛛访问网站是通过远程抓取页面来进行的,我们不能使用JS代码来取得蜘蛛的Agent信息,但是我们可以通过image标签,这样我们就可以得到蜘蛛的agent资料了,通过对agent资料的分析,就可以确定蜘蛛的种类、性别等因素,我们在通过数据库或者文本来记录就可以进行统计了。

数据库结构:

  1. # 表的结构 `naps_stats_bot` 
  2.  
  3. CREATE TABLE `naps_stats_bot` ( 
  4. `botid` int(10) unsigned NOT NULL auto_increment, 
  5. `botname` varchar(100) NOT NULL default ''
  6. `botagent` varchar(200) NOT NULL default ''
  7. `bottag` varchar(100) NOT NULL default ''
  8. `botcount` int(11) NOT NULL default '0'
  9. `botlast` datetime NOT NULL default '0000-00-00 00:00:00'
  10. `botlasturl` varchar(250) NOT NULL default ''
  11. UNIQUE KEY `botid` (`botid`), 
  12. KEY `botname` (`botname`) 
  13. ) TYPE=MyISAM AUTO_INCREMENT=9 ; 
  14.  
  15. # 导出表中的数据 `naps_stats_bot` 
  16.  
  17. INSERT INTO `naps_stats_bot` VALUES (1, 'Googlebot''Googlebot/2.X ( http://www.googlebot.com/bot.html)''googlebot', 0, '0000-00-00 00:00:00'''); 
  18. INSERT INTO `naps_stats_bot` VALUES (2, 'MSNbot''MSNBOT/0.1 (http://search.msn.com/msnbot.htm)''msnbot', 0, '0000-00-00 00:00:00'''); 
  19. INSERT INTO `naps_stats_bot` VALUES (3, 'Inktomi Slurp''Slurp/2.0''slurp', 0, '0000-00-00 00:00:00'''); 
  20. INSERT INTO `naps_stats_bot` VALUES (4, 'Baiduspider''Baiduspider ( http://www.baidu.com/search/spider.htm)''baiduspider', 0, '0000-00-00 00:00:00'''); 
  21. INSERT INTO `naps_stats_bot` VALUES (5, 'Yahoobot''Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)''slurp', 0, '0000-00-00 00:00:00'''); 
  22. INSERT INTO `naps_stats_bot` VALUES (6, 'Sohubot''sohu-search''sohu-search', 0, '0000-00-00 00:00:00'''); 
  23. INSERT INTO `naps_stats_bot` VALUES (7, 'Lycos''Lycos/x.x''lycos', 0, '0000-00-00 00:00:00'''); 
  24. INSERT INTO `naps_stats_bot` VALUES (8, 'Robozilla''Robozilla/1.0''robozilla', 0, '0000-00-00 00:00:00'''); 

PHP程序:

  1. error_reporting(E_ALL & ~E_NOTICE); 
  2.  
  3. function get_naps_bot() 
  4. $useragent = strtolower($_SERVER['HTTP_USER_AGENT']); 
  5.  
  6. if (strpos($useragent'googlebot') !== false){ 
  7. return 'Googlebot'
  8.  
  9. if (strpos($useragent'msnbot') !== false){ 
  10. return 'MSNbot'
  11.  
  12. if (strpos($useragent'slurp') !== false){ 
  13. return 'Yahoobot'
  14.  
  15. if (strpos($useragent'baiduspider') !== false){ 
  16. return 'Baiduspider'
  17.  
  18. if (strpos($useragent'sohu-search') !== false){ 
  19. return 'Sohubot'
  20.  
  21. if (strpos($useragent'lycos') !== false){ 
  22. return 'Lycos'
  23.  
  24. if (strpos($useragent'robozilla') !== false){ 
  25. return 'Robozilla'
  26. return false; 
  27. $tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']); 
  28. //添加蜘蛛的抓取记录 
  29. $searchbot = get_naps_bot(); 
  30. if ($searchbot) { 
  31. $DB_naps->query("UPDATE naps_stats_bot SET botcount=botcount 1, botlast=NOW(), botlasturl='$tlc_thispage' WHERE botname='$searchbot'"); 
  32. ?> 
来顶一下
返回首页
返回首页
推荐资讯
WiFi太不安全:7岁女孩11分钟内入侵公共网络 WiFi太不安全:7岁女孩11分钟内入侵近期刚刚发布研究说WiFi网络能获得人们手机里多少私人信息,
不服跑个分?人工智能也出现“刷分”乱象 不服跑个分?人工智能也出现“刷分2014年,人工智能领域突然爆发,成为了科研和科技创业的热门
相关文章
栏目更新
栏目热门