```
public static function getResourceByTemp($html)
{
$attr = ['title', 'alt', 'placeholder'];//指定html属性上的文本
$getAttrArr = [];
foreach ($attr as $k => $v) {
preg_match_all("/{$v}=\"(.*?)\"/", $html, $get);
if (!empty($get['1'])) {
$getAttrArr = array_unique(array_merge($getAttrArr, $get['1']));
}
}
$html = preg_replace("/<!--.*?-->/is", '', $html); //删除注释
$html = preg_replace("/<style.*?>.*?<\/style>/is", '', $html); //删除style标签
$html = preg_replace("/<script.*?>.*?<\/script>/is", '', $html); //删除js标签
$separator = '::#::myself::#::'; //自己设定的,特有的分隔符
$html = preg_replace("/<.*?>/is", $separator, $html);
$arr = array_filter(explode($separator, $html));
if (!empty($getAttrArr)) {
$arr = array_filter(array_unique(array_merge($arr, $getAttrArr)));
}
$array = [];
foreach ($arr as $k => $v) {
$v = trim($v);
if (!empty($v)) {
if (strpos(PHP_EOL, $v)) {
//有些字符里面会还有换行,再分析一次并去掉字符前后的空格。
$tmp = explode(PHP_EOL, $v);
foreach ($tmp as $val) {
$val = trim($val);
if (!empty($val)) {
$array[] = $val;
}
}
} else {
//如果没有换行,直接赋值
$array[] = $v;
}
}
}
foreach ($array as $k => $v) {
//去掉纯数字的元素
if (is_numeric($v)) {
unset($array[$k]);
}
//去掉纯符号的元素
$pregStr = preg_replace("/[\x{4e00}-\x{9fa5}A-Za-z0-9]/u", '', $v);
if ($v == $pregStr) {
unset($array[$k]);
}
//去掉类似这种图标字符
if (strpos($v, '&#x') !== false && (strlen($v) == 7 || strlen($v) == 8)) {
unset($array[$k]);
}
}
$result = [];
$array = array_unique($array);
foreach ($array as $v) {
$result[] = ['text' => trim($v), 'len' => mb_strlen($v)];
}
array_multisort(array_column($result, 'len'), SORT_DESC, $result); //按字符长度倒序
return $result;
}
```
```
//获取页面的title,keyword,description
public static function get_sitemeta($data)
{
if (self::isUrl($data)) {
$data = file_get_contents($url);
}
$meta = array();
if (!empty($data)) {
#Title
preg_match('/<TITLE>([\w\W]*?)<\/TITLE>/si', $data, $matches);
if (!empty($matches[1])) {
$meta['title'] = $matches[1];
}
#Keywords
preg_match('/<META\s+name="keywords"\s+content="([\w\W]*?)"/si', $data, $matches);
if (empty($matches[1])) {
preg_match("/<META\s+name='keywords'\s+content='([\w\W]*?)'/si", $data, $matches);
}
if (empty($matches[1])) {
preg_match('/<META\s+content="([\w\W]*?)"\s+name="keywords"/si', $data, $matches);
}
if (empty($matches[1])) {
preg_match('/<META\s+http-equiv="keywords"\s+content="([\w\W]*?)"/si', $data, $matches);
}
if (!empty($matches[1])) {
$meta['keywords'] = $matches[1];
}
#Description
preg_match('/<META\s+name="description"\s+content="([\w\W]*?)"/si', $data, $matches);
if (empty($matches[1])) {
preg_match("/<META\s+name='description'\s+content='([\w\W]*?)'/si", $data, $matches);
}
if (empty($matches[1])) {
preg_match('/<META\s+content="([\w\W]*?)"\s+name="description"/si', $data, $matches);
}
if (empty($matches[1])) {
preg_match('/<META\s+http-equiv="description"\s+content="([\w\W]*?)"/si', $data, $matches);
}
if (!empty($matches[1])) {
$meta['description'] = $matches[1];
}
}
return $meta;
}
```
- 技能知识点
- 对死锁问题的理解
- 文件系统原理:如何用1分钟遍历一个100TB的文件?
- 数据库原理:为什么PrepareStatement性能更好更安全?
- Java Web程序的运行时环境到底是怎样的?
- 你真的知道自己要解决的问题是什么吗?
- 如何解决问题
- 经验分享
- GIT的HTTP方式免密pull、push
- 使用xhprof对php7程序进行性能分析
- 微信扫码登录和使用公众号方式进行扫码登录
- 关于curl跳转抓取
- Linux 下配置 Git 操作免登录 ssh 公钥
- Linux Memcached 安装
- php7安装3.4版本的phalcon扩展
- centos7下php7.0.x安装phalcon框架
- 将字符串按照指定长度分割
- 搜索html源码中标签包的纯文本
- 更换composer镜像源为阿里云
- mac 隐藏文件显示/隐藏
- 谷歌(google)世界各国网址大全
- 实战文档
- PHP7安装intl扩展和linux安装icu
- linux编译安装时常见错误解决办法
- linux删除文件后不释放磁盘空间解决方法
- PHP开启异步多线程执行脚本
- file_exists(): open_basedir restriction in effect. File完美解决方案
- PHP 7.1 安装 ssh2 扩展,用于PHP进行ssh连接
- php命令行加载的php.ini
- linux文件实时同步
- linux下php的psr.so扩展源码安装
- php将字符串中的\n变成真正的换行符?
- PHP7 下安装 memcache 和 memcached 扩展
- PHP 高级面试题 - 如果没有 mb 系列函数,如何切割多字节字符串
- PHP设置脚本最大执行时间的三种方法
- 升级Php 7.4带来的两个大坑
- 不同域名的iframe下,fckeditor在chrome下的SecurityError,解决办法~~
- Linux find+rm -rf 执行组合删除
- 从零搭建Prometheus监控报警系统
- Bug之group_concat默认长度限制
- PHP生成的XML显示无效的Char值27消息(PHP generated XML shows invalid Char value 27 message)
- XML 解析中,如何排除控制字符
- PHP各种时间获取
- nginx配置移动自适应跳转
- 已安装nginx动态添加模块
- auto_prepend_file与auto_append_file使用方法
- 利用nginx实现web页面插入统计代码
- Nginx中的rewrite指令(break,last,redirect,permanent)
- nginx 中 index try_files location 这三个配置项的作用
- linux安装git服务器
- PHP 中运用 elasticsearch
- PHP解析Mysql Binlog
- 好用的PHP学习网(持续更新中)
- 一篇写给准备升级PHP7的小伙伴的文章
- linux 安装php7 -系统centos7
- Linux 下多php 版本共存安装
- PHP编译安装时常见错误解决办法,php编译常见错误
- nginx upstream模块--负载均衡
- 如何解决Tomcat服务器打开不了HOST Manager的问题
- PHP的内存泄露问题与垃圾回收
- Redis数据结构 - string字符串
- PHP开发api接口安全验证
- 服务接口API限流 Rate Limit
- php内核分析---内存管理(一)
- PHP内存泄漏问题解析
- 【代码片-1】 MongoDB与PHP -- 高级查询
- 【代码片-1】 php7 mongoDB 简单封装
- php与mysql系统中出现大量数据库sleep的空连接问题分析
- 解决crond引发大量sendmail、postdrop进程问题
- PHP操作MongoDB GridFS 存储文件,如图片文件
- 浅谈php安全
- linux上keepalived+nginx实现高可用web负载均衡
- 整理php防注入和XSS攻击通用过滤