技术大类 - 雪糕雪糕 - 可以居飞过海

Bo-Blog 2.1.1 的 Nginx Rewrite 规则[原创]

[

2015/05/28 08:23 | by admin ]

　[文章作者：张宴本文版本：v1.1 最后修改：2009.12.01 转载请注明原文链接：http://blog.zyan.cc/bo-blog_nginx_rewrite/]

　　Bo-Blog是一款采用PHP开发的单用户博客程序，本人的博客也采用的是Bo-Blog，个人觉得bo-blog的排版、易用性要比WordPress好得多，但扩展性不如WordPress。

　　很多朋友向我询问过，Bo-Blog的Nginx Rewrite规则如何写。由于Bo-Blog官网只提供了Apache的Rewrite规则，这里，我将自己从 Bo-Blog 的 Apache Rewrite 规则转换而来的 Bo-Blog 2.1.1 的 Nginx Rewrite 重写规则贴在此处，供需要的朋友使用：

引用

if (!-e $request_filename)
{
rewrite ^/post/([0-9]+)/?([0-9]+)?/?([0-9]+)?/?$ /read.php?entryid=$1&page=$2&part=$3 last;
rewrite ^/page/([0-9]+)/([0-9]+)/?$ /index.php?mode=$1&page=$2 last;
rewrite ^/starred/([0-9]+)/?([0-9]+)?/?$ /star.php?mode=$1&page=$2 last;
rewrite ^/category/([^/]+)/?([0-9]+)?/?([0-9]+)?/?$ /index.php?go=category_$1&mode=$2&page=$3 last;
rewrite ^/archiver/([0-9]+)/([0-9]+)/?([0-9]+)?/?([0-9]+)?/?$ /index.php?go=archive&cm=$1&cy=$2&mode=$3&page=$4 last;
rewrite ^/date/([0-9]+)/([0-9]+)/([0-9]+)/?([0-9]+)?/?([0-9]+)?/?$ /index.php?go=showday_$1-$2-$3&mode=$4&page=$5 last;
rewrite ^/user/([0-9]+)/?$ /view.php?go=user_$1 last;
rewrite ^/tags/([^/]+)/?([0-9]+)?/?([0-9]+)?/?$ /tag.php?tag=$1&mode=$2&page=$3 last;
rewrite ^/component/id/([0-9]+)/?$ /page.php?pageid=$1 last;
rewrite ^/component/([^/]+)/?$ /page.php?pagealias=$1 last;

#Force redirection for old rules
rewrite ^/read\.php/([0-9]+)\.htm$ http://$host/post/$1/ permanent;
rewrite ^/post/([0-9]+)\.htm$ http://$host/post/$1/ permanent;
rewrite ^/post/([0-9]+)\_([0-9]+)\.htm$ http://$host/post/$1/$2/ permanent;
rewrite ^/post/([0-9]+)\_([0-9]+)\_([0-9]+)\.htm$ http://$host/post/$1/$2/$3/ permanent;
rewrite ^/index\_([0-9]+)\_([0-9]+)\.htm$ http://$host/page/$1/$2/ permanent;
rewrite ^/star\_([0-9]+)\_([0-9]+)\.htm$ http://$host/starred/$1/$2/ permanent;
rewrite ^/category\_([0-9]+)\.htm$ http://$host/category/$1/ permanent;
rewrite ^/category\_([0-9]+)\_([0-9]+)\_([0-9]+)\.htm$ http://$host/category/$1/$2/$3/ permanent;
rewrite ^/archive\_([0-9]+)\_([0-9]+)\.htm$ http://$host/archiver/$1/$2/ permanent;
rewrite ^/archive\_([0-9]+)\_([0-9]+)\_([0-9]+)\_([0-9]+)\.htm$ http://$host/archiver/$1/$2/$3/$4/ permanent;
rewrite ^/showday\_([0-9]+)\_([0-9]+)\_([0-9]+)\.htm$ http://$host/date/$1/$2/$3/ permanent;
rewrite ^/showday\_([0-9]+)\_([0-9]+)\_([0-9]+)\_([0-9]+)\_([0-9]+)\.htm$ http://$host/date/$1/$2/$3/$4/$5/ permanent;

#Filename alias
rewrite ^/([a-zA-Z0-9_-]+)/?([0-9]+)?/?([0-9]+)?/?$ /read.php?blogalias=$1&page=$2&part=$3 last;
}

　　PS：2009-12-01修正一处错误，之前文章中的if (!-x更换为if (!-e

Tags: bo-blog , , , wordpress , nginx , rewrite

技术大类 » web服务器 | 评论(0) | 引用(0) | 阅读(85)

快速配置 Samba 将 Linux 目录映射为 Windows 驱动器，用于跨平台编程

[

2015/05/26 08:26 | by admin ]

　[文章作者：张宴本文版本：v1.0 最后修改：2011.04.08 转载请注明原文链接：http://blog.zyan.cc/samba_linux_windows/]

　　一、局域网内的 Linux 服务器上操作步骤：

　　1、安装samba（CentOS Linux）：

yum install samba system-config-samba samba-client samba-common

　　2、创建www账号

/usr/sbin/groupadd www
/usr/sbin/useradd -g www www

mkdir -p /data0/knose/
chmod 777 /data0/knose/

mkdir -p /data0/htdocs/
chown -R www:www /data0/htdocs/
chmod 777 /data0/htdocs/

cat /etc/passwd | mksmbpasswd.sh> /etc/samba/smbpasswd

　　3、创建samba配置文件

mv -f /etc/samba/smb.conf /etc/samba/smb.conf.bak
vi /etc/samba/smb.conf

　　输入以下内容：

引用

[global]
server string = Samba Server
security = user
encrypt passwords = yes
smb passwd file = /etc/samba/smbpasswd

[knose]
workgroup = root
netbios name = root
path = /data0/knose
browseable = yes
writeable = yes

[web]
workgroup = www
netbios name = www
path = /data0/htdocs
browseable = yes
writeable = yes

　　4、为samba用户www、root设立一个密码：

smbpasswd -a www
smbpasswd -a root

　　5、启动samba：

/sbin/service smb start

　　二、局域网内的 Windows 服务器上操作步骤：

　　1、Windows 上访问 samba，在“我的电脑”中输入：

\\xxx.xxx.xxx.xxx\

　　2、Windows 断开 samba 共享连接，在【开始】→【运行】→【cmd】回车中输入：

net use * /del

　　3、将 samba 共享的 Linux 目录，映射成 Windows 的一个驱动器盘符：

　　

　　三、跨平台C/C++代码编译、调试：

　　用 Windows 下的编辑器编写、修改跨平台的C/C++代码，保存后，无需复制到其他地方，即可同时用 Windows 下的 Visual Studio，Linux 下的 g++、gcc、gdb，编译、调试程序了。

　　

　　注意：在samba共享的驱动器上执行“.bat”批处理脚本，会导致 Windows 蓝屏，这一点需要注意。

Tags: samba , , , linux , windows

技术大类 » 其它Unix技术 | 评论(0) | 引用(0) | 阅读(71)

iPhone大小的盒子服务器Cubieboard

[

2015/05/26 08:25 | by admin ]

张宴在淘宝上350多元，买了个基于ARM平台的超小电脑 cubieboard，配置如下：

　　1G ARM cortex-A8 processor, NEON, VFPv3, 256KB L2 cache
　　Mali400, OpenGL ES GPU
　　512M/1GB DDR3 @480MHz
　　HDMI 1080p Output
　　10/100M Ethernet
　　4GB Nand Flash
　　2 USB Host, 1 micro SD slot, 1 SATA, 1 ir
　　96 extend pin including I2C, SPI, RGB/LVDS, CSI/TS, FM-IN, ADC, CVBS, VGA, SPDIF-OUT, R-TP..
　　Running Android, Ubuntu and other Linux distributions

　　

　　找了台支持HDMI的显示器，安装了Ubuntu Linaro，然后很方便的安装了SSH Server、VNC Server、Nginx、PHP 5.3、MySQL 5.5：

apt-get install openssh-server
apt-get install vnc-server
apt-get install mysql-server mysql-client
apt-get install nginx
apt-get install php5-fpm
apt-get install php5-mysql php5-curl php5-gd php5-intl php-pear php5-imagick php5-imap php5-mcrypt php5-memcache php5-ming php5-ps php5-pspell php5-recode php5-snmp php5-sqlite php5-tidy php5-xmlrpc php5-xsl

　　C/C++的开发环境安装：

apt-get install gcc
apt-get install g++
apt-get install cmake
apt-get install make

　　我使用5V、2A的电源，仅仅10W的耗电量（24小时开着，一月只需3~4元的电费），挂在家里联通ADSL +磊科NR235W路由器的后面。设置一下路由器的DMZ主机到 Cubieboard 的内网 IP 192.168.1.252，通过 DNSPOD 的动态域名解析脚本，将北京联通的公网IP和域名绑定。

　　一个好消息，北京联通没有封80端口，挂个小站不用备案了；一个坏消息，我家里的联通ADSL只有2M带宽，上行速率被限制在为512Kbps。

　　附：2013年5月21日开始，这个博客也运行在 Cubieboard 上了。

Tags: cubieboard , , , 主机 , 服务器 , 联通 , adsl , 花生壳 , dnspod , ddns , 动态域名

技术大类 » 系统架构与硬件 | 评论(0) | 引用(0) | 阅读(57)

基于Sphinx构建准实时更新的分布式通用搜索引擎平台[原创]

[

2015/05/26 08:14 | by admin ]

　[文章作者：张宴本文版本：v1.0 最后修改：2010.02.05 转载请注明原文链接：http://blog.zyan.cc/sphinx_search/]

　　前言：

　　2008年7月，我写过一篇文章《基于Sphinx+MySQL的千万级数据全文检索（搜索引擎）架构设计》。有不少网友希望阅读全文，我将该文档整理了一下，分享出来。文档解压后大小为7.33M，共19页。

　　本站下载地址： http://blog.zyan.cc/book/sphinx/sphinx_mysql.zip

　　新浪下载分流： http://ishare.iask.sina.com.cn/f/6728201.html

　　上述文档架构存在的局限，我在2008年12月的文章《亿级数据的高并发通用搜索引擎架构设计》中已经指出：一是MySQL本身的并发能力有限，在200～300个并发连接下，查询和更新就比较慢了；二是由于MySQL表的主键与Sphinx索引的ID一一对应，从而无法跨多表建立整站查询，而且新增加类别还得修改配置文件，比较麻烦；三是因为和MySQL集成，无法发挥出Sphinx的优势。虽然如此，但对于一些写入量不大的搜索应用，已经足够了，或许对很多人会有帮助。

　　正文：

　　在这之后，本人基于《亿级数据的高并发通用搜索引擎架构设计》开发的Sphinx分布式通用站内搜索引擎平台，已经在生产环境运行9个月以上，经过运营中的不断完善与改进，目前已形成了一套可扩展的分布式通用站内搜索引擎框架。CMS、视频、论坛等产品发生的增、删、改操作，文本内容实时写入自行开发的 HTTPSQS 高性能简单消息队列服务，通过队列控制器更新索引和存储。提供支持XML、JSON的API查询接口，支持亿级数据的索引、分布式、中文分词、高亮显示、自动摘要、准实时（1分钟内）增量索引更新。

　　

　　下面是Sphinx新的搜索架构中技术关键点实现方式的一些介绍，与大家分享、交流一下：

　　1、一元分词和中文分词的结合：

　　①、一元分词位于索引更新模块。Sphinx索引引擎对于CJK（中日韩）语言（必须是UTF-8编码）支持一元切分，假设【反恐行动是国产主视角射击网络游戏】这段文字，Sphinx会将其切成【反恐行动是国产主视角射击网络游戏】，然后对每个字建立反向索引。如果用这句话中包含的字组成一个不存在的词语，例如【恐动】，也会被搜索到，所以搜索时，需要加引号，例如搜索【"反恐行动"】，就能完全匹配连在一起的四个字，不连续的【"恐动"】就不会被搜索到。但是，这样还有一个问题，搜索【"反恐行动游戏"】或【"国产网络游戏"】就会搜索不到。对于这个问题，采用位于搜索查询模块的中文分词来处理。

　　sphinx.conf配置文件中关于UTF-8中文一元分词的配置如下：

...省略...
index t_source_main
{
        source                  = t_source_main
        path                    = /data0/search/sphinx/data/t_source_main
        docinfo                 = extern
        mlock                   = 0
        morphology              = none
        min_word_len            = 1
        charset_type            = utf-8
        min_prefix_len          = 0
        html_strip              = 1
        charset_table           = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
        ngram_len               = 1
        ngram_chars             = U+3000..U+2FA1F
}
...省略...

　　②、中文分词位于搜索查询模块。搜索“反恐行动游戏”、“国产网络游戏”，先调用独立的中文分词系统，分别切分为“反恐行动游戏”、“国产网络游戏”，这时候，再给以空格分隔的词语加上引号，去Sphinx搜索【"反恐行动" "游戏"】或【"国产" "网络游戏"】，就能搜索到这条记录了。中文分词词库发生增、删、改，无需重建整个Sphinx搜索索引。

　　2、使用自行开发的HTTPSQS（http://code.google.com/p/httpsqs）开源简单队列服务程序，来缓冲高并发数据写入

　　新闻、论坛帖子、客服公告、SNS社区等发生的增、删、改操作，文本内容通过更新接口实时写入HTTPSQS队列，再通过队列控制器更新到Sphinx搜索引擎索引中。

　　3、Sphinx不能严格按照字段排序的小问题

　　如果不想使用权重，只希望严格按照时间、主键等排序，而匹配模式（Matching modes）又为非SPH_MATCH_BOOLEAN时（比较常用的是SPH_MATCH_ALL、SPH_MATCH_EXTENDED），Sphinx搜索结果在某一页中的排序会不太准确。例如：按照UNIX时间戳倒序排序，0,20为第一页，20,40为第二页，第一页的最小时间戳一定会大于第二页的最大时间戳，但是，第一页中的0,20条记录却不会严格按照时间戳排序，第二页亦是如此。因此，如果需要精确排序，用户翻到搜索结果的某一页，就需要对Sphinx在某一搜索结果页中的记录另行再排序，在我的这套搜索架构中，这一再排序操作由search.php查询接口使用array_multisort()函数处理。一般情况下，一页只会显示5～30条记录，因此，只对几十条记录采用PHP再排序，速度也是非常快的。

　　4、队列控制器中“时间控制”与“数量控制”相结合，实现搜索索引的1分钟内准实时更新：

　　①、Sphinx 0.9.9生产环境的建索引速度大约在5.5 Mbytes/秒、6400文档/秒。队列控制器可以设置10秒钟更新一次增量索引，只要Sphinx增量索引数据源的文档数在38万以内，就能保证增量索引在1～60秒内得到更新，这是从“时间”上进行控制。

　　②、为了避免增量索引数据源的文档数增长到38万，队列控制器在增量索引数据源的文档数超过1万时，还将激活增量索引合并入主索引的操作，合并完成的文档将从增量索引数据源中删除，这是从“数量”上进行控制。

　　5、自行编写的“搜索引擎查询API接口”调用说明：

http://xxx.xxx.xxx.xxx/search.php?query=%E9%87%91%E5%B1%B1  （搜索关键字。程序能够识别关键字是GBK编码还是UTF-8编码，能够识别关键字是否进行了URL编码）
&output=xml  （输出类型支持：xml 或 json）
&excerpts=1  （是否开启高亮显示与文本摘要，1开启或 0关闭）
&excerpts_before=<font color=red>  （高亮显示与文本摘要，如果为空值则不进行高亮显示与文本摘要。在匹配的关键字前面插入的字符串。）
&excerpts_after=</font>  （高亮显示与文本摘要，如果为空值则不进行高亮显示与文本摘要。在匹配的关键字之后插入的字符串。）
&excerpts_limit=256  （高亮显示与文本摘要，如果为空值则不进行高亮显示与文本摘要。摘要最多包含的符号（码点）数。）
&excerpts_field=c1,c2,c3,c4,c5  （仅对指定的字段进行高亮显示，其余字段不进行高亮显示，如果此参数为空，则默认所有的字符型字段都进行高亮显示）
&offset=0&limit=20  （相当于SQL语句中的limit 0,20）
&max_matches=30000  （最大搜索结果集数量）
&match_mode=SPH_MATCH_EXTENDED2
&ranking_mode=SPH_RANK_PROXIMITY_BM25
&sort_mode=SPH_SORT_EXTENDED&sort_by=@relevance DESC,u1 ASC,@id DESC  （排序模式：@relevance和@id是内置变量，@relevance代表相关度权值，@id等于search_id，u1为字段名）
&field_weights=c1,7;c2,1  （权重设置：字段c1的权重为7，字段c2的权重为1）
&filter=u1:0_1_6,false;u2:4,true  （整数值过滤器：匹配字段u1等于0、1或6，并且字段u2不等于4的结果集。false表示等于，true表示不等于）
&filter_range=u1:0,100,false;u2:50,90,true  （整数范围过滤器：字段u1 >= 0并且u1 <= 100，字段u2 < 50并且u2 > 90）
&filter_range=u1:1.23,99.645,false;u2:1034.3,7834.56,true  （浮点数范围过滤器：字段u1 >= 1.23并且u1 <= 99.645，字段u2 < 1034.3并且u2 > 7834.56）

　　6、搜索结果前台页面示例：

　　

　　7、同一套服务器平台与API接口，通用于各类产品：

　　示例：

　　金山游戏文章与视频搜索：http://s.xoyo.com/result.php?w=%E5%89%91%E7%BD%913

　　金山游戏论坛帖子搜索：http://jx3.bbs.xoyo.com/search2.php?srchtxt=%E4%B8%83%E7%A7%80&select=title

Tags: sphinx , , , search , api

技术大类 » 搜索引擎技术 | 评论(0) | 引用(0) | 阅读(55)

PHP 真正多线程的使用

[

2015/05/26 08:12 | by admin ]

　　PHP 5.3 以上版本，使用pthreads PHP扩展，可以使PHP真正地支持多线程。多线程在处理重复性的循环任务，能够大大缩短程序执行时间。

　　我之前的文章中说过，大多数网站的性能瓶颈不在PHP服务器上，因为它可以简单地通过横向增加服务器或CPU核数来轻松应对（对于各种云主机，增加VPS或CPU核数就更方便了，直接以备份镜像增加VPS，连操作系统、环境都不用安装配置），而是在于MySQL数据库。如果用 MySQL 数据库，一条联合查询的SQL，也许就可以处理完业务逻辑，但是，遇到大量并发请求，就歇菜了。如果用 NoSQL 数据库，也许需要十次查询，才能处理完同样地业务逻辑，但每次查询都比 MySQL 要快，十次循环NoSQL查询也许比一次MySQL联合查询更快，应对几万次/秒的查询完全没问题。如果加上PHP多线程，通过十个线程同时查询NoSQL，返回结果汇总输出，速度就要更快了。我们实际的APP产品中，调用一个通过用户喜好实时推荐商品的PHP接口，PHP需要对BigSea NoSQL数据库发起500~1000次查询，来实时算出用户的个性喜好商品数据，PHP多线程的作用非常明显。

　　PHP扩展下载：https://github.com/krakjoe/pthreads
　　PHP手册文档：http://php.net/manual/zh/book.pthreads.php

　　1、扩展的编译安装(Linux），编辑参数 --enable-maintainer-zts 是必选项：

cd /Data/tgz/php-5.5.1
./configure --prefix=/Data/apps/php --with-config-file-path=/Data/apps/php/etc --with-mysql=/Data/apps/mysql --with-mysqli=/Data/apps/mysql/bin/mysql_config --with-iconv-dir --with-freetype-dir=/Data/apps/libs --with-jpeg-dir=/Data/apps/libs --with-png-dir=/Data/apps/libs --with-zlib --with-libxml-dir=/usr --enable-xml --disable-rpath --enable-bcmath --enable-shmop --enable-sysvsem --enable-inline-optimization --with-curl --enable-mbregex --enable-fpm --enable-mbstring --with-mcrypt=/Data/apps/libs --with-gd --enable-gd-native-ttf --with-openssl --with-mhash --enable-pcntl --enable-sockets --with-xmlrpc --enable-zip --enable-soap --enable-opcache --with-pdo-mysql --enable-maintainer-zts
make clean
make
make install

unzip pthreads-master.zip
cd pthreads-master
/Data/apps/php/bin/phpize
./configure --with-php-config=/Data/apps/php/bin/php-config
make
make install

vi /Data/apps/php/etc/php.ini

添加：

extension = "pthreads.so"

　　2、给出一段PHP多线程、与For循环，抓取百度搜索页面的PHP代码示例：

view plain print ?

<?php
class test_thread_run extends Thread
{
public $url;
public $data;
public function __construct($url)
{
$this->url = $url;
}
public function run()
{
if(($url = $this->url))
{
$this->data = model_http_curl_get($url);
}
}
}
function model_thread_result_get($urls_array)
{
foreach ($urls_array as $key => $value)
{
$thread_array[$key] = new test_thread_run($value["url"]);
$thread_array[$key]->start();
}
foreach ($thread_array as $thread_array_key => $thread_array_value)
{
while($thread_array[$thread_array_key]->isRunning())
{
usleep(10);
}
if($thread_array[$thread_array_key]->join())
{
$variable_data[$thread_array_key] = $thread_array[$thread_array_key]->data;
}
}
return $variable_data;
}
function model_http_curl_get($url,$userAgent="")
{
$userAgent = $userAgent ? $userAgent : 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2)';
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($curl, CURLOPT_TIMEOUT, 5);
curl_setopt($curl, CURLOPT_USERAGENT, $userAgent);
$result = curl_exec($curl);
curl_close($curl);
return $result;
}
for ($i=0; $i < 100; $i++)
{
$urls_array[] = array("name" => "baidu", "url" => "http://www.baidu.com/s?wd=".mt_rand(10000,20000));
}
$t = microtime(true);
$result = model_thread_result_get($urls_array);
$e = microtime(true);
echo "多线程：".($e-$t)."\n";
$t = microtime(true);
foreach ($urls_array as $key => $value)
{
$result_new[$key] = model_http_curl_get($value["url"]);
}
$e = microtime(true);
echo "For循环：".($e-$t)."\n";
?>

Tags: php多线程 , , , php , 多线程 , pthreads

技术大类 » PHP/JS/Shell | 评论(0) | 引用(0) | 阅读(46)

雪糕雪糕

Bo-Blog 2.1.1 的 Nginx Rewrite 规则[原创]

快速配置 Samba 将 Linux 目录映射为 Windows 驱动器，用于跨平台编程

iPhone大小的盒子服务器Cubieboard

基于Sphinx构建准实时更新的分布式通用搜索引擎平台[原创]

PHP 真正多线程的使用

分类

日历

搜索

统计

最新日志

最新评论

链接

归档

其他

< 2025 > < 12 >
日	一	二	三	四	五	六
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31