Python 提取图片的主体颜色

2020年11月5日 没有评论

如果要计算一个图片的平均色或者是主题色,过去的做法是遍历图片的像素点,然后分别针对R\G\B做加权平均。但是这样会产生一个意料之外的结果,就是这个平均值的颜色,在这个图片上根本就没有出现过。它仅仅是数学意义上的平均值。

所以另外一种思路就是根据图片里的颜色做聚类分析,只在已经存在的颜色范围里计算。这里可以使用 k-means 传统机器学习算法。

from skimage import io
from sklearn.cluster import KMeans
import numpy as np

# k-means中的k值,即选择几个中心点
k = 3

img = io.imread('city.jpg')
# 转换数据维度
img_ori_shape = img.shape
img1 = img.reshape((img_ori_shape[0] * img_ori_shape[1], img_ori_shape[2]))
img_shape = img1.shape

# 获取图片色彩层数
n_channels = img_shape[1]
# 构造聚类器
estimator = KMeans(n_clusters=k, max_iter= 4000, init='k-means++', n_init=50)
estimator.fit(img1) # 聚类
centroids = estimator.cluster_centers_  # 获取聚类中心

# 生成一个可视化矩阵
result = []
result_width = 200
result_height_per_center = 80
for center_index in range(k):
    result.append(np.full((result_width * result_height_per_center, n_channels), 
    centroids[center_index], dtype=int))
result = np.array(result)
result = result.reshape((result_height_per_center * k, result_width, n_channels))
# 保存矩阵到图片
io.imsave('result.jpg', result)

最后放上测试使用的图片,有兴趣的同学可以试一试,顺序有可能不一样,但是颜色应该是这几个。

分类: Python, 日常 标签:

SoundTouch

2020年10月1日 没有评论

SoundTouch是一个开源的音频处理库,其官网(http://soundtouch.surina.net),该库支持在windows、GNU、android平台的安装,有编译好的库也有源码。

主要实现包含变速、变调、变速同时变调等三个 功能模块,能够对媒体流实时操作,也能对音频文件操作。

Soundtouch支持音频的变时不变调处理(tempo),变调不变时处理(pitch),和变时变调处理(playback rate),在soundtouch的可执行命令里对应tempo、pitch、rate。

分类: 一句话, 日常 标签: ,

获取Firefox当前打开的标签页地址

2020年9月3日 没有评论

说起三大浏览器,当然少不了火狐浏览器了。我们继续探讨如何获取该浏览器的当前标签页地址。

首选我们需要下载 NDde.dll 这个文件,添加其引用。

using NDde.Client;

DdeClient dde = new DdeClient("Firefox", "WWW_GetWindowInfo");
dde.Connect();
string url = dde.Request("URL", int.MaxValue);
dde.Disconnect();

MessageBox.Show(url);

虽然是要借助于第三方的库,但是可用快速实现 Demo 也是蛮不错的选择了。

关于NDde,原来的官网已经停止维护了,我看Github上有一个fork该项目的地址,https://github.com/anphonic/NDde 大家可以移步看看。

分类: 一句话 标签:

获取IE当前打开的标签页地址

2020年8月3日 没有评论

在前面的文章中,有分享获取chrome标签页地址的代码。现在,再来看看如何查找到 IE标签页的地址。

首先,我们需要添加2个引用:

1、引用c:\windows\system32\SHDocVw.dll

2、引用COM组件Microsoft HTML Object Library

SHDocVw.ShellWindows sws = new SHDocVw.ShellWindows();
StringBuilder sb = new StringBuilder();
foreach (SHDocVw.InternetExplorer iw in sws)
{
	sb.AppendLine(iw.LocationURL);
}
MessageBox.Show(sb.ToString());

这里iw是所有一打开的IE,包括IE本身或者基于IE内核的企业浏览器,还包括我的电脑打开的所有窗口。
你可根据实际情况筛选掉 file 开头的地址。http开头的都是当前打开的IE的地址。

分类: 一句话, 日常 标签:

图像形态学处理cv2.dilate膨胀函数

2020年7月29日 没有评论

在前面接触到阈值处理函数后,又继续了解到 opencv 的腐蚀函数和膨胀函数。腐蚀函数可以用来处理图片里不重要的噪音或者纹理。而膨胀函数如字面意义,处理后图像看起来像气球涨起来了一样,可以借此兼容图片里的孔洞或者边缘的缺陷。

膨胀函数定义如下:
cv2.dilate(src, kernel, iteration)

参数说明:
src表示输入的图片,
kernel表示方框的大小,
iteration表示迭代的次数,迭代次数越多,膨胀幅度越大

膨胀操作原理:存在一个kernel,在图像上进行从左到右,从上到下的平移,如果方框中存在白色,那么这个方框内所有的颜色都是白色。有此可见,这个kernel 的尺寸选择,就比较重要了。

下面是效果示意图:

左上角部分是添加了噪音部分,左下角是对其进行腐蚀后的图,可以看到,基本上可以得到我们所需要的内容了。右下角是针对腐蚀后的图进行膨胀,这2个函数都是只进行1次迭代。结果可以看到和原图差不多了。

分类: Python 标签:

Yolo探索之 OpenCV 安装

2020年7月6日 没有评论

其实 opencv 对于 windows 平台是很友好的,先从这里下载最新版本的opencv的包,看起来是个exe,其实就是一个自解压缩包,解压缩完成后,界面就会自动消失,所以大家不要慌。

我这里就给放到了 c:\tools 目录下。

再接下来就是要添加环境变量了,在 opencv\build 目录下,有一个setup_vars_opencv4.cmd 文件,在命令行下以管理员权限执行它,就会增加一部分环境变量。

然后【我的电脑(右键)】->【属性】->【高级系统设置】->【高级(标签)】->【环境变量】->“双击”系统变量中的Path->在变量值里面添加相应的路径。

由于目录下有 vc14 和 vc15 两个目录,所以建议把这两个都给加进去,例如 C:\Tools\opencv\build\x64\vc15\bin。

还有最后一步,就是重启系统以便生效。我没有重启系统,后面编译 yolo 的时候就报错了。所以为了稳妥起见,重启下还是比较好。

分类: AI, 一句话 标签: ,

获取chrome当前标签页的地址

2020年7月3日 没有评论

在评估一个demo的时候,有一个需求是要获得用户当前浏览器正在访问的网页是否命中我们的白名单,如果是的话,则会开启一系列的优化模式设定。

经过一番搜索,发现可以使用微软的自动化测试框架来间接满足我们的要求。

MS UI Automation是MSAA技术的一个替代品:即让控件和应用程序具有更好的可达性(accessible)。简单来讲,它就是几个dll,提供了一套API和Interface,及其相应的模式,让软件的开发者遵循该模式去实现相应的interface,从而软件的使用者(不仅仅是客户,还包括例如测试人员想编写一些自动化测试代码来完成程序相关的业务逻辑)能更好的使用该软件。

在UI Automation中,所有的窗体、控件都表现为一个AutomationElement, AutomationElement 中包含此控件或窗体的属性,在实现自动化的过程中,我们通过其相关属性进行对控件自动化操作。对于UI用户界面来说,所有显示在桌面上的UI,其实际是一个UI Tree,根节点是desktop。我们可以使用UI Spy或者是SPY++来获得Window和Control的相关信息。在UI Automation里,根节点表示为AutomationElemnet.RootElement. 通过根节点,我们可以通过窗体或控件的Process Id、Process Name或者Window Name找到相应的子AutomationElement,例如 Dialog、Button、 TextBox、Checkbox等标准控件,通过控件所对应的Pattern进行相关的操作。

Process[] procsChrome = Process.GetProcessesByName("chrome");

if (procsChrome.Length <= 0)
{
    Console.WriteLine("未找到 chrome 进程");
}

foreach (Process proc in procsChrome)
{
    // the chrome process must have a window 
    if (proc.MainWindowHandle == IntPtr.Zero)
    {
        continue;
    }

    AutomationElement root = AutomationElement.FromHandle(proc.MainWindowHandle);
    Condition conditions = new AndCondition(
        new PropertyCondition(AutomationElement.ProcessIdProperty, proc.Id),
        new PropertyCondition(AutomationElement.IsControlElementProperty, true),
        new PropertyCondition(AutomationElement.IsContentElementProperty, true),
        new PropertyCondition(AutomationElement.ControlTypeProperty, ControlType.Edit)
    );

    AutomationElement bar = root.FindFirst(TreeScope.Descendants, conditions);

    if(bar != null)
    {
        var url = bar.GetCurrentPropertyValue(ValuePatternIdentifiers.ValueProperty).ToString();
        Console.WriteLine(url);
    }
}

不过,根据网上的说法,这样的代码只在v53以上版本才有效果。目前浏览器版本都7、80了,对于一个demo而言,应该可以满足大部分要求了。

分类: 日常 标签:

图像阈值处理cv2.threshold函数

2020年6月29日 没有评论

最近做图片处理时,看别人代码使用了 opencv 的阈值函数 threshold,网上搜索了下这个函数的使用说明。

简单地讲,所谓阈值就是说如果待处理的数据达到了某个临界点后,如何处理的方式。

python里定义如下:
cv2.threshold(src, thresh, maxval, type[, dst]) → retval, dst

参数说明如下:
src:源图片
thresh:阈值,取值范围0~255
maxval:填充值,取值范围0~255
type:阈值类型,表示的是这里划分的时候使用的是什么类型的算法,常用值为0(cv2.THRESH_BINARY)

图中(x,y)表示的是图像中的坐标
INV 表示的是取反
一般的(BINARY)效果是:
将一个灰色的图片,变成要么是白色要么就是黑色。(大于规定thresh值就是设置的最大值(常为255,也就是白色))

下面是几个方式的效果图

THRESH_BINARY
THRESH_BINARY_INV
THRESH_TRUNC
THRESH_TOZERO
THRESH_TOZERO_INV

实际操作上来说,建议传入已经灰度处理后的图像。

分类: Python, 日常 标签:

apt-get -f install执行之后错误,python配置出错

2020年6月16日 没有评论

这几天在尝试在ARM上安装python3,是各种麻烦的很。突然发现apt-get install后各种报错,郁闷之极。

现在回头再检查,应该就是当初运行了 apt-get -f install 命令导致的。

因为是安装各种软件都有这个问题,所以影响很大,内心恨不得要把系统给重装了才对。在网上各种检索都不对,后来无意间终于发现了一个方法

亲测有效。但是不知道原因。

cd /var/lib/dpkg  
sudo mv info info.bak  
sudo mkdir info

就这么简单的几行代码,解决了问题。

现在要做的就是回想当初遗漏了哪些命令。

分类: Firefly, 一句话 标签:

根据进程获取 UWP 的包信息

2020年5月15日 没有评论

最近的一个实验项目,要监控UWP程序的启动。发现了一个比较简单的方式是使用 WMI,当有新的进程被创建时,就可以收到一个消息回调,这样的方式比不断地去轮询要优雅和有效率的多。

但是我们的目标UWP,是采用 WinJS开发的,这样会带来一个问题。就是在进程列表里,它是托管在一个叫做 wwahost.exe 的进程里的。如果有多个类似的程序的话,我们无法简单地区分出来。

所以我们需要进一步获取详细信息以便做过滤,幸好微软提供了配套的东西。我们可以使用一个叫做 UserModelId的东西来对不同的UWP程序做区分。下面是来自微软官方的实例代码(https://docs.microsoft.com/zh-cn/windows/win32/api/appmodel/nf-appmodel-getapplicationusermodelid)。

#define _UNICODE 1
#define UNICODE 1

#include <Windows.h>
#include <appmodel.h>
#include <malloc.h>
#include <stdlib.h>
#include <stdio.h>

int ShowUsage();
void ShowProcessApplicationUserModelId(__in const UINT32 pid, __in HANDLE process);

int ShowUsage()
{
    wprintf(L"Usage: GetApplicationUserModelId <pid> [<pid>...]\n");
    return 1;
}

int __cdecl wmain(__in int argc, __in_ecount(argc) WCHAR * argv[])
{
    if (argc <= 1)
        return ShowUsage();

    for (int i=1; i<argc; ++i)
    {
        UINT32 pid = wcstoul(argv[i], NULL, 10);
        if (pid > 0)
        {
            HANDLE process = OpenProcess(PROCESS_QUERY_LIMITED_INFORMATION, FALSE, pid);
            if (process == NULL)
                wprintf(L"Error %d in OpenProcess (pid=%u)\n", GetLastError(), pid);
            else
            {
                ShowProcessApplicationUserModelId(pid, process);
                CloseHandle(process);
            }
        }
    }
    return 0;
}

void ShowProcessApplicationUserModelId(__in const UINT32 pid, __in HANDLE process)
{
    wprintf(L"Process %u (handle=%p)\n", pid, process);

    UINT32 length = 0;
    LONG rc = GetApplicationUserModelId(process, &length, NULL);
    if (rc != ERROR_INSUFFICIENT_BUFFER)
    {
        if (rc == APPMODEL_ERROR_NO_APPLICATION)
            wprintf(L"Desktop application\n");
        else
            wprintf(L"Error %d in GetApplicationUserModelId\n", rc);
        return;
    }

    PWSTR fullName = (PWSTR) malloc(length * sizeof(*fullName));
    if (fullName == NULL)
    {
        wprintf(L"Error allocating memory\n");
        return;
    }

    rc = GetApplicationUserModelId(process, &length, fullName);
    if (rc != ERROR_SUCCESS)
        wprintf(L"Error %d retrieving ApplicationUserModelId\n", rc);
    else
        wprintf(L"%s\n", fullName);

    free(fullName);
}

整体的代码比较简单,没有什么特别好说的。代码中一共调用了2次GetApplicationUserModelId方法,第一次是为了计算数据的长度,然后第二次根据数据长度重新请求以得到最终的数据。

这就是我为什么讨厌C++的原因,把指针的操作搞这么恶心。

在代码验证后,又发现了另外一个API:IsImmersiveProcess ,通过该函数可以简单地判断一个进程是否是Store类型的程序,在有的场合例如唯一性校验上还是有帮助的。有兴趣可以移步 https://docs.microsoft.com/en-us/windows/win32/api/winuser/nf-winuser-isimmersiveprocess

分类: C++, 一句话, 日常 标签: , ,